Gratis · macOS · Apple Silicon · Todo en uno

Crea lo que quieras
en MLX Studio.

Chat, código, generación de imágenes y razonamiento — todo ejecutándose localmente en tu Mac. La única app de IA con un stack de inferencia completo, más de 20 herramientas agénticas, generación local de imágenes con Flux, y voz/visión/razonamiento. Impulsado por vMLX Engine.

JANG_QEl único motor MLX con cuantización de precisión mixta — 74% MMLU en 230B a 2 bits (82.5 GB) vs MLX 4-bit 26.5% (119.8 GB)
Gratis para siempre Apple Silicon Sin nube 20+ herramientas Generación de imágenes Anthropic API Conversor de modelos 50+ arquitecturas Voz & Visión pip install vmlx
MLX Studio
MLX Studio agentic coding interface — building a Tetris game with AI
MLX Studio — Image Generation
MLX Studio local image generation with Flux Schnell on Apple Silicon

Local image generation with Flux Schnell — 1024×1024 in seconds on Apple Silicon

20+
Herramientas agénticas
224×
Más rápido a 100K contexto
50+
Arquitecturas de modelos
11
Endpoints de API
CARACTERÍSTICAS

Todo lo que necesitas. Sin nube.

Chatea con cualquier modelo, genera imágenes con Flux, programa con más de 20 herramientas agénticas, usa APIs de Anthropic u OpenAI, convierte modelos entre formatos — todo ejecutándose localmente en tu Mac. Sin claves API, sin suscripciones, sin datos saliendo de tu máquina. Diseñado tanto para principiantes que quieren una app de chat simple como para usuarios avanzados que necesitan un stack de inferencia completo con cuantización de caché KV, prefix caching, decodificación especulativa y 14 parsers de herramientas.

Chat en streaming

Conversaciones en streaming multi-turno con indicadores de llamadas a herramientas, bloques de razonamiento plegables, vistas previas de imágenes e indicadores de estado en tiempo real. Cada detalle diseñado para mayor claridad.

Generación & Edición de Imágenes

Genera y edita imágenes localmente. 5 modelos de generación (Flux Schnell, Dev, Klein) + 4 modelos de edición (Qwen Image Edit, Flux Kontext, Flux Fill). Sin nube, sin claves API.

Chat de voz

Texto a voz integrado en cada respuesta. Escucha la salida de IA en modo manos libres con la síntesis de voz nativa de Mac.

Visión y multimodal

Arrastra y suelta imágenes en el chat. Los modelos de visión como Qwen VL analizan contenido visual localmente con vistas previas ampliables.

Bloques de razonamiento

Secciones de pensamiento plegables para modelos como DeepSeek R1, Qwen 3 y GLM. Observa la cadena de pensamiento del modelo.

APIs Anthropic + OpenAI

Endpoint nativo de Anthropic Messages API junto con OpenAI Chat y Responses APIs. Usa Claude Code, Anthropic SDK o cualquier cliente compatible. También conecta a endpoints remotos.

Convertidor de Modelos

Convertidor GGUF-to-MLX integrado con perfiles estándar (Balanced 4-bit, Quality 8-bit, Compact 3-bit) y perfiles JANG de precisión mixta (2S a 6M). Convierte cualquier modelo sin la línea de comandos.

Navegador HuggingFace

Busca, explora y descarga modelos MLX directamente en la app. Un clic para empezar a chatear con cualquier modelo.

Pila de caché de 5 capas

Caché de prefijo, KV multi-contexto paginado, cuantización KV (q4/q8), batching continuo (256 secuencias) y caché de disco persistente. Ninguna otra app local combina las cinco.

Decodificación especulativa

Modelo borrador configurable para una generación 20–90% más rápida. El modelo grande verifica los tokens borrador en paralelo — misma calidad, menos pasadas de GPU.

50+ arquitecturas y 14 parsers

Detecta automáticamente Llama, Qwen, DeepSeek, Gemma, Mistral, Phi, GLM, Nemotron, MiniMax, Jamba y más. 14 parsers de llamadas a herramientas, 4 parsers de razonamiento — sin configuración manual.

CLI: pip install vmlx

Motor de código abierto. pip install vmlx luego vmlx serve model. Convierte, benchmarkea, diagnostica desde terminal. Apache 2.0.

Soporte nativo MCP

Servidor MCP (Model Context Protocol) integrado. Conecta herramientas MCP externas junto con las 20+ herramientas integradas. Continuación automática de bucles de agente hasta 10 iteraciones.

SSM híbrido y Mamba

BatchMambaCache dedicado para arquitecturas Nemotron-H, Jamba y GatedDeltaNet. La única app local que ejecuta correctamente modelos híbridos de atención + SSM.

HERRAMIENTAS AGÉNTICAS

20+ herramientas integradas. Sin configuración.

La única app de IA local con llamadas a herramientas MCP nativas. Los modelos pueden leer, escribir, buscar y ejecutar — todo ejecutándose localmente. oMLX, LM Studio e Inferencer no tienen herramientas agénticas integradas.

MLX Studio — Agentic Tools
MLX Studio agentic coding tools interface showing file I/O, code search, shell execution, web search, git integration, and clipboard tools

Archivo I/O

read_file write_file edit_file list_dir copy move delete

Búsqueda de código

grep glob

Shell

execute_command

Búsqueda web

duckduckgo_search brave_search

URL Fetch

fetch_url

Git

git_status git_diff git_log git_show

Utilidades

clipboard_read clipboard_write current_datetime
GENERACIÓN & EDICIÓN DE IMÁGENES

Genera y edita imágenes localmente en tu Mac

5 modelos de generación de imágenes (Flux Schnell, Dev, Z-Image Turbo, Klein 4B, Klein 9B) y 4 modelos de edición (Qwen Image Edit, Flux Kontext, Flux Fill, Flux Klein Edit). Envía una foto + prompt de texto para inpaint, transformar o cambiar estilos. Los modelos se descargan automáticamente. Sin APIs en la nube, sin suscripciones — se ejecuta completamente en Apple Silicon.

MLX Studio — Generación & Edición de Imágenes
Interfaz de generación y edición de imágenes de MLX Studio - Flux Schnell, Dev, Z-Image Turbo, Klein, Qwen Image Edit, Flux Kontext, Flux Fill
CHAT

Chat en streaming con razonamiento y visión

Conversaciones multi-turno con bloques de razonamiento plegables, resaltado de código en línea, vistas previas de imágenes y streaming de tokens en tiempo real. Arrastra y suelta imágenes para modelos de visión. Temperature, top-p, prompt del sistema y tokens máximos por chat. Historial de chat almacenado en SQLite.

MLX Studio — Chat
MLX Studio chat interface
MODELOS

Explora y descarga modelos con un clic

Navegador de modelos HuggingFace integrado. Busca modelos MLX, filtra por texto o imagen, consulta tamaños y arquitecturas, y descarga con un clic.

MLX Studio — Model Browser
MLX Studio HuggingFace model browser
SIEMPRE ACCESIBLE

Controles en la barra de menú

Estado del servidor en vivo, cambio rápido de modelo y controles de sesión — siempre a un clic en tu barra de menú.

MLX Studio menu bar
Impulsado por · Código abierto
vMLX Engine

Ahora código abierto en github.com/jjang-ai/vmlx — instala con pip install vmlx. El único motor de IA local en Mac con una pila de caché de 5 capas: caché de prefijo, KV paginado, cuantización KV (q4/q8), batching continuo y caché de disco persistente. Sirve tanto Anthropic Messages API como endpoints compatibles con OpenAI — usa Claude Code, Anthropic SDK o cualquier cliente compatible. 50+ arquitecturas, 14 parsers de herramientas, 4 parsers de razonamiento, híbridos Mamba/SSM, decodificación especulativa.

2.5K context
vMLX 0.05s
Others 0.49s
9.7× faster
Tiempo hasta el primer token
10K context
vMLX 0.08s
Others 6.12s
76× faster
Tiempo hasta el primer token
100K context
vMLX 0.65s
Others 131s
224× faster
Procesamiento de prompt en frío
Caché de prefijo — las partes repetidas de tu conversación se calculan una vez y se reutilizan
Caché KV paginada — todos tus chats permanecen en memoria, sin eliminación al cambiar
Cuantización de caché — q4/q8 reduce la memoria caché 4–8 veces, permitiendo contextos más largos
Batching continuo — maneja hasta 256 secuencias concurrentes eficientemente
Caché de disco — los cálculos de prompt sobreviven a reinicios de la app para arranques instantáneos
Apple Silicon nativo — construido sobre MLX, no llama.cpp, optimizado para memoria unificada
Referencia API — Endpoints Anthropic + OpenAI
MLX Studio — API Reference
MLX Studio API reference page showing Anthropic Messages API and OpenAI-compatible endpoints
Conversor de modelos — GGUF-to-MLX & Perfiles JANG
MLX Studio — Model Converter
MLX Studio GGUF-to-MLX model converter with standard and JANG quantization profiles
FAQ

Preguntas frecuentes

MLX Studio es una app gratuita de macOS para chat con IA y programación agéntica. Es la única app de IA local en Mac con caché de prefijo nativo, caché KV paginada, cuantización KV, batching continuo, soporte híbrido SSM e integración completa de VLM. Incluye más de 20 herramientas integradas para edición de archivos, búsqueda de código, ejecución de shell, búsqueda web y más — todo impulsado por vMLX Engine ejecutándose localmente en Apple Silicon.
MLX Studio es la app — la interfaz de chat, herramientas agénticas, navegador de modelos e interfaz de configuración. vMLX Engine es el backend de inferencia que lo impulsa — el caché, batching, carga de modelos y capa API. Piensa en ello como LM Studio y llama.cpp.
Solo para descargar modelos inicialmente. Toda la inferencia se ejecuta localmente en tu Mac sin conexión a la nube, sin claves API y sin datos saliendo de tu dispositivo.
Cualquier Mac con Apple Silicon (M1 o posterior) con macOS 26 (Tahoe). Mínimo 8 GB RAM, 16 GB+ recomendado. Los endpoints remotos funcionan en macOS 14+.
Sí. Conéctate a OpenAI, Anthropic, Groq o cualquier endpoint compatible con OpenAI. Las herramientas agénticas de Studio funcionan tanto con modelos locales como remotos.
Más de 20 herramientas en 7 categorías: archivo I/O (leer, escribir, editar, copiar, mover, eliminar), búsqueda de código (grep, glob), ejecución de shell, búsqueda web (DuckDuckGo, Brave), URL fetch, git (status, diff, log) y utilidades (portapapeles, fecha/hora).
Sí. Cada respuesta tiene un botón de reproducción TTS. Los modelos de visión como Qwen VL aceptan imágenes mediante arrastrar y soltar con vistas previas en línea.
Sí. Completamente gratuito, firmado y notarizado. Sin suscripciones, sin límites de uso.
El GGUF para MLX · Código abierto

JANG — Mejor calidad en cada tamaño

GGUF le dio a llama.cpp los K-quants. JANG hace lo mismo para MLX — asignación inteligente de bits que protege las capas de atención. On Qwen3.5-122B at ~2 bits: 94% MMLU (JANG_4K, 69 GB) vs 90% for MLX 4-bit (64 GB). At 2 bits: 84% MMLU (38 GB) vs 46% for MLX mixed_2_6 (44 GB).

JANG_4K JANG_2S · 122B · 2.11bmiddot; 122B JANG_2S · 122B · 2.11bmiddot; 3.99b
94% MMLU 84% MMLU · 38 GBmiddot; 69 GB
+4 points vs MLX 4-bit (64 GB, 90%)
MLX 4-bit MLX mixed_2_6 · ~2.5bmiddot; 4.0b
90% MMLU 46% MMLU · 44 GBmiddot; 64 GB
MiniMax-M2.5 (230B) — JANG vs MLX
200-question MMLU
JANG_2L · 2.10 bits · 82.5 GB
74%
MLX 4-bit · 119.8 GB
26.5%
JANG a 2 bits puntúa 3x más que MLX a 4 bits usando 37 GB menos de RAM. MLX falla a todos los niveles en este modelo.
Ver desglose MMLU por tema (10 temas)
Subject JANG_2L 4-bit 3-bit 2-bit
Abstract Algebra10/203/202/205/20
Anatomy15/207/205/205/20
Astronomy20/207/206/204/20
College CS13/204/205/206/20
College Physics13/208/206/206/20
HS Biology18/204/205/206/20
HS Chemistry18/204/205/205/20
HS Mathematics8/206/206/203/20
Logical Fallacies18/205/204/205/20
World Religions15/205/205/205/20
Total148/200 (74%)53/200 (26.5%)49/200 (24.5%)50/200 (25%)

JANG gana en los 10 temas. MLX 4/3/2-bit todos al azar (25%). Causa: MLX genera meta-comentarios en vez de respuestas.

jangq.ai GitHub

Empieza a chatear localmente

Descarga MLX Studio y ejecuta IA en tu Mac en menos de 60 segundos.