MLX Studio란 무엇인가요?

MLX Studio is a free macOS app for AI chat and agentic coding, powered by vMLX Engine. It is the only local AI app on Mac with a full 5-layer caching stack (prefix cache, paged KV, KV quantization q4/q8, continuous batching, persistent disk cache), hybrid SSM/Mamba architecture support, and 20+ built-in agentic tools via MCP. No competing app — not oMLX, not LM Studio, not Inferencer — combines all of these capabilities.

How is MLX Studio better than oMLX?

oMLX has SSD caching, continuous batching, prefix caching, tool calling, and a Responses API (added March 2025). But MLX Studio has KV cache quantization (q4/q8) saving 2-8x cache memory, hybrid SSM/Mamba support for Nemotron-H and Jamba models, 20+ built-in agentic coding tools (file I/O, shell, web search, git, browser automation), 14 auto-detected tool call parsers, 4 reasoning parsers with collapsible UI, speculative decoding, and audio TTS/STT — none of which oMLX offers. oMLX added VLM support but without KV quantization. MLX Studio's engine is strictly more capable.

How is MLX Studio better than LM Studio?

MLX Studio is 224x faster than LM Studio at 100K context (154,121 vs 686 tokens/sec). LM Studio uses llama.cpp with basic token caching but has no KV cache quantization, no persistent disk cache, no prefix caching for instant TTFT, and no built-in agentic tools. MLX Studio also has 14 tool call parsers, 4 reasoning parsers, hybrid SSM/Mamba support, and both Responses and Chat Completions APIs — LM Studio has none of these.

How is MLX Studio better than Inferencer?

Inferencer is a freemium app focused on token inspection. It has no caching stack (no prefix cache, no KV quantization, no disk cache, no continuous batching), no agentic coding tools, no tool call parsers, no reasoning parsers, no Responses API, no hybrid SSM/Mamba support, and no speculative decoding. MLX Studio is free and has all of these features.

MLX Studio와 vMLX Engine의 차이점은 무엇인가요?

MLX Studio is the app — the chat UI, agentic tools, model browser, and settings interface you interact with. vMLX Engine is the inference backend that powers it — the caching, batching, model loading, and API layer. Think of it like LM Studio and llama.cpp, except vMLX Engine is 224x faster.

인터넷이 필요한가요?

모델을 처음 다운로드할 때만 필요합니다. 모든 추론은 클라우드 연결 없이, API 키 없이, 데이터 유출 없이 Mac에서 로컬로 실행됩니다. Unlike LM Studio and Inferencer which have cloud/subscription tiers, MLX Studio is completely free with no cloud dependency.

어떤 Mac이 필요한가요?

macOS 26(Tahoe)을 실행하는 Apple Silicon(M1 이상) Mac이 필요합니다. 최소 8 GB RAM, 16 GB 이상 권장. 원격 엔드포인트는 macOS 14 이상에서 작동합니다. MLX Studio is purpose-built for Apple Silicon unified memory using MLX, not llama.cpp like LM Studio or Ollama.

클라우드 API도 사용할 수 있나요?

Yes. Connect to OpenAI, Anthropic, Groq, or any OpenAI-compatible endpoint. Studio's 20+ agentic tools work with both local and remote models — a capability no other local AI app offers.

MLX Studio — Mac에서 채팅, 코딩, 이미지 생성

Name: MLX Studio
Availability: InStock
Author: MLX Studio

20+

에이전트 도구

224×

100K 컨텍스트에서 더 빠름

50+

모델 아키텍처

11

API 엔드포인트

기능

필요한 모든 것. 클라우드 없이.

어떤 모델이든 채팅하고, Flux로 이미지를 생성하고, 20개 이상의 에이전틱 도구로 코딩하고, Anthropic 또는 OpenAI API를 사용하고, 포맷 간 모델을 변환하세요 — 모두 Mac에서 로컬로 실행됩니다. API 키 없음, 구독 없음, 데이터 유출 없음. 간단한 채팅 앱을 원하는 초보자와 KV 캐시 양자화, 프리픽스 캐싱, 추측적 디코딩, 14개 도구 파서를 갖춘 완전한 추론 스택이 필요한 고급 사용자 모두를 위해 제작되었습니다.

스트리밍 채팅 UI

멀티턴 스트리밍 대화, 인라인 도구 호출 표시, 접이식 추론 블록, 이미지 미리보기, 실시간 상태 표시. 모든 디테일이 명확하게 설계되었습니다.

이미지 생성 & 편집

로컬에서 이미지를 생성하고 편집하세요. 5개 생성 모델(Flux Schnell, Dev, Klein) + 4개 편집 모델(Qwen Image Edit, Flux Kontext, Flux Fill). 클라우드 없음, API 키 없음.

음성 채팅

모든 응답에 내장된 텍스트 음성 변환. Mac 네이티브 음성 합성을 사용하여 핸즈프리로 AI 출력을 들으세요.

비전 & 멀티모달

이미지를 채팅에 드래그 앤 드롭하세요. Qwen VL 같은 비전 모델이 로컬에서 시각적 콘텐츠를 분석하며, 클릭하여 확대할 수 있습니다.

추론 블록

DeepSeek R1, Qwen 3, GLM 등의 모델을 위한 접이식 사고 섹션. 모델의 사고 과정을 확인하세요.

Anthropic + OpenAI API

네이티브 Anthropic Messages API 엔드포인트와 OpenAI Chat 및 Responses API. Claude Code, Anthropic SDK 또는 호환 클라이언트를 사용하세요. 원격 엔드포인트도 연결 가능합니다.

모델 변환기

표준 프로필(Balanced 4-bit, Quality 8-bit, Compact 3-bit)과 JANG 혼합 정밀도 프로필(2S~6M)을 지원하는 내장 GGUF-to-MLX 변환기. 커맨드 라인 없이 모든 모델을 변환하세요.

HuggingFace 브라우저

앱에서 직접 MLX 모델을 검색, 탐색, 다운로드하세요. 한 번의 클릭으로 어떤 모델이든 채팅을 시작할 수 있습니다.

5계층 캐싱 스택

프리픽스 캐시, 페이지드 멀티컨텍스트 KV, KV 양자화(q4/q8), 연속 배칭(256 시퀀스), 영구 디스크 캐시. 이 다섯 가지를 모두 결합한 로컬 앱은 없습니다.

추측적 디코딩

설정 가능한 드래프트 모델로 20–90% 더 빠른 생성. 대형 모델이 드래프트 토큰을 병렬로 검증합니다 — 동일한 품질, 더 적은 GPU 패스.

50+ 아키텍처 & 14개 파서

Llama, Qwen, DeepSeek, Gemma, Mistral, Phi, GLM, Nemotron, MiniMax, Jamba 등을 자동 감지합니다. 14개 도구 호출 파서, 4개 추론 파서 — 수동 설정이 필요 없습니다.

CLI: pip install vmlx

오픈 소스 엔진. pip install vmlx 후 vmlx serve model로 실행. 터미널에서 변환, 벤치마크, 진단. Apache 2.0.

MCP 네이티브 지원

내장 MCP(Model Context Protocol) 서버. 20개 이상의 내장 도구와 함께 외부 MCP 도구를 연결하세요. 최대 10회 반복까지 에이전트 루프 자동 계속.

하이브리드 SSM & Mamba

Nemotron-H, Jamba, GatedDeltaNet 아키텍처를 위한 전용 BatchMambaCache. 하이브리드 어텐션 + SSM 모델을 올바르게 실행하는 유일한 로컬 앱.

에이전트 도구

20개 이상의 내장 도구. 설정 불필요.

네이티브 MCP 도구 호출을 지원하는 유일한 로컬 AI 앱. 모델이 읽기, 쓰기, 검색, 실행을 할 수 있으며 — 모두 로컬에서 실행됩니다. oMLX, LM Studio, Inferencer에는 내장 에이전트 도구가 없습니다.

MLX Studio — Agentic Tools

MLX Studio agentic coding tools interface showing file I/O, code search, shell execution, web search, git integration, and clipboard tools

파일 I/O

read_file write_file edit_file list_dir copy move delete

코드 검색

grep glob

Shell

execute_command

웹 검색

duckduckgo_search brave_search

URL Fetch

fetch_url

Git

git_status git_diff git_log git_show

유틸리티

clipboard_read clipboard_write current_datetime

이미지 생성 & 편집

Mac에서 로컬로 이미지를 생성 및 편집하세요

5개의 이미지 생성 모델(Flux Schnell, Dev, Z-Image Turbo, Klein 4B, Klein 9B)과 4개의 이미지 편집 모델(Qwen Image Edit, Flux Kontext, Flux Fill, Flux Klein Edit). 사진과 텍스트 프롬프트를 제출하여 인페인팅, 변환, 스타일 변경이 가능합니다. 모델은 자동으로 다운로드됩니다. 클라우드 API 없음, 구독 없음 — Apple Silicon에서 완전히 실행됩니다.

MLX Studio — 이미지 생성 & 편집

MLX Studio 이미지 생성 및 편집 인터페이스 - Flux Schnell, Dev, Z-Image Turbo, Klein, Qwen Image Edit, Flux Kontext, Flux Fill

채팅

추론 & 비전이 포함된 스트리밍 채팅

접이식 추론 블록, 인라인 코드 하이라이팅, 이미지 미리보기, 실시간 토큰 스트리밍이 포함된 멀티턴 대화. 비전 모델용 이미지 드래그 앤 드롭. 채팅별 temperature, top-p, 시스템 프롬프트, 최대 토큰 설정. 채팅 기록은 SQLite에 저장됩니다.

MLX Studio — Chat

모델

한 번의 클릭으로 모델을 탐색 & 다운로드

내장 HuggingFace 모델 브라우저. MLX 모델을 검색하고, 텍스트 또는 이미지로 필터링하고, 크기와 아키텍처를 확인하고, 한 번의 클릭으로 다운로드하세요.

MLX Studio — Model Browser

항상 접근 가능

메뉴 바 컨트롤

실시간 서버 상태, 빠른 모델 전환, 세션 컨트롤 — 메뉴 바에서 항상 한 번의 클릭으로 접근 가능합니다.

기반 엔진 · 오픈 소스

vMLX Engine

github.com/jjang-ai/vmlx에서 오픈 소스로 공개 — pip install vmlx로 설치하세요. Mac에서 5계층 캐싱 스택을 갖춘 유일한 로컬 AI 엔진: 프리픽스 캐시, 페이지드 KV, KV 양자화(q4/q8), 연속 배칭, 영구 디스크 캐시. Anthropic Messages API와 OpenAI 호환 엔드포인트 모두 제공 — Claude Code, Anthropic SDK 또는 호환 클라이언트를 사용하세요. 50+ 아키텍처, 14개 도구 파서, 4개 추론 파서, Mamba/SSM 하이브리드, 추측적 디코딩.

2.5K context

vMLX 0.05s

Others 0.49s

9.7× faster

첫 번째 토큰까지의 시간

10K context

vMLX 0.08s

Others 6.12s

76× faster

첫 번째 토큰까지의 시간

100K context

vMLX 0.65s

Others 131s

224× faster

콜드 프롬프트 처리

✓ 프리픽스 캐싱 — 대화의 반복되는 부분은 한 번만 계산하고 재사용합니다

✓ 페이지드 KV 캐시 — 모든 채팅이 메모리에 유지되며, 전환 시 제거되지 않습니다

✓ 캐시 양자화 — q4/q8로 캐시 메모리를 4–8배 줄여 더 긴 컨텍스트를 가능하게 합니다

✓ 연속 배칭 — 최대 256개의 동시 시퀀스를 효율적으로 처리합니다

✓ 디스크 캐시 — 프롬프트 계산이 앱 재시작 후에도 유지되어 즉시 웜 스타트가 가능합니다

✓ Apple Silicon 네이티브 — llama.cpp가 아닌 MLX 기반으로, 통합 메모리에 최적화되었습니다

API 레퍼런스 — Anthropic + OpenAI 엔드포인트

MLX Studio — API Reference

모델 변환기 — GGUF-to-MLX & JANG 프로필

MLX Studio — Model Converter

MLX Studio GGUF-to-MLX model converter with standard and JANG quantization profiles

FAQ

자주 묻는 질문

MLX Studio는 AI 채팅과 에이전틱 코딩을 위한 무료 macOS 앱입니다. Mac에서 네이티브 프리픽스 캐싱, 페이지드 KV 캐시, KV 양자화, 연속 배칭, 하이브리드 SSM 지원, 완전한 VLM 통합을 갖춘 유일한 로컬 AI 앱입니다. 파일 편집, 코드 검색, 셸 실행, 웹 검색 등 20개 이상의 내장 도구를 포함하며 — 모두 Apple Silicon에서 로컬로 실행되는 vMLX Engine으로 구동됩니다.

MLX Studio는 앱입니다 — 채팅 UI, 에이전트 도구, 모델 브라우저, 설정 인터페이스입니다. vMLX Engine은 이를 구동하는 추론 백엔드 — 캐싱, 배칭, 모델 로딩, API 계층입니다. LM Studio와 llama.cpp의 관계와 같다고 생각하세요.

모델을 처음 다운로드할 때만 필요합니다. 모든 추론은 클라우드 연결 없이, API 키 없이, 데이터 유출 없이 Mac에서 로컬로 실행됩니다.

macOS 26(Tahoe)을 실행하는 Apple Silicon(M1 이상) Mac이 필요합니다. 최소 8 GB RAM, 16 GB 이상 권장. 원격 엔드포인트는 macOS 14 이상에서 작동합니다.

네. OpenAI, Anthropic, Groq 또는 OpenAI 호환 엔드포인트에 연결할 수 있습니다. Studio의 에이전트 도구는 로컬 및 원격 모델 모두에서 작동합니다.

7개 카테고리에 걸쳐 20개 이상의 도구: 파일 I/O(읽기, 쓰기, 편집, 복사, 이동, 삭제), 코드 검색(grep, glob), 셸 실행, 웹 검색(DuckDuckGo, Brave), URL 가져오기, git(status, diff, log), 유틸리티(클립보드, 날짜/시간).

네. 모든 응답에 TTS 재생 버튼이 있습니다. Qwen VL 같은 비전 모델은 인라인 미리보기와 함께 드래그 앤 드롭으로 이미지 입력을 지원합니다.

네. 완전 무료이며, 코드 서명 및 공증되었습니다. 구독 없음, 사용 제한 없음.

MLX를 위한 GGUF · 오픈 소스

JANG — 모든 크기에서 더 나은 품질

GGUF가 llama.cpp에 K-quants를 제공했습니다. JANG은 MLX에 동일한 역할을 합니다 — 어텐션 레이어를 보호하는 스마트 비트 할당. On Qwen3.5-122B at ~2 bits: 94% MMLU (JANG_4K, 69 GB) vs 90% for MLX 4-bit (64 GB). At 2 bits: 84% MMLU (38 GB) vs 46% for MLX mixed_2_6 (44 GB).

JANG_4K JANG_2S · 122B · 2.11bmiddot; 122B JANG_2S · 122B · 2.11bmiddot; 3.99b
94% MMLU 84% MMLU · 38 GBmiddot; 69 GB
+4 points vs MLX 4-bit (64 GB, 90%)
MLX 4-bit MLX mixed_2_6 · ~2.5bmiddot; 4.0b
90% MMLU 46% MMLU · 44 GBmiddot; 64 GB

MiniMax-M2.5 (230B) — JANG vs MLX

200-question MMLU

JANG_2L · 2.10 bits · 82.5 GB

74%

MLX 4-bit · 119.8 GB

26.5%

JANG 2 bits가 MLX 4 bits보다 3배 높은 점수, 37 GB 적은 RAM 사용. MLX는 이 모델에서 모든 비트 레벨에서 실패.

과목별 MMLU 세부 점수 보기 (10과목)

Subject	JANG_2L	4-bit	3-bit	2-bit
Abstract Algebra	10/20	3/20	2/20	5/20
Anatomy	15/20	7/20	5/20	5/20
Astronomy	20/20	7/20	6/20	4/20
College CS	13/20	4/20	5/20	6/20
College Physics	13/20	8/20	6/20	6/20
HS Biology	18/20	4/20	5/20	6/20
HS Chemistry	18/20	4/20	5/20	5/20
HS Mathematics	8/20	6/20	6/20	3/20
Logical Fallacies	18/20	5/20	4/20	5/20
World Religions	15/20	5/20	5/20	5/20
Total	148/200 (74%)	53/200 (26.5%)	49/200 (24.5%)	50/200 (25%)

JANG이 10과목 모두 승리. MLX 4/3/2-bit 모두 랜덤 수준(25%). 원인: MLX가 답변 대신 메타 코멘터리 생성.

jangq.ai GitHub

로컬에서 채팅 시작

MLX Studio를 다운로드하고 60초 이내에 Mac에서 AI를 실행하세요.

Mac용 다운로드 GitHub에서 보기

MLX Studio에서 무엇이든 만드세요.

필요한 모든 것. 클라우드 없이.

스트리밍 채팅 UI

이미지 생성 & 편집

음성 채팅

비전 & 멀티모달

추론 블록

Anthropic + OpenAI API

모델 변환기

HuggingFace 브라우저

5계층 캐싱 스택

추측적 디코딩

50+ 아키텍처 & 14개 파서

CLI: pip install vmlx

MCP 네이티브 지원

하이브리드 SSM & Mamba

20개 이상의 내장 도구. 설정 불필요.

파일 I/O

코드 검색

Shell

웹 검색

URL Fetch

Git

유틸리티

Mac에서 로컬로 이미지를 생성 및 편집하세요

추론 & 비전이 포함된 스트리밍 채팅

한 번의 클릭으로 모델을 탐색 & 다운로드

메뉴 바 컨트롤

자주 묻는 질문

JANG — 모든 크기에서 더 나은 품질

로컬에서 채팅 시작

MLX Studio에서
무엇이든 만드세요.