무료 · macOS · Apple Silicon ·올인원

MLX Studio에서
무엇이든 만드세요.

채팅, 코딩, 이미지 생성, 추론 — 모두 Mac에서 로컬로 실행됩니다. 완전한 추론 스택, 20개 이상의 에이전틱 도구, Flux 로컬 이미지 생성, 음성/비전/추론을 갖춘 유일한 AI 앱. vMLX Engine 기반.

JANG_Q혼합 정밀도 양자화를 지원하는 유일한 MLX 엔진 — 230B에서 2 bits로 74% MMLU (82.5 GB) vs MLX 4-bit 26.5% (119.8 GB)
영구 무료 Apple Silicon 클라우드 없음 20+ 도구 이미지 생성 Anthropic API 모델 변환기 50+ 아키텍처 음성 & 비전 pip install vmlx
MLX Studio
MLX Studio agentic coding interface — building a Tetris game with AI
MLX Studio — Image Generation
MLX Studio local image generation with Flux Schnell on Apple Silicon

Local image generation with Flux Schnell — 1024×1024 in seconds on Apple Silicon

20+
에이전트 도구
224×
100K 컨텍스트에서 더 빠름
50+
모델 아키텍처
11
API 엔드포인트
기능

필요한 모든 것. 클라우드 없이.

어떤 모델이든 채팅하고, Flux로 이미지를 생성하고, 20개 이상의 에이전틱 도구로 코딩하고, Anthropic 또는 OpenAI API를 사용하고, 포맷 간 모델을 변환하세요 — 모두 Mac에서 로컬로 실행됩니다. API 키 없음, 구독 없음, 데이터 유출 없음. 간단한 채팅 앱을 원하는 초보자와 KV 캐시 양자화, 프리픽스 캐싱, 추측적 디코딩, 14개 도구 파서를 갖춘 완전한 추론 스택이 필요한 고급 사용자 모두를 위해 제작되었습니다.

스트리밍 채팅 UI

멀티턴 스트리밍 대화, 인라인 도구 호출 표시, 접이식 추론 블록, 이미지 미리보기, 실시간 상태 표시. 모든 디테일이 명확하게 설계되었습니다.

이미지 생성 & 편집

로컬에서 이미지를 생성하고 편집하세요. 5개 생성 모델(Flux Schnell, Dev, Klein) + 4개 편집 모델(Qwen Image Edit, Flux Kontext, Flux Fill). 클라우드 없음, API 키 없음.

음성 채팅

모든 응답에 내장된 텍스트 음성 변환. Mac 네이티브 음성 합성을 사용하여 핸즈프리로 AI 출력을 들으세요.

비전 & 멀티모달

이미지를 채팅에 드래그 앤 드롭하세요. Qwen VL 같은 비전 모델이 로컬에서 시각적 콘텐츠를 분석하며, 클릭하여 확대할 수 있습니다.

추론 블록

DeepSeek R1, Qwen 3, GLM 등의 모델을 위한 접이식 사고 섹션. 모델의 사고 과정을 확인하세요.

Anthropic + OpenAI API

네이티브 Anthropic Messages API 엔드포인트와 OpenAI Chat 및 Responses API. Claude Code, Anthropic SDK 또는 호환 클라이언트를 사용하세요. 원격 엔드포인트도 연결 가능합니다.

모델 변환기

표준 프로필(Balanced 4-bit, Quality 8-bit, Compact 3-bit)과 JANG 혼합 정밀도 프로필(2S~6M)을 지원하는 내장 GGUF-to-MLX 변환기. 커맨드 라인 없이 모든 모델을 변환하세요.

HuggingFace 브라우저

앱에서 직접 MLX 모델을 검색, 탐색, 다운로드하세요. 한 번의 클릭으로 어떤 모델이든 채팅을 시작할 수 있습니다.

5계층 캐싱 스택

프리픽스 캐시, 페이지드 멀티컨텍스트 KV, KV 양자화(q4/q8), 연속 배칭(256 시퀀스), 영구 디스크 캐시. 이 다섯 가지를 모두 결합한 로컬 앱은 없습니다.

추측적 디코딩

설정 가능한 드래프트 모델로 20–90% 더 빠른 생성. 대형 모델이 드래프트 토큰을 병렬로 검증합니다 — 동일한 품질, 더 적은 GPU 패스.

50+ 아키텍처 & 14개 파서

Llama, Qwen, DeepSeek, Gemma, Mistral, Phi, GLM, Nemotron, MiniMax, Jamba 등을 자동 감지합니다. 14개 도구 호출 파서, 4개 추론 파서 — 수동 설정이 필요 없습니다.

CLI: pip install vmlx

오픈 소스 엔진. pip install vmlxvmlx serve model로 실행. 터미널에서 변환, 벤치마크, 진단. Apache 2.0.

MCP 네이티브 지원

내장 MCP(Model Context Protocol) 서버. 20개 이상의 내장 도구와 함께 외부 MCP 도구를 연결하세요. 최대 10회 반복까지 에이전트 루프 자동 계속.

하이브리드 SSM & Mamba

Nemotron-H, Jamba, GatedDeltaNet 아키텍처를 위한 전용 BatchMambaCache. 하이브리드 어텐션 + SSM 모델을 올바르게 실행하는 유일한 로컬 앱.

에이전트 도구

20개 이상의 내장 도구. 설정 불필요.

네이티브 MCP 도구 호출을 지원하는 유일한 로컬 AI 앱. 모델이 읽기, 쓰기, 검색, 실행을 할 수 있으며 — 모두 로컬에서 실행됩니다. oMLX, LM Studio, Inferencer에는 내장 에이전트 도구가 없습니다.

MLX Studio — Agentic Tools
MLX Studio agentic coding tools interface showing file I/O, code search, shell execution, web search, git integration, and clipboard tools

파일 I/O

read_file write_file edit_file list_dir copy move delete

코드 검색

grep glob

Shell

execute_command

웹 검색

duckduckgo_search brave_search

URL Fetch

fetch_url

Git

git_status git_diff git_log git_show

유틸리티

clipboard_read clipboard_write current_datetime
이미지 생성 & 편집

Mac에서 로컬로 이미지를 생성 및 편집하세요

5개의 이미지 생성 모델(Flux Schnell, Dev, Z-Image Turbo, Klein 4B, Klein 9B)과 4개의 이미지 편집 모델(Qwen Image Edit, Flux Kontext, Flux Fill, Flux Klein Edit). 사진과 텍스트 프롬프트를 제출하여 인페인팅, 변환, 스타일 변경이 가능합니다. 모델은 자동으로 다운로드됩니다. 클라우드 API 없음, 구독 없음 — Apple Silicon에서 완전히 실행됩니다.

MLX Studio — 이미지 생성 & 편집
MLX Studio 이미지 생성 및 편집 인터페이스 - Flux Schnell, Dev, Z-Image Turbo, Klein, Qwen Image Edit, Flux Kontext, Flux Fill
채팅

추론 & 비전이 포함된 스트리밍 채팅

접이식 추론 블록, 인라인 코드 하이라이팅, 이미지 미리보기, 실시간 토큰 스트리밍이 포함된 멀티턴 대화. 비전 모델용 이미지 드래그 앤 드롭. 채팅별 temperature, top-p, 시스템 프롬프트, 최대 토큰 설정. 채팅 기록은 SQLite에 저장됩니다.

MLX Studio — Chat
MLX Studio chat interface
모델

한 번의 클릭으로 모델을 탐색 & 다운로드

내장 HuggingFace 모델 브라우저. MLX 모델을 검색하고, 텍스트 또는 이미지로 필터링하고, 크기와 아키텍처를 확인하고, 한 번의 클릭으로 다운로드하세요.

MLX Studio — Model Browser
MLX Studio HuggingFace model browser
항상 접근 가능

메뉴 바 컨트롤

실시간 서버 상태, 빠른 모델 전환, 세션 컨트롤 — 메뉴 바에서 항상 한 번의 클릭으로 접근 가능합니다.

MLX Studio menu bar
기반 엔진 · 오픈 소스
vMLX Engine

github.com/jjang-ai/vmlx에서 오픈 소스로 공개 — pip install vmlx로 설치하세요. Mac에서 5계층 캐싱 스택을 갖춘 유일한 로컬 AI 엔진: 프리픽스 캐시, 페이지드 KV, KV 양자화(q4/q8), 연속 배칭, 영구 디스크 캐시. Anthropic Messages API와 OpenAI 호환 엔드포인트 모두 제공 — Claude Code, Anthropic SDK 또는 호환 클라이언트를 사용하세요. 50+ 아키텍처, 14개 도구 파서, 4개 추론 파서, Mamba/SSM 하이브리드, 추측적 디코딩.

2.5K context
vMLX 0.05s
Others 0.49s
9.7× faster
첫 번째 토큰까지의 시간
10K context
vMLX 0.08s
Others 6.12s
76× faster
첫 번째 토큰까지의 시간
100K context
vMLX 0.65s
Others 131s
224× faster
콜드 프롬프트 처리
프리픽스 캐싱 — 대화의 반복되는 부분은 한 번만 계산하고 재사용합니다
페이지드 KV 캐시 — 모든 채팅이 메모리에 유지되며, 전환 시 제거되지 않습니다
캐시 양자화 — q4/q8로 캐시 메모리를 4–8배 줄여 더 긴 컨텍스트를 가능하게 합니다
연속 배칭 — 최대 256개의 동시 시퀀스를 효율적으로 처리합니다
디스크 캐시 — 프롬프트 계산이 앱 재시작 후에도 유지되어 즉시 웜 스타트가 가능합니다
Apple Silicon 네이티브 — llama.cpp가 아닌 MLX 기반으로, 통합 메모리에 최적화되었습니다
API 레퍼런스 — Anthropic + OpenAI 엔드포인트
MLX Studio — API Reference
MLX Studio API reference page showing Anthropic Messages API and OpenAI-compatible endpoints
모델 변환기 — GGUF-to-MLX & JANG 프로필
MLX Studio — Model Converter
MLX Studio GGUF-to-MLX model converter with standard and JANG quantization profiles
FAQ

자주 묻는 질문

MLX Studio는 AI 채팅과 에이전틱 코딩을 위한 무료 macOS 앱입니다. Mac에서 네이티브 프리픽스 캐싱, 페이지드 KV 캐시, KV 양자화, 연속 배칭, 하이브리드 SSM 지원, 완전한 VLM 통합을 갖춘 유일한 로컬 AI 앱입니다. 파일 편집, 코드 검색, 셸 실행, 웹 검색 등 20개 이상의 내장 도구를 포함하며 — 모두 Apple Silicon에서 로컬로 실행되는 vMLX Engine으로 구동됩니다.
MLX Studio는 앱입니다 — 채팅 UI, 에이전트 도구, 모델 브라우저, 설정 인터페이스입니다. vMLX Engine은 이를 구동하는 추론 백엔드 — 캐싱, 배칭, 모델 로딩, API 계층입니다. LM Studio와 llama.cpp의 관계와 같다고 생각하세요.
모델을 처음 다운로드할 때만 필요합니다. 모든 추론은 클라우드 연결 없이, API 키 없이, 데이터 유출 없이 Mac에서 로컬로 실행됩니다.
macOS 26(Tahoe)을 실행하는 Apple Silicon(M1 이상) Mac이 필요합니다. 최소 8 GB RAM, 16 GB 이상 권장. 원격 엔드포인트는 macOS 14 이상에서 작동합니다.
네. OpenAI, Anthropic, Groq 또는 OpenAI 호환 엔드포인트에 연결할 수 있습니다. Studio의 에이전트 도구는 로컬 및 원격 모델 모두에서 작동합니다.
7개 카테고리에 걸쳐 20개 이상의 도구: 파일 I/O(읽기, 쓰기, 편집, 복사, 이동, 삭제), 코드 검색(grep, glob), 셸 실행, 웹 검색(DuckDuckGo, Brave), URL 가져오기, git(status, diff, log), 유틸리티(클립보드, 날짜/시간).
네. 모든 응답에 TTS 재생 버튼이 있습니다. Qwen VL 같은 비전 모델은 인라인 미리보기와 함께 드래그 앤 드롭으로 이미지 입력을 지원합니다.
네. 완전 무료이며, 코드 서명 및 공증되었습니다. 구독 없음, 사용 제한 없음.
MLX를 위한 GGUF · 오픈 소스

JANG — 모든 크기에서 더 나은 품질

GGUF가 llama.cpp에 K-quants를 제공했습니다. JANG은 MLX에 동일한 역할을 합니다 — 어텐션 레이어를 보호하는 스마트 비트 할당. On Qwen3.5-122B at ~2 bits: 94% MMLU (JANG_4K, 69 GB) vs 90% for MLX 4-bit (64 GB). At 2 bits: 84% MMLU (38 GB) vs 46% for MLX mixed_2_6 (44 GB).

JANG_4K JANG_2S · 122B · 2.11bmiddot; 122B JANG_2S · 122B · 2.11bmiddot; 3.99b
94% MMLU 84% MMLU · 38 GBmiddot; 69 GB
+4 points vs MLX 4-bit (64 GB, 90%)
MLX 4-bit MLX mixed_2_6 · ~2.5bmiddot; 4.0b
90% MMLU 46% MMLU · 44 GBmiddot; 64 GB
MiniMax-M2.5 (230B) — JANG vs MLX
200-question MMLU
JANG_2L · 2.10 bits · 82.5 GB
74%
MLX 4-bit · 119.8 GB
26.5%
JANG 2 bits가 MLX 4 bits보다 3배 높은 점수, 37 GB 적은 RAM 사용. MLX는 이 모델에서 모든 비트 레벨에서 실패.
과목별 MMLU 세부 점수 보기 (10과목)
Subject JANG_2L 4-bit 3-bit 2-bit
Abstract Algebra10/203/202/205/20
Anatomy15/207/205/205/20
Astronomy20/207/206/204/20
College CS13/204/205/206/20
College Physics13/208/206/206/20
HS Biology18/204/205/206/20
HS Chemistry18/204/205/205/20
HS Mathematics8/206/206/203/20
Logical Fallacies18/205/204/205/20
World Religions15/205/205/205/20
Total148/200 (74%)53/200 (26.5%)49/200 (24.5%)50/200 (25%)

JANG이 10과목 모두 승리. MLX 4/3/2-bit 모두 랜덤 수준(25%). 원인: MLX가 답변 대신 메타 코멘터리 생성.

jangq.ai GitHub

로컬에서 채팅 시작

MLX Studio를 다운로드하고 60초 이내에 Mac에서 AI를 실행하세요.