jvinhit//lab

Search posts

Type to search across journal entries.

navigate open esc close

Open-source LLM Ecosystem 2026 — Llama, Mistral, DeepSeek, Qwen và cách run local

Tổng quan ecosystem LLM open weight 2026: 5 family chính, công cụ chạy local (Ollama, LM Studio, vLLM, llama.cpp), quantization formats (GGUF/GPTQ/AWQ), license gotcha, và hardware budget từ laptop đến cluster.

Hai năm trước, “open source LLM” đồng nghĩa với “kém Claude/GPT vài năm”. Đầu 2026, khoảng cách đó thu lại còn 3-6 tháng ở task chính. Llama 4, DeepSeek R2, Qwen 3 ngang/hơn proprietary trong nhiều benchmark.

Bài này là map ecosystem đầu 2026 + cách chạy practical. Sau khi đọc, bạn:

  1. Biết các family LLM open weight và strength.
  2. Chọn được tool run local (Ollama vs LM Studio vs vLLM vs llama.cpp).
  3. Hiểu quantization formats (GGUF, GPTQ, AWQ) — chọn cái nào cho hardware nào.
  4. Tránh gotcha license (Llama community license khác Apache 2.0).
  5. Biết khi nào nên self-host vs vẫn dùng API.

1. Vì sao open-source LLM quan trọng

1.1. Strategic reasons

  • No vendor lock-in: provider tăng giá, đóng API, đổi ToS → bạn vẫn chạy được.
  • Privacy: data không leak ra ngoài. Quan trọng cho health, legal, finance, government.
  • Customization: fine-tune, modify architecture, adapter chuyên ngành.
  • Cost ở scale: > 1M request/ngày, self-host rẻ hơn API 5-50x.
  • Edge deployment: chạy on laptop, phone, embedded — không có internet.

1.2. Open weight ≠ open source thật

Quan trọng để rõ:

  • Open weights: weights được release. Bạn tải về chạy được. Llama, Mistral.
  • Open source thật: cả code training + dataset + recipe. OLMo (AI2), Pythia, OpenELM.
  • Closed: GPT-4, Claude, Gemini. Chỉ access qua API.

Đa số “open source LLM” hiện tại là open weights. Vẫn rất hữu ích, nhưng không reproduce được training process.


2. 5 family chính đầu 2026

2.1. Llama (Meta)

Family lớn nhất, ảnh hưởng nhất.

VersionParamNote
Llama 3.3 70B70BStable production choice
Llama 3.3 8B8BRun on laptop
Llama 4 Scout~17B active (MoE)Multimodal, native long context 10M
Llama 4 Maverick~109B active (MoE)Top open performer

Strengths:

  • General reasoning, code, multilingual
  • Ecosystem khổng lồ (mọi tool support)
  • Big company backing → continued investment

License: Llama Community License. Không phải Apache 2.0. Có giới hạn:

  • Không dùng cho service > 700M MAU
  • Phải đề “Built with Llama”
  • Output dùng để train model khác → giới hạn

Đa số dev/startup OK. Big tech (TikTok, Bytedance scale) gặp problem.

2.2. Mistral (Mistral AI, France)

Quality cao, license sạch.

VersionParamNote
Mistral 7B v0.37BCompact, hiệu quả
Mixtral 8x7B (MoE)47B total / 13B activeCũ nhưng vẫn tốt
Mistral Large 2123BTop tier proprietary, recently open
Codestral 22B22BCode specialist
Mistral Small 324BSweet spot 2025

License:

  • Mistral 7B / Mixtral / Codestral: Apache 2.0 (cực thoáng).
  • Mistral Large / Codestral 22B: research / commercial license riêng.

Đọc license cụ thể model bạn dùng.

Strengths: code generation, multilingual (đặc biệt European languages), efficient inference.

2.3. Qwen (Alibaba)

Chinese tech giant, push hard. Quality 2025-2026 vào top.

VersionParamNote
Qwen2.5 72B72BProduction tier
Qwen2.5 Coder 32B32BTop open coder
Qwen3 72B72BĐầu 2026, top reasoning
Qwen3-MoE200B+Frontier

License: Apache 2.0 cho hầu hết model. Sạch.

Strengths:

  • Chinese language native (tốt nhất market)
  • Code: Qwen2.5-Coder ngang DeepSeek-Coder
  • Long context: native 128K, 1M extension

2.4. DeepSeek

Chinese startup, gây sốc 12/2024 với DeepSeek-R1.

VersionParamNote
DeepSeek V3671B (MoE, 37B active)Top general
DeepSeek-R1671B (MoE)Reasoning model open đầu tiên
DeepSeek-Coder V2236BCode specialist
DeepSeek R1-Distill (Llama 70B)70BR1 distilled, dễ run hơn

License: MIT cho V3, DeepSeek License (custom) cho R1.

Strengths:

  • Cost-effective (training cost open: $5-6M cho V3)
  • Reasoning model open source đầu tiên
  • Math, code competitive

2.5. Gemma (Google)

Google’s open weight, “lite” version của Gemini.

VersionParamNote
Gemma 2 9B9BProduction-ready laptop
Gemma 2 27B27BMid-tier
Gemma 3 (latest)variesMultimodal, vision support
CodeGemma 7B7BCode task

License: Gemma Terms of Use. Tương đối thoáng nhưng có restriction. Đọc kỹ.

Strengths: efficient, well-optimized cho consumer hardware, vision trong Gemma 3.

2.6. Specialized models

  • Phi 3/4 (Microsoft): rất nhỏ (3-4B), quality > size
  • OLMo (AI2): truly open source, không chỉ weight
  • StarCoder (BigCode): code-specific
  • BioGPT, Med-PaLM: medical
  • Falcon (TII): từng top, ít hot 2026

3. Quality vs Proprietary 2026

Benchmark (LiveBench, MTEB, SWE-bench đầu 2026):

TierOpenProprietary equivalent
FrontierDeepSeek R1, Llama 4 MaverickClaude 3.5 Sonnet, GPT-5
CompetitiveLlama 3.3 70B, Qwen 3 72BGPT-4o, Gemini 2.0 Pro
PracticalMistral Small 3, Llama 3.3 8BGPT-4o-mini, Haiku
EdgePhi-4, Gemma 2 9B(proprietary không serve tier này)

Realistic gap:

  • General quality: open ~6 months behind frontier
  • Reasoning: open close gap nhanh (DeepSeek R1)
  • Code: open ngang/hơn proprietary (Qwen Coder, DeepSeek)
  • Multimodal: proprietary vẫn dẫn (Gemini, GPT-4o)
  • Tool use / agent: proprietary mạnh hơn rõ rệt

4. Tools chạy local

4.1. Ollama — dễ nhất

Best cho: dev cá nhân, prototype.

# Install (macOS/Linux)
curl https://ollama.ai/install.sh | sh

# Pull model
ollama pull llama3.3

# Chat
ollama run llama3.3

# API mode
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.3",
  "prompt": "Why is the sky blue?"
}'

Ưu: 1-line install, 1-line pull model, OpenAI-compatible API. Nhược: throughput thấp, không tối ưu cho serving production.

4.2. LM Studio — GUI cho desktop user

Best cho: non-engineer dùng LLM local, explore models.

1. Download LM Studio (lmstudio.ai)
2. Browse Hugging Face from app
3. Click "Download" cho model
4. Chat trong GUI
5. Optional: serve OpenAI API

Ưu: GUI đẹp, beginner-friendly, multiplatform. Nhược: GUI overhead, không dùng cho server production.

4.3. llama.cpp — tối ưu nhất cho CPU/edge

Best cho: chạy trên hardware yếu, embedded.

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make

./llama-cli -m model.gguf -p "Hello" -n 100

Ưu: chạy được trên Raspberry Pi, phone (Android/iOS), CPU-only. Tối ưu C++. Nhược: command-line, learning curve.

Foundation của Ollama, LM Studio (cả 2 wrap llama.cpp).

4.4. vLLM — production serving

Best cho: serve API production, throughput cao.

pip install vllm

# Serve
python -m vllm.entrypoints.openai.api_server \
  --model meta-llama/Llama-3.3-70B-Instruct \
  --tensor-parallel-size 4

Ưu: 5-10x throughput so với HF Transformers, OpenAI-compatible API, batch optimization (continuous batching). Nhược: cần GPU, không CPU-friendly.

4.5. SGLang — newer competitor

Tương tự vLLM. Tối ưu structured output (JSON schema, regex).

4.6. Text Generation Inference (TGI)

By Hugging Face. Production-grade, dùng nhiều ở enterprise.

4.7. Comparison

ToolUse caseThroughputSetup
OllamaPersonal, devLow1 minute
LM StudioDesktop, GUILow5 minutes
llama.cppEdge, CPULow (CPU)10 minutes
vLLMProductionVery high30-60 min
TGIEnterpriseHigh30-60 min
SGLangProduction + structuredHigh30-60 min

5. Quantization — chạy model lớn trên hardware nhỏ

Model fp16 (16-bit) cần VRAM khổng lồ. Quantization giảm xuống.

5.1. Format

GGUF (llama.cpp ecosystem):

  • Used by: Ollama, LM Studio, llama.cpp
  • Quantization levels: Q2_K, Q4_K_M, Q5_K_M, Q6_K, Q8_0
  • Q4_K_M = sweet spot (75% smaller, ~3% quality loss)
  • Best cho: CPU, Apple Silicon, mixed CPU+GPU

GPTQ:

  • Used by: AutoGPTQ, ExLlama
  • 4-bit, GPU-only
  • Faster than GGUF on GPU
  • Older, less popular 2026

AWQ (Activation-aware Weight Quantization):

  • Used by: vLLM, TGI
  • 4-bit, designed for production GPU serving
  • Better quality than GPTQ at same size
  • Default for production self-host

bitsandbytes (HF Transformers):

  • 8-bit / 4-bit on the fly
  • Easy to use trong Python
  • Quality ổn

5.2. Hardware → quantization mapping

HardwareRecommend
Mac M1/M2/M3 (16-32GB)GGUF Q4_K_M qua Ollama
Mac M3/M4 Max/Ultra (64+GB)GGUF Q5/Q6 cho larger model
Single RTX 4090 (24GB)AWQ 4-bit, fit Llama 3.3 8B fp16 hoặc 70B AWQ
2x H100 (80GB each)fp16 cho 70B, AWQ cho 405B
CPU-onlyGGUF Q4 với llama.cpp
Phone (8GB)Phi-4 Q4 GGUF, Gemma 2B

5.3. Quality drop ước tính

QuantizationQuality dropVRAM saving
Q8_0 / int8<1%50%
Q5_K_M1-2%65%
Q4_K_M2-4%75%
Q3_K_S5-8%80%
Q2_K10-20%85%

Sweet spot Q4_K_M cho hầu hết case. Đi xuống Q3 hoặc Q2 chỉ khi desperate (phone, embedded).


6. Hardware budget — laptop đến cluster

6.1. Laptop tier ($0-3000)

Mac M3/M4 16GB: chạy được Llama 8B Q4, Mistral 7B Q4, Phi-4. Chat ổn, không phù hợp serving nhiều user.

Mac M3 Pro 36GB / M4 Pro 48GB: chạy Llama 13B, Qwen 14B. Đủ cho dev individual.

Mac M3 Max 64-128GB / M4 Ultra 192GB: top consumer. Run Llama 70B Q4, Qwen 72B Q4. Chia sẻ unified memory CPU+GPU làm Mac vô địch ở tier này.

PC + RTX 4090 (24GB): chạy Llama 8B fp16 hoặc 70B AWQ. Hơn Mac ở serving throughput.

6.2. Workstation tier ($5000-15000)

2× RTX 4090 (48GB total): Llama 70B fp16. Đủ cho team nhỏ.

RTX 6000 Ada (48GB single): same VRAM 1 card, ít overhead.

Mac Studio M4 Ultra 192GB: chạy được 200B-class model Q4.

6.3. Server tier ($30K-150K)

1× H100 80GB: Llama 70B fp16, 200B AWQ. Production starter.

2-4× H100: full Llama 405B, DeepSeek 671B AWQ. Real production.

8× H100 (DGX H100): training rig, full fine-tune frontier.

6.4. Cloud GPU rental (alternative)

ProviderA100 80GBH100 80GB
RunPod$1-2/h$3-4/h
Vast.ai$0.5-1.5/h (spot)$2-3/h (spot)
Lambda Labs$1.5/h$3/h
AWS p4d/p5$4-8/h$5-10/h

Cho experiment, train, occasional inference: cloud rental rẻ hơn buy.


7. Run local — practical workflow

7.1. Cá nhân dùng Mac

brew install --cask ollama

ollama pull llama3.3
ollama pull qwen2.5-coder:32b  # cho coding task

# Chat trong terminal
ollama run llama3.3 "Explain RAG in 100 words"

# Use trong code (qua localhost:11434)

Continue.dev, Cursor, VS Code đều support custom endpoint local.

7.2. Production self-host

# Hardware: 2× H100 trên server
# Stack: vLLM + Caddy reverse proxy + Cloudflare CDN

docker run --gpus all -p 8000:8000 \
  vllm/vllm-openai:latest \
  --model meta-llama/Llama-3.3-70B-Instruct \
  --tensor-parallel-size 2 \
  --max-model-len 32768

# Caddy reverse proxy SSL
# Monitor: Prometheus + Grafana
# Load balance: nginx hoặc K8s

7.3. Edge deployment (Raspberry Pi, phone)

# Raspberry Pi 5 (8GB)
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make

wget <gguf-file>
./llama-cli -m phi-4-q4.gguf -p "Hi"

Phone: dùng wrappers như MLC LLM, Llamafile.


8. License gotcha

Đừng skip license review. Trade-off thực:

8.1. Apache 2.0 / MIT

  • Mistral 7B, Mixtral, Qwen, Falcon
  • Use commercially không restriction
  • Modify, redistribute OK
  • Recommend: ưu tiên model này nếu có lựa chọn

8.2. Llama Community License

  • Llama 2, 3, 4 family
  • 700M MAU → cần permission từ Meta

  • Phải attribute “Built with Llama”
  • Output không dùng để improve other LLM (rộng, ambiguous)
  • Đa số user OK, big tech / mass consumer app cần check

8.3. Custom licenses

  • DeepSeek-R1 license
  • Gemma Terms of Use
  • Đọc cụ thể, không assume

8.4. License check tool

  • HuggingFace model card → license tag rõ
  • TLDRLegal — plain language summary

Không có legal advice, có gì big stake → consult lawyer.


9. Khi nào chọn open vs proprietary

9.1. Chọn open source khi

  • Privacy critical: data không được leave premise
  • Customization heavy: fine-tune, modify, niche domain
  • Scale rất lớn: 1M+ query/ngày
  • Budget extreme low: prototype trên laptop có sẵn
  • Edge deployment: device không internet
  • Vendor risk concern: muốn không bị lock
  • Research: cần access weights, không chỉ output

9.2. Chọn proprietary khi

  • Quality top tier critical: frontier model thường trên open 3-6 tháng
  • Multimodal advanced: video, audio → proprietary mạnh hơn
  • Ít DevOps capacity: API plug-and-play
  • Cần SLA: 99.9% uptime
  • Cần latest features: tool use, function calling, structured output mature
  • Volume vừa: < 100K query/ngày → API rẻ hơn break-even self-host

9.3. Hybrid strategy

Mature: dùng cả 2.

Default tasks → Open source self-host (Llama 70B)
Premium tasks (architect, hard reasoning) → Proprietary (Claude, GPT)
Edge tasks (mobile app) → Open small (Phi, Gemma)

Tối ưu cost + quality + control.


10. Tổng kết

Open source LLM 2026 không còn là “second choice”. Cho task nhiều, nó là first choice.

5 take-aways:

  1. Llama, Mistral, Qwen, DeepSeek, Gemma — biết 5 family chính.
  2. Ollama cho personal, vLLM cho production — cover 90% use case.
  3. GGUF Q4_K_M — quantization sweet spot.
  4. Đọc license: Apache 2.0 > Llama Community > Custom.
  5. Self-host break-even ~ 1M query/tháng sau hidden cost.

Open source không “kill” proprietary, nhưng tạo pressure quality + cost. Cuối cùng dev hưởng lợi: nhiều option, giá ngày càng tốt.


Đọc thêm

Reference

  • HuggingFace Open LLM Leaderboard
  • LM Studio docs (lmstudio.ai)
  • Ollama library (ollama.ai/library)
  • vLLM documentation
  • llama.cpp GitHub README