Multimodal LLM — Cách AI thực sự "thấy" image, "nghe" audio, "xem" video
Giải thích từ first principles cách một model chỉ hiểu token lại "thấy" được ảnh, "nghe" được tiếng: patch tokenization, CLIP, projection layer, 3 kiểu fusion, dataflow, trade-off, ví dụ production thật, và khi nào KHÔNG nên dùng.