AI Safety & Alignment — RLHF, Constitutional AI, Jailbreak, và defense thực tế cho dev
Vì sao base model "biết mọi thứ nhưng vô kỷ luật", cách alignment thuần hoá nó (RLHF, Constitutional AI, DPO), jailbreak & prompt injection (= SQL injection cho ngôn ngữ tự nhiên), vụ thật, và defense-in-depth cho app của bạn.