#jailbreak — jvinhit

2026-04-30 ai safety alignment

AI Safety & Alignment — RLHF, Constitutional AI, Jailbreak, và defense thực tế cho dev

Vì sao base model "biết mọi thứ nhưng vô kỷ luật", cách alignment thuần hoá nó (RLHF, Constitutional AI, DPO), jailbreak & prompt injection (= SQL injection cho ngôn ngữ tự nhiên), vụ thật, và defense-in-depth cho app của bạn.