AI Safety & Alignment — RLHF, Constitutional AI, Jailbreak, và defense thực tế cho dev
Mổ xẻ alignment LLM: RLHF process step-by-step, Constitutional AI của Anthropic, DPO, jailbreak techniques (prompt injection, DAN, encoding attacks), red teaming, và checklist defense practical cho production AI app.