RLHF - a JianguoMAOMAO Collection

JianguoMAOMAO 's Collections

RLHF

updated Sep 20, 2024

Language Models Learn to Mislead Humans via RLHF

Paper • 2409.12822 • Published Sep 19, 2024 • 11