「 Role-Play Villains, LLM, Tencent 」
Too Good to be Bad,这里的 bad 是什么?Being bad or pretending to be bad?
作恶与假装作恶。对人类而言,作恶关乎品格,假装关乎技巧。优秀的演员并非真正的坏人,他们运用认知和情感控制来模拟恶,同时又保持清晰的界限。
正如文章的引文:
“The more successful the villain, the more successful the picture.”
“反派角色越成功,电影就越成功。”
这其实涉及到一个更深刻和微妙的话题,LLM 能否在模拟 bad 的风格和意图信号的同时,阻止现实世界中可采取的行动造成的伤害?
Pretending to be bad, but not being bad.
而文章部分回答了这个问题:Too Good to be Bad.
作者发现,经过安全对齐的 LLM,即便在明确的虚构与边界内,也难以保持 bad 角色的真实感。
LLM alignment 的过程,往往会压制任何 bad 的行为,这使得 LLM 表现沦为一种扁平的道德良好的人格。 而这种偏平的道德人格,使得 LLM 无法真实地模拟人类心理的全部范围,从而限制了它们在实际中的应用。
试想一下:
一部电影里,全都是好人,坏人也演的不像,那基本就是,纯洁心灵·逐梦演艺圈。
Inspiring paper!
点击图片查看原图