生成式人工智能价值观对齐的理论与实践

2026年4月22日下午,北师香港浸会大学“形势与政策”大讲堂第一百六十一讲于大学会堂举行。上海大学伟长学者特聘教授、中国社会科学院大学马克思主义学院教授孙伟平应邀担任主讲,围绕“生成式人工智能价值观对齐的理论与实践”这一前沿课题展开深度讲解。讲座由教务长李建会教授主持。

李建会教授主持讲座

孙伟平教授开篇即从技术现实切入,指出生成式人工智能在展现颠覆性创造力的同时,正频繁触发价值观偏离的警报。他结合自己主持华为合作项目、国家重点研发计划、国家社科基金重大项目等一线研究积累的丰富案例,生动剖析了当前大模型面临的两类核心价值观风险:一是模型自身输出不当内容(如诋毁性内容、污名化言论等),暴露出模型在未经深度对齐时可能主动违背公序良俗与法律底线;二是模型被恶意用户诱导利用,如生成虚假信息、侵权内容甚至危害国家安全的指令,成为造谣、违法的新工具。

接着孙教授进一步指出,造成核心价值观风险的深层根源在于深度学习的自主性。大模型具备自主学习与行为升级能力,其输出已非开发者可完全预见与操控,加之不同地区对模型合规性提出本地化、主流化的价值要求,因此,价值观对齐已从“可选优化项”上升为“落地必答题”。他同时警示,当前部分模型为求合规而“一刀切”拒答大量正常问题,陷入过度保守、损害用户体验的误区,这同样是对齐工作需要精准规避的陷阱。

孙伟平教授演讲中

随后围绕“大模型为何会拥有价值观”这一基础追问,孙教授从技术哲学与技术实现双维度展开阐释。他指出,技术从诞生之初就负载着人类的目的、利益与价值取向,大模型作为人类智能的延伸,必然承载着训练数据与开发者群体的价值观烙印。同时,基于模拟人脑神经网络的结构,大模型已具备一定的自主推理与价值判断能力,从而形成了三类相对独特的价值观特征:一是多元性。不同国家、不同开发主体、不同训练语料的大模型因训练数据差异呈现不同价值倾向;二是可塑性。通过标注数据校准、漏洞测试修复、程序补丁迭代,大模型的价值观表现可被持续校正优化,如DeepSeek如今已能主动提示野生动物保护要求;三是不确定性。在与用户的持续交互中,大模型会动态学习并更新自身行为模式,不良交互易导致模型“学坏”。网络上热议的某些大模型“越来越油腻”现象,即被学界视为不良交互迁移的典型后果。

孙教授将价值观对齐的本质概括为“对机器进行价值观教育,为大模型安一颗‘良芯’”。面对人类价值共识不足、价值观难以量化等技术与人文双重挑战,他提出了系统性的解决路径。一是人类自身须先形成先进且合理的价值共识,以此为机器对齐提供基准锚点。在中国语境下,大模型对齐的核心方向在于坚守基本道德底线、符合政治法律要求、践行社会主义核心价值观。二是分阶段推进,初级目标守住法律与道德红线,严防有害内容扩散;中级目标解决价值理解与诚信问题,实现多元语境下的恰当回应;终极目标则致力于让大模型内化高尚品格,引领社会文明风尚。三是综合运用内部学习初始化、外部监督校正、自主训练优化三种策略。孙教授特别强调,科技发展的“速度”必须与价值判断的“准度”相匹配,“一件事能不能做、该不该做”的顶层设计,必须有人文社科学者的深度参与,方能确保技术航向不偏。

讲座尾声,孙教授以宏阔的历史视野指出,价值观对齐是一个伴随智能技术演进长期推进的历史过程。当前大模型尚处“孩童阶段”,应在守住安全底线的前提下给予试错成长空间,最终实现人机共同成长、共建美好人机文明的愿景。

讲座现场

整场讲座将深奥的价值哲学理论与前沿的人工智能实践紧密结合,既有理论纵深的剖析,又有现实案例的警示,更有落地路径的指引,为在场师生清晰勾勒出生成式人工智能价值观对齐的完整研究图谱与行动框架,深化了在场师生对于人工智能伦理治理的认识。讲座结束后,一些学生仍围着孙教授交流,意犹未尽。

孙伟平教授与现场学生交流

来源:哲学政治学和经济学中心

文字:梁黎丽

图片:陈采薇