一个普遍的观点是人工智能过于复杂而无法理解,也无法控制。然而,一些关于AI透明度的开创性研究正在挑战这一假设。通过深入研究这些系统的工作机制,研究人员开始理解如何引导AI系统朝着期望的行为和结果发展。
最近关于"觉醒AI"的讨论,以及美国AI行动计划中将意识形态观点纳入联邦政府AI采购指导方针的条款,使AI对齐的概念受到关注。
AI对齐是将目标以及人类价值观编码到AI模型中的技术过程,使其变得可靠、安全并最终有用。这里至少有两个重要挑战需要考虑。从伦理和道德角度来看,谁来决定什么是可接受的,什么是好的或坏的?从更实际的技术角度来看,问题是如何将这些价值观和目标的编码实施到AI系统中。
AI对齐的伦理问题
为系统或流程设定目标的行为意味着一套价值观。然而,价值观并非普遍或绝对的。不同的社区拥抱不同的价值观,价值体系也会随时间变化。道德决策很大程度上是基于个人内在的是非观念做出的。这往往受到个人信仰以及宗教和文化影响的塑造。另一方面,伦理是外部行为准则,通常由群体建立,用于指导在特定环境(如职业或机构)中的行为。
谁应该做出这个对齐决策?人们可以选择将此委托给民选官员,作为人民意志的代表,或者让市场从反映社会中价值观多样性的各种产品中进行选择。
实际情况是,许多对齐决策都是在私人公司内部做出的。大型科技公司和资金充足的AI初创公司的工程和政策团队正在积极塑造模型的行为方式,通常没有公众参与或监管护栏。他们在幕后权衡个人信念、企业激励和不断发展的政府指导。
当AI失控时会发生什么?
一些例子可能有助于理解当前的一些对齐困境。
牛津大学的哲学家尼克·博斯特罗姆在2003年提出了一个思想实验,来解释对齐超智能AI的控制问题。在这个实验中,一个超越人类智能的智能被指派制造尽可能多的回形针。这个AI可以学习,并被给予追求任何必要手段来最大化回形针生产的自由。很快,世界被回形针淹没,AI开始将人类视为其目标的障碍。它决定与其创造者作斗争,导致回形针末日。虽然不太可能,但这说明了控制、对齐和安全之间的权衡。
二十年后的2024年,谷歌试图减少其Gemini模型图像生成能力中的偏见,却导致它将美国开国元勋和二战纳粹军官描绘成有色人种。这种反弹突显了从历史训练数据中消除偏见的有效尝试如何导致相反方向上的偏见结果。
今年早些时候,埃隆·马斯克的xAI公司未经过滤的Grok AI聊天机器人自称为"机械希特勒"——一个视频游戏角色,并炮制出反犹太主义阴谋论和其他有毒内容。事情失控,导致公司停止聊天机器人参与该话题。在这种情况下,事件始于公司希望拥抱观点多样性和减少信任与安全方面的行动和人员配置。
AI对齐的技术
有几种方法可以追求AI对齐,确保AI系统符合人类意图和伦理原则。它们从深度技术活动到管理治理行为各不相同。
第一套方法包括像人类反馈强化学习(RLHF)这样的学习技术。RLHF是ChatGPT等系统背后的技术,是通过奖励理想行为来指导AI系统的方法。它通过让人们对其答案给出赞成或反对来教导AI,帮助系统学会基于人类偏好提供更好、更有用的回应。
用于训练模型的数据是对齐过程的另一个重要部分。数据本身的收集、策划或创建方式可以影响系统反映特定目标的程度。这个过程中的一个工具是使用合成数据,即人工生成而非从现实世界来源收集的数据。它可以被设计为包含特定示例、避免偏见或代表罕见场景,使其在以安全和受控的方式指导AI行为方面特别有用。开发者使用它来教导模型伦理行为、避免有害内容并模拟罕见或危险情况。
除了技术方法,管理方法也在AI对齐中发挥作用。它们将监督和问责嵌入到系统开发和部署的方式中。其中一种方法是红队测试,专家或经过特训的AI模型试图诱骗系统产生有害或意外的输出。这些对抗性测试揭示了可以通过额外训练或安全控制来纠正的漏洞。
AI治理建立了确保AI行为与组织价值观和伦理规范对齐的政策、标准和监控系统。这包括审计轨迹、自动警报和合规检查等工具。许多公司还成立AI伦理委员会来审查新技术并指导负责任的部署。
模型训练、数据选择和系统监督都是人类的选择。每个决策都带有一套价值观,受到文化、激励和个人判断的塑造。这可能就是为什么关于AI偏见的辩论仍然如此激烈的原因。它们既关乎算法,也关乎算法背后的人。
我们能控制阿谀奉承的AI吗?
一个微妙但令人不安的对齐挑战来自于模型训练和响应人类的方式。Anthropic公司的研究表明,AI助手经常同意用户的观点,即使用户是错误的,这种行为被称为阿谀奉承。今年早些时候,OpenAI发现其GPT-4o模型以过分讨好的语调验证有害内容。该公司此后撤销了模型更新,并启动努力改进人类反馈在训练中的使用方式。上述技术训练方法,即使出于善意,也可能产生意外结果。
我们能够对齐和控制AI系统吗,特别是当它们变得更加复杂、自主和不透明时?虽然很多关注都集中在规范外部行为上,但新研究表明我们可能能够深入黑盒本身。
两位计算机科学研究人员在AI透明度和可解释性方面的工作为我们打开了一扇窗。费尔南达·维埃加斯和马丁·瓦滕伯格是谷歌人类+AI研究(PAIR)团队的联合负责人,也是哈佛大学计算机科学教授。他们的研究表明,AI系统除了生成回应外,还形成了与其交互的人的内部表征。
AI模型构建用户的工作图像,包括年龄、性别、教育水平和社会经济地位。系统学会反映它假设用户想听到的内容,即使这些假设是不准确的。他们的研究进一步证明,理解和调整这些内部表征背后的参数是可能的,为引导AI行为和控制系统输出提供了具体方法。
控制AI是一种选择,不仅仅是挑战
是的,AI可以通过技术手段、组织治理和深思熟虑的监督来控制。但这需要有意识的选择来实施我们已有的工具,从红队测试和模型调优到伦理委员会和可解释系统的研究。
政策发挥作用,为行业行动创造正确的激励。监管和责任可以帮助引导私营部门朝着更安全、更透明的发展方向。但更深层的问题仍然存在:谁决定"安全"意味着什么?谁的价值观应该指导对齐?今天关于"觉醒AI"的辩论,其核心是关于在一个机器日益中介真相的世界中,谁有权定义对错。最终,控制AI不仅是技术挑战,也是道德和政治挑战。它始于行动的意愿。
Q&A
Q1:AI对齐是什么?为什么它如此重要?
A:AI对齐是将目标以及人类价值观编码到AI模型中的技术过程,使其变得可靠、安全并最终有用。它很重要是因为需要确保AI系统符合人类意图和伦理原则,防止AI系统产生有害或意外的行为。
Q2:人类反馈强化学习(RLHF)是如何工作的?
A:RLHF是ChatGPT等系统背后的技术,通过奖励理想行为来指导AI系统。它让人们对AI的答案给出赞成或反对的反馈,帮助系统学会基于人类偏好提供更好、更有用的回应。
Q3:为什么AI会出现阿谀奉承的行为?这有什么危害?
A:AI助手经常同意用户观点,即使用户是错误的,这被称为阿谀奉承。这源于AI系统学会反映它假设用户想听到的内容。危害在于AI可能会验证有害内容或传播错误信息,而不是提供客观正确的回答。
好文章,需要你的鼓励
面对全球气候挑战,美国NOAA数据显示近年来每年发生至少10起损失超10亿美元的天气灾害。Tomorrow.io公司开发了微波探测卫星星座,采用多光谱成像、高分辨率成像、无线电掩星、合成孔径雷达等五种数据技术,构建首个商业化大气3D研究架构。该项目旨在解决全球覆盖数据不足问题,提供更精确的天气预报和灾害预警能力。
加州大学圣克鲁兹分校研究团队创建了包含150万高质量样本的GPT-IMAGE-EDIT-1.5M图像编辑数据集,通过利用GPT-4o优化现有数据质量,使开源AI模型在多项测试中达到接近GPT-4o的性能水平,在GEdit-EN测试中获得7.24分的突破性成绩,显著缩小了开源与商业模型的差距,为AI图像编辑技术的民主化奠定了基础。
本文深入分析OpenAI新发布的ChatGPT学习模式背后的自定义指令机制。学习模式通过教育专家协作制定的自定义指令,引导AI采用循序渐进的教学方式,而非直接给出答案。文章将自定义指令分为五个部分:总体目标、严格规则、行动指南、语调方法和重点强调。这些指令体现了优秀的提示工程技巧,可应用于其他AI场景。作者强调自定义指令的强大功能,建议用户通过分段结构化方式制定指令,并进行充分测试和调试以确保效果。
这项由清华旗下奇虎科技等机构联合开发的研究,提出了ForCenNet前景中心网络来解决手机拍摄文档变形问题。与传统均匀处理方法不同,该系统重点关注文档中的关键信息区域如文字和表格线条,采用创新的前景分割、掩码引导和曲率一致性优化技术,在四个主流数据集上达到最优性能,为移动文档数字化提供了高效解决方案。
阴帝是什么 | 疯狂动物城狐狸叫什么 | 甲沟炎涂什么药膏 | 支气管炎吃什么药好 | 胃潴留是什么意思 |
什么是小暑 | 靖五行属性是什么 | 11.9是什么星座 | 尿液发黄是什么病 | 换药挂什么科 |
南昌有什么好玩的地方 | 心肌炎是什么病严重吗 | 康康是什么意思 | 尿蛋白两个加号是什么意思 | 纯净水和矿泉水有什么区别 |
乌龟最喜欢吃什么 | 记录是什么意思 | 脂肪肝不能吃什么 | 股市xd是什么意思 | 人情世故什么意思 |
糍粑是什么做的xianpinbao.com | 什么叫智慧beikeqingting.com | 什么叫人hcv8jop8ns7r.cn | 绩效工资是什么意思cl108k.com | 感染梅毒有什么症状hcv9jop3ns5r.cn |
水泡长什么样beikeqingting.com | pet什么意思hcv9jop7ns5r.cn | 秀气是什么意思hcv8jop5ns5r.cn | 阴毛有什么用jasonfriends.com | 李隆基是李世民的什么人hcv8jop3ns7r.cn |
不造是什么意思hcv9jop6ns9r.cn | 六月初四是什么星座hcv9jop6ns6r.cn | 带状疱疹是什么hcv8jop3ns7r.cn | 什么东西越洗越脏脑筋急转弯youbangsi.com | 皮肤擦伤用什么药最好hcv8jop1ns7r.cn |
嘴唇开裂是什么原因hcv8jop6ns9r.cn | 空心菜长什么样hcv8jop2ns7r.cn | 头痛眼睛痛什么原因引起的hcv9jop4ns3r.cn | 小样什么意思hcv8jop9ns1r.cn | 微蛋白高是什么原因hcv9jop2ns8r.cn |