周伯文提出AI-45°平衡律:安全与性能并重的可信AGI之路

网络 阅读: 2024-07-04 13:40:27
欧意最新版本

欧意最新版本

欧意最新版本app是一款安全、稳定、可靠的数字货币交易平台。

APP下载  官网地址
当前,以大模型为代表的生成式人工智能快速发展。然而,随着能力的不断提升,模型自身及其应用也带来了一系列潜在风险的顾虑。这些风险包括数据泄露、滥用、隐私及版权相关的内容风险,以及恶意使用带来伪造、虚假信息等相关的使用风险。此外,人们还担心人工智能是否会对就业结构等社会系统性问题带来挑战。
“出现对这些风险的担忧,根本原因是我们目前的AI发展是失衡的。”7月4日,在2024世界人工智能大会暨人工智能全球治理高级别会议(WAIC 2024)的开幕式全体会议上,上海人工智能实验室主任、首席科学家,清华大学惠妍讲席教授周伯文发表演讲时提出一个技术主张,要探索人工智能45°平衡律(Towards AI-45°Law)。
周伯文提到,总体上我们在AI模型安全能力方面的提升,还远远落后于性能的提升。这种失衡导致AI的发展是跛脚的,业界称之为“Crippled AI”。目前的AI发展趋势是,在Transformer为代表的基础模型架构下,加以(大数据-大参数量与大计算)的尺度定律(Scaling Law),目前AI性能呈指数级增长。与此形成对比的是,在AI安全维度典型的技术,如:红队测试、安全标识、安全护栏与评估测量等,呈现零散化、碎片化,且后置性的特性。
不均衡的背后是二者投入上的巨大差异。“如果对比一下,从研究是否体系化,以及人才密集度、商业驱动力、算力的投入度等方面来看,安全方面的投入是远远落后于AI能力的。”周伯文认为,要避免这样的“Crippled AI”发展,我们应该追求的是TrustWorthy AGI,可信的通用人工智能。
周伯文认为,可信AGI需要能够兼顾安全与性能。他提出了一种技术思想体系叫做“AI-45°平衡律”(AI-45° Law)。具体来说,这种思想指的是,从长期的角度来看,我们要大体上沿着45度安全与性能平衡发展。平衡是指短期可以有波动,但不能长期低于45°(如同现在),也不能长期高于45度(这将阻碍发展与产业应用)。这个技术思想体系要求强技术驱动、全流程优化、多主体参与以及敏捷治理。
实现AI-45°平衡律也许有多种技术路径。以上海AI实验室为例,团队最近在探索一条以因果为核心的路径,并把它取名为可信AGI的“因果之梯”。他们将可信AGI的发展分为三个递进阶段:泛对齐、可干预、能反思。
“泛对齐”主要包含当前最前沿的人类偏好对齐技术。但需要注意的是,这些安全对齐技术仅依赖统计相关性而忽视真正的因果关系,可能导致错误推理和潜在危险。
“可干预”主要包含通过对AI系统进行干预,探究其因果机制的安全技术,例如机械可解释性、对抗演练等。它可以通过提高可解释性和泛化性来提升安全性,同时也能提升AI能力。
“能反思”则要求AI系统不仅追求高效执行任务,还能审视自身行为的影响和潜在风险。从而在追求性能的同时,确保安全和道德边界不被突破。这个阶段的技术包括基于价值的训练、因果可解释性、反事实推理等。

本文 原创,转载保留链接!网址:https://licai.bangqike.com/cjnews/624010.html

标签:
声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

关注我们

扫一扫关注我们,了解最新精彩内容

搜索