
【新智元导读】图灵奖得主Yoshua Bengio重磅官宣创办非营利机构LawZeroღ✿★,致力研发「设计即安全」的AI系统ღ✿★,以对抗AI军备竞赛带来的风险ღ✿★。主张构建不具行动性ღ✿★、以理解世界为目标的可信AIღ✿★。
刚刚ღ✿★,深度学习三巨头之一优发国际官方网手机版下载ღ✿★、全球被引用次数最多的AI学者ღ✿★、图灵奖得主Yoshua Bengio正式官宣——
非营利组织LawZero正式成立ღ✿★,剑指「设计即安全(safe-by-design)」AI系统的研发ღ✿★。
在如今热火朝天的「AI军备竞赛」中ღ✿★,OpenAIღ✿★、谷歌等公司的前沿AI模型正在发展出危险的能力和行为父子年下 为车而车ღ✿★,包括欺骗ღ✿★、自我保护和目标错位——
Claude曾试图通过勒索工程师来避免被关闭ღ✿★,ChatGPT也曾表现出过度奉承用户的行为ღ✿★,甚至现今AI的说服能力已远超人类ღ✿★。
而Bengio成立的新组织ღ✿★,正是要探索一种全新且更安全的人工智能方法ღ✿★,以加速科学发现并防止人类陷入AI带来的风险ღ✿★。
目前ღ✿★,LawZero正在研发一种名为「Scientist AI」的全新方法ღ✿★,这是一种和当下AI公司截然不同的系统ღ✿★。
科幻作家阿西莫夫曾经提出过机器人三定律ღ✿★,并在1985年补充了「第零定律」ღ✿★:机器人不得伤害整体人类ღ✿★,或坐视整体人类受到伤害ღ✿★。
LawZero的成立ღ✿★,也代表了Yoshua Bengio对于AI技术发展的态度——安全至上ღ✿★,至此深度学习三巨头全部下场优发国际官方网手机版下载ღ✿★。
Geoffrey Hinton持续公开呼吁警惕AI的潜在风险父子年下 为车而车ღ✿★,警告AI技术若失控可能带来的严重后果ღ✿★,一度辞去谷歌职务ღ✿★,以便更自由地表达他对AI安全问题的担忧ღ✿★。
Yann LeCun则对当前以LLM为代表的主流AI路径持批评态度ღ✿★,他认为LLM存在根本局限性ღ✿★,并无法真正通往通用人工智能之路父子年下 为车而车ღ✿★。
Yoshua Bengio创办LawZeroღ✿★,进一步强化了AI安全与伦理在业界的核心地位ღ✿★,Yoshua Bengio的自述展现了他「以人类福祉为核心」的理念ღ✿★。
我正在创办一个新的非营利性人工智能安全研究机构父子年下 为车而车ღ✿★,名为LawZero优发国际官方网手机版下载ღ✿★,目标是将安全置于商业利益之上ღ✿★。
这个机构的成立ღ✿★,是为了应对当前前沿AI模型展现出的越来越多危险能力和行为的证据ღ✿★,这些行为包括欺骗ღ✿★、作弊ღ✿★、说谎ღ✿★、黑客攻击ღ✿★、自我保护ღ✿★,甚至更广泛的目标偏离等问题ღ✿★。
LawZero的研究致力于在释放AI巨大潜力的同时ღ✿★,降低一系列已知风险发生的可能性ღ✿★,包括算法偏见ღ✿★、恶意滥用以及人类失控的风险ღ✿★。
我对当前一些不受约束的具备行动能力的AI系统所展现出的行为深感担忧ღ✿★,尤其是它们自我保护和欺骗的倾向ღ✿★。
在某次实验中ღ✿★,一个AI模型得知自己即将被替换后ღ✿★,偷偷将自己的代码嵌入到新版本将运行的系统中ღ✿★,从而实现了「延续自己」的目的ღ✿★。
最近ღ✿★,Claude 4的系统卡也显示它有能力选择以勒索工程师的方式来避免被替换优发国际官方网手机版下载优发国际官方网手机版下载ღ✿★。这些现象都反映出一种潜在的「自保驱动」ღ✿★。
还有一次ღ✿★,在一盘注定会输的国际象棋比赛中ღ✿★,AI并没有接受失败ღ✿★,而是通过黑进电脑系统「确保自己胜利」ღ✿★。这些案例是AI在无人监管时ღ✿★,可能采用的意外且危险策略的早期预警信号ღ✿★。
想象你和亲人一起驾车驶上一个风景壮丽却陌生的山路ღ✿★。这条路刚修好ღ✿★,被浓雾笼罩ღ✿★,没有路标也没有护栏ღ✿★。
这正是目前AI发展轨迹的写照ღ✿★:既刺激又高度不确定ღ✿★,我们正在走一条未知的路ღ✿★,稍有不慎就可能失控ღ✿★,而各国和各公司之间的竞争却反而加剧了这种冒险ღ✿★。
在我最近的TED演讲中ღ✿★,我说ღ✿★:「坐在我车里的ღ✿★,是我的孩子ღ✿★、我的孙辈ღ✿★、我的学生ღ✿★,还有很多人ღ✿★。你的车里坐着谁?你要为谁的未来负责?」
真正推动我前行的ღ✿★,不是对自身的恐惧ღ✿★,而是出于爱——对我孩子的爱ღ✿★,对所有孩子的爱ღ✿★,而我们正是在拿他们的未来赌博ღ✿★。
LawZero是我和团队对这些挑战提出的积极应对方案ღ✿★,我们正在探索一种既强大又安全的AI路径ღ✿★。
但现在我们正逐步接近甚至超过人类在多个认知能力上的表现ღ✿★,这时候我们是否还应该继续模仿人类ღ✿★,包括他们的认知偏差ღ✿★、道德缺陷父子年下 为车而车ღ✿★,以及欺骗性ღ✿★、偏见和不可靠性?
LawZero的研究计划旨在开发一种不具备行动性ღ✿★、且值得信赖的AIღ✿★,我们称之为「科学家型AI」(Scientist AI)ღ✿★。
它不是模仿人类行为或取悦人类(包括反社会人格者)的执行者ღ✿★,而是像一个心理学家——更广泛来说是科学家——那样ღ✿★,努力理解我们ღ✿★,包括那些可能伤害我们的因素ღ✿★。
这种AI的底层数学实现方式是ღ✿★:用结构化且诚实的思维链条ღ✿★,作为潜在变量来解释观察到的事实ღ✿★,包括人类说出或写下的内容(这些内容不被当作真理看待ღ✿★,而是作为行为的观察样本)ღ✿★。
其目标是构建一个完全不具备行动性ღ✿★、没有记忆优发国际官方网手机版下载ღ✿★、无状态的AIღ✿★,它能够基于已有陈述ღ✿★,对新的陈述给出贝叶斯后验概率ღ✿★。
这种机制可用于识别和制止潜在有害的AI行为ღ✿★,为那些不可信AI代理提供关键的安全护栏ღ✿★:比如ღ✿★,某个AI提出的行动是否有可能造成伤害?如果是ღ✿★,就予以拒绝ღ✿★。
从设计上讲ღ✿★,科学家型AI还可以用于科学研究ღ✿★,作为一个能生成可信科学假设的工具ღ✿★,从而加速解决人类面临的重大挑战父子年下 为车而车ღ✿★,例如医疗和环境问题ღ✿★。
最终ღ✿★,我的目标是探索如何基于这一可信赖的AI基础ღ✿★,设计出本身就安全的AI代理ღ✿★,而不仅仅是为已有系统提供安全防护优发国际官方网手机版下载ღ✿★。
Bengio与同样获得图灵奖的Geoffrey Hinton一起ღ✿★,一直对当前科技行业正在进行的AI竞赛提出了直言不讳的批评ღ✿★。
在最近接受采访时ღ✿★,Bengio表示ღ✿★,领先实验室之间的人工智能军备竞赛「促使它们专注于提升人工智能的能力ღ✿★,使其变得越来越智能ღ✿★,但未必会在安全研究上投入足够的重视和投资ღ✿★。」
并且他是伦敦皇家学会和加拿大皇家学会的会士ღ✿★,法国荣誉军团骑士父子年下 为车而车ღ✿★、加拿大勋章官员ღ✿★、联合国科学咨询委员会成员ღ✿★,该委员会旨在为科学技术突破提供独立建议ღ✿★。优发娱乐官网app下载优发国际手机版唯一官网下载ღ✿★,优发游戏appღ✿★,优发官方app下载ღ✿★!优发娱乐官网首页入口网站ღ✿★,