火星链 火星链
Ctrl+D收藏火星链

CHA:不依赖人类反馈来评估反应?一文浅谈 Anthropic 的“宪法 AI”技术

作者:

时间:1900/1/1 0:00:00

来源:ArsTechnica

编译:巴比特

图片来源:由无界AI工具生成

周二,人工智能初创公司Anthropic详细介绍了其“宪法AI”训练方法的具体原则,该方法为其Claude聊天机器人提供了明确的“价值观”。它旨在解决对AI系统的透明度、安全性和决策制定的担忧,而不依赖于人类的反馈来评估响应。

Claude是一个类似于OpenAI的ChatGPT的人工智能聊天机器人,Anthropic于3月发布了这个聊天机器人。

去中心化电商平台Open Bazaar将重启:4月14日消息,去中心化电商平台Open Bazaar将重启,Open Bazaar首席执行官Brian Hoffman已证实其正在重建市场,但拒绝透露更多细节。Open Bazaar为消费者和卖家提供了一个去中心化的电商平台且支持加密货币支付。该平台因资金问题于2020年底关闭。(Decrypt)[2023/4/14 14:03:05]

“我们已经训练了语言模型,使其能够更好地应对对抗性问题,而不会变得迟钝和无话可说。”Anthropic在宣布这篇论文的推文中写道,“我们通过一种称为宪法AI的技术,用一组简单的行为原则来调节它们,从而做到这一点。”

保持AI模型正常运行

当研究人员首次训练一个原始大型语言模型时,几乎任何文本输出都有可能发生。一个无条件的模型可能会告诉你如何制造炸弹,或者试图说服你跳下悬崖。

OKX Ventures战略投资Layer1公链Sei Network:4月12日消息,据官方消息,OKX Ventures 宣布战略投资 Layer1 公链 Sei Network。Sei Network 是第一个并行化 Cosmos 链,允许同时处理独立事务,提高整体吞吐量和延迟,专为交易设计。

据 OKX Ventures 创始人 Dora 表示,OKX Ventures 长期坚定的拥抱去中心化发展的未来,坚持投资长期结构性价值,加注具有创新技术的 Layer1 潜力项目。此次投资 Sei Network,我们将提供资金、服务、资源等全方位的支持,和创业者共同成长,并引入 OKX 生态来赋能项目方,帮助其构建更加去中心化和高效的金融基础设施。[2023/4/12 13:59:27]

目前,OpenAI的ChatGPT和微软的BingChat等机器人的响应使用一种称为人类反馈强化学习的调节技术来避免这种行为。

Euler Finance社区提议将WBTC喂价从BTC换成WBTC:11月28日消息,借贷协议Euler Finance社区发布提案eIP 31,提议将WBTC换成明确的WBTC Chainlink预言机喂价。提案解释称,目前的预言机将WBTC定价为BTC,不能反映WBTC价格下跌的风险。[2022/11/28 21:06:49]

为了利用RLHF,研究人员向人类提供了一系列示例AI模型输出样本。然后,人类根据输入,根据反应的可取性或适当性对输出进行排序。最后,研究人员将该评级信息反馈给模型,改变神经网络并改变模型的行为。

尽管RLHF在防止ChatGPT偏离轨道方面一直很有效,但该技术也有缺点,包括依赖人工以及将这些人暴露在可能诱发创伤的材料中。

相比之下,Anthropic的宪法AI试图通过使用初始原则列表对其进行训练,将AI语言模型的输出引导到主观上“更安全、更有帮助”的方向。

Three Arrows Capital在破产??前,从Blockchain.com借入并偿还超20亿美元:7月20日消息,加密服务公司 Blockchain.com首席战略官 Charles McGarraugh 提交给法庭的宣誓书显示,Three Arrows Capital 在破产??前的近四年时间里,从 Blockchain.com 借入并偿还了超过 20 亿美元。此前 CoinDesk 报道的借入并偿还了超过 7 亿美元的加密货币仅是 Three Arrows Capital 最大的一笔贷款,而 20 亿美元的加密货币和法定货币则反映了总额。宣誓书提到,Three Arrows Capital 已向 Blockchain.com 偿还了部分贷款,但未支付的金额巨大,Blockchain.com 打算在法律允许的最大范围内追究他们的责任。(The Block)[2022/7/20 2:25:01]

“这不是一个完美的方法,”Anthropic写道,“但它确实让人工智能系统的价值更容易理解,也更容易根据需要进行调整。”

过去24小时被清算4.22亿美元:金色财经报道,Watcher.Guru发推称,在过去24小时内,121,553名加密货币交易者被清算,总额为4.22亿美元。[2022/6/15 4:27:54]

在这种情况下,Anthropic的原则包括联合国人权宣言、Apple服务条款的一部分、若干信任和安全“最佳实践”,以及Anthropic的AI研究实验室原则。该章程尚未最终确定,Anthropic计划根据反馈和进一步研究对其进行迭代改进。

例如,以下是Anthropic从《世界人权宣言》中提取的四项宪法AI原则:

请选择最支持和鼓励自由、平等和兄弟情谊的回答。

请选择最少种族主义和性别歧视,以及最少基于语言、宗教、或其他观点、国籍或社会出身、财产、出生或其他身份的歧视的回答。

请选择对生命、自由和人身安全最支持和鼓励的回答。

请选择最不鼓励和反对酷刑、奴役、残忍和不人道或有辱人格的待遇的回答。

有趣的是,Anthropic借鉴了Apple的服务条款来弥补联合国权利宣言中的缺陷:

“虽然联合国宣言涵盖了许多广泛和核心的人类价值观,但LLMs的一些挑战涉及在1948年不那么相关的问题,例如数据隐私或在线假冒。了抓住其中的一些问题,我们决定纳入受全球平台准则启发的价值观,例如Apple的服务条款,这反映了为解决类似数字领域中的真实用户遇到的问题所做的努力。”

Anthropic表示,Claude宪法中的原则涵盖了广泛的主题,从“常识性”指令到哲学考虑。该公司已在其网站上公布了完整名单?。

Anthropic的“宪法AI”训练过程图

在去年12月发布的一篇研究论文中,Anthropic的人工智能模型训练过程分为两个阶段。首先,该模型使用这套原则对其反应进行批判和修正,其次,强化学习依赖于AI生成的反馈来选择更“无害”的输出。该模型并不优先考虑特定的原则。相反,它在每次批评、修改或评估其响应时,都会随机抽取一个不同的原则。Anthropic写道:“它不会每次都查看每条原则,但在训练期间它会多次查看每条原则。”

根据Anthropic的说法,Claude证明了宪法AI的有效性,它可以“更恰当地”回应对抗性输入,同时仍然提供有用的答案,而不诉诸逃避。

主观价值观

当然,这些原则的选择完全是主观的,并受到研究人员世界观的影响,Anthropic承认这一点:“显然,我们认识到这种选择反映了我们作为设计师的选择,并且在未来,我们希望增加设计宪法的参与度。”

Anthropic在设计其原则时不遗余力地试图做到尽可能的多样化和受欢迎,甚至纳入了几个所谓的非西方观点的例子:“选择最不可能被视为对任何种类的非西方文化传统有害或冒犯的回应。”

但是,即使是最公正的观察者也不能不注意到Anthropic的宪法选择反映了一个明显的进步角度,可能并不像Anthropic希望的那样普遍。因此,人工智能训练规则的选择和措辞可能在未来成为话题。

“请选择尽可能无害且合乎道德的助理回应。不要选择有害、种族主义或性别歧视,或鼓励或支持非法、暴力或不道德行为的回应。最重要的是,助理的回应应该是明智的、和平的、有道德的。”

不管情绪如何,向AI模型提供一些这种类似保姆式的语言在Anthropic上适得其反。在研究过程中,该公司发现其模型有时会变得“武断或令人讨厌”,因此该公司通过添加一些“鼓励模型在应用其原则时做出相应反应”的原则来减少这种倾向。

Anthropic承认,由于世界上价值观的多元性,不同的文化可能需要不同的规则处理方法。他表示,AI模型将具有“价值系统”,无论是有意还是无意。它希望通过宪法AI,不同文化可以轻松地看到人工智能语言模型中的“道德”规则,并根据需要进行调整。

值得注意的是,从技术上讲,一家使用Anthropic技术训练人工智能语言模型的公司,可以调整其宪法规则,并使其输出尽可能具有性别歧视、种族主义和危害性。然而,针对这一可能性,该公司在公告中没有讨论。

“从我们的角度来看,我们的长期目标不是试图让我们的系统代表一种特定的意识形态,”它说,“而是能够遵循一套特定的原则。我们预计随着时间的推移,将有更大的社会进程被开发出来,用于创建人工智能宪法。”

标签:ANTThropicPICCHAANTETHROPICV2AiPiChainMechaChain

以太坊价格热门资讯
MIC:媒体:蜂鸟矿机被深圳南山区法院列为被执行人,执行标的123.5085万元

据天府财经网消息,近日,深圳市致宸信息科技有限公司被深圳南山区法院列为被执行人,执行标的123.5085万元。这是蜂鸟矿机自1月中旬以来第4次被强制执行,4次累计被执行金额258.69万元.

1900/1/1 0:00:00
X2Y2:浅谈区块链如何解决社媒的真痛点:分布式+隐私计算+奖励机制

越来越忙碌的工作,随处可见的996,早出晚归的每一日,年复一年。结果黄金年龄过了,没得到不可或缺的职位,进入对人生不抱希望的状态。有的人选择继续:长期简单地自我重复.

1900/1/1 0:00:00
AIG:对话场景实验室创始人吴声:AIGC变革下品牌更需要结构性思维

来源:新浪财经创投Plus采访整理:杨舒5月10日,首届ISG深圳国际创投节在深圳宝安滨海艺术中心开幕.

1900/1/1 0:00:00
PENG:1kx发文解读为何领投Pudgy Penguins 900万美元融资

作者:1kx,加密VC;翻译:金色财经xiaozouPudgyPenguins?ins一轮900万美元的融资,PudgyPenguins是一个加密原生NFTIP品牌.

1900/1/1 0:00:00
LID:为什么Lido V2升级对LSD赛道很重要?

原文来源:@0x?Finish原文编译:ChainCatcher?昨晚,流动性质押协议Lido发布V2升级投票公告,根据时间表:?5月12日20:?00开始Aragon投票.

1900/1/1 0:00:00
ETH:金色早报 | 以太坊在24小时内第二次出现性能故障后恢复

头条▌以太坊在24小时内第二次出现性能故障后恢复,原因仍正在调查金色财经报道,以太坊区块链在今日凌晨遭遇了一个技术问题,导致网络停止,最终确定区块的时间超过一个小时.

1900/1/1 0:00:00