NAI:OpenAI发布炸裂研究：让AI解释AI黑箱，人类无法理解，语言无法描述

作者：

时间：1900/1/1 0:00:00

来源：FounderPark

就算在新产品满天飞，商业文明正在被AI重建的当下，我们仍然不知道，这些令人惊叹的技术是如何运作的。

AI，语言模型，它是个黑箱，人类无法理解，我们甚至不知道怎样研究才能够理解。

但如果，研究这个黑箱的不是人类，而是AI自己呢？

这是一个令人好奇但又非常危险的想法。因为你甚至不知道，这一研究方法产生的结果，是否会彻底颠覆多年来人类对人脑和AI的理解。

但是有人这样做了。几小时前，OpenAI发布了最新的研究成果，他们用GPT-4解释GPT-2的行为，获得了初步的成果。

毫不夸张地说，人们震惊极了：「求求你们让它离觉醒远点吧！」

「AI理解AI，然后很快，AI训练AI，然后再过几年，AI创造新的AI。」

但客观来说，学术界为之感到兴奋：「疯了，OpenAI刚刚搞定了可解释性问题。」

人与机器之间是GPT-4

OpenAI刚刚在官网发布博客文章《语言模型可以解释语言模型中的神经元》。

简单来说，他们开发了一个工具，调用GPT-4来计算出其他架构更简单的语言模型上神经元的行为，这次针对的是GPT-2，发布于4年前的开源大模型。

Solana：Slope用户或曾在Slope导入助记词的设备或存在被盗风险:据官方消息，Solana发布8月2日Slope钱包事件更新：从UTC时间2022年8月2日22:37开始并持续约4小时，一个或多个恶意攻击者盗取了9231个钱包中共计价值约410万美元的资产。链上交易显示，受影响钱包的私钥已被泄露，并被用于签署恶意交易。

在开发人员、分析公司和安全审计员的调查中，受影响的地址似乎曾在iOS和Android上的Slope钱包应用程序（由Slope Finance创建和发布）中创建、导入或使用。这些Slope用户的私钥资料被Slope无意中传输到应用程序监控服务，但黑客获取或截获这些信息的途径仍在调查中。

此次攻击没有涉及与Solana Labs、Solana基金会或任何与Solana协议本身相关的核心代码，这不是协议级别的漏洞。

这一漏洞似乎孤立于支持Solana和以太坊地址的一个钱包提供商，但其他软件钱包（如Phantom和Solflare）上受影响的用户可能是用户重复使用在Slope中生成或存储的助记词的结果。

目前官方认为这不是与Slope以外的任何特定钱包实现直接相关的问题。由于以太坊和Solana都使用BIP39助记符，因此对使用以太坊钱包用户的任何影响也可能是由于重复使用了助记词。

无论是否使用Slope的硬件钱包没有受到影响，任何从助记词生成的从未被导入（或被Slope钱包使用）的钱包都没有受到影响。然而，用户只要将他们的助记词导入Slope应用程序，就有受攻击的风险。

Solana官方强调，Slope钱包用户或者之前曾将助记词导入Slope的设备，即使没有资产被转移，钱包也可能会被盗用。因此建议：

- 在另一个钱包应用程序中生成一个新的助记词；

- 将所有资产（代币和NFT）转移到这个新钱包；

- 放弃旧地址，因为它可能会受到攻击。

用户不应该重复使用以前在Slope移动应用中使用过的助记词衍生的钱包。[2022/8/9 12:11:42]

大模型和人脑一样，由「神经元」组成，这些神经元会观察文本中的特定规律，进而影响到模型本身生产的文本。

OpenSea昨日交易量为1.03亿美元:金色财经报道，据Dune Analytics数据显示，OpenSea昨日交易量为1.03亿美元。截止目前OpenSea本月交易量为30.69亿美元。[2022/1/16 8:52:31]

举例来说，如果有一个针对「漫威超级英雄」的神经元，当用户向模型提问「哪个超级英雄的能力最强」时，这个神经元就会提高模型在回答中说出漫威英雄的概率。

OpenAI开发的工具利用这种规则制定了一套评估流程。

开始之前，先让GPT-2运行文本序列，等待某个特定神经元被频繁「激活」的情况。

然后有三个评估步骤：

第一步，让GPT-4针对这段文本，生成解释。比如在下面的案例中，神经元主要针对漫威内容。GPT-4接收到文本和激活情况后，判断这与电影、角色和娱乐有关。

第二步，用GPT-4模拟这个GPT-2的神经元接下来会做什么。下图就是GPT-4生成的模拟内容。

OpenOcean.Finance网站新增4种语言:全聚合协议OpenOcean截至目前累计活跃用户地址突破18.4万，来自200多个国家及地区。为了更好的服务我们全球用户，OpenOcean.Finance网站新增4种语言，目前已支持英语，西语，俄语，中文，日文5种语言。

OpenOcean为连接DeFi和CeFi全聚合协议，通过应用深度优化的智能路由算法，在聚合的DeFi和CeFi上为交易者找到最优价格、最低滑点，且不收取协议费用。OpenOcean现已聚合ETH，BSC，TRON，ONT等主流公链上的DEX，还将继续聚合更多主流公链以及拓展至衍生品、收益、借贷及保险产品的全聚合，并推出组合保证金产品和智能财富管理服务。[2021/5/21 22:29:13]

最后一步，对比评估打分。对比4代模拟神经元和2代真实神经元的结果，看GPT-4猜的有多准。

OpenZeppelin开源类似闪电贷的实验性项目FlashWETH:据官方消息，OpenZeppelin研究团队成员AustinWilliams发布试验性项目“可闪电铸造的由资产支持的代币”（Flash-MintableAsset-BackedTokens）的以太坊合约代码，已部署至主网。该研究性项目类似于“闪电贷”，用户可以通过该合约铸造任意数量的代币，然后在同一笔交易中销毁相同数量的代币即可，否则该交易将无效。此次发布的实验项目“FlashWETH”还结合了类似WETH的（ERC-20包裹版ETH）机制，由ETH资产支持，所以可以用来进行套利交易。OpenZeppelin表示该项目的合约虽然简单，但是尚未审计，谨慎使用。[2020/6/28]

通过这样的方法，OpenAI对每个神经元的行为作出了初步的自然语言解释，并对这种解释和实际行为的匹配程度进行了评分。

最终他们对GPT-2中307200个神经元全部进行了解释，这些解释汇编成数据集，与工具代码一起在GitHub上发布。

超越语言的机器，人类无法理解的机器

据OpenAI在博客文章中表示，目前GPT-4生成的解释还不完美，尤其要解释比GPT-2更大的模型时，表现效果很差，「可能是因为后面的layer更难解释」。

公告 | OpenLedger正测试EOSDAC网络 EOS网络已运行:OpenLedger发布公告称，EOS网络正在运行模式下工作。从今天起，用户可以通过其存取EOS资金。OpenLedger团队目前正在测试EOSDAC网络，将尽快重新开放。[2018/7/31]

对于GPT-2解释的评分大多也非常低，仅有1000个左右的解释获得了较高的评分。

OpenAI可拓展对齐团队的JeffWu表示，「大多数解释的得分很低，或者无法解释实际神经元那么多的行为。比如，许多神经元以一种难以判断的方式保持活跃，它们在五六件事上保持激活，但却没有可以辨别的模式。有时候存在明显的模式，但GPT-4有无法找到它。」

虽然现阶段成绩不好，但是OpenAI却比较有信心，他们认为可以使用机器学习的方式提高GPT-4产出解释的能力。

比如通过反复产出解释，并根据激活情况修改解释；或者使用更大的模型作出解释；以及调整解释模型的结构等等。

OpenAI还提到，这一方法目前还有很多局限性。

使用简短的自然语言进行解释，也许并不匹配神经元可能非常复杂的行为，不能简洁地进行描述。神经元可能会具备多个不同概念，也可能，会具备一个人类没有语言描述甚至无法理解的概念。

最终OpenAI希望能够自动化找到并解释能够实现复杂行为的整个神经回路，而目前的方法只解释了神经元的行为，并没有涉及下游影响。

解释了神经元的行为，但没有解释产生这种行为的机制。这意味着即使是拿了高分的解释，也只能描述相关性。

整个过程是计算密集型的。

在论文中，OpenAI表示：「语言模型可能代表了人类无法用语言表达的陌生概念。这可能是因为语言模型关心不同的事情，比如统计结构对下一个token预测任务有用，或者因为模型已经发现了人类尚未发现的自然的抽象，例如在不同领域的类似概念家族。」

它把LLM的这种属性，称为AlienFeature，在生物领域翻译为「异类特征」。

FounderPark微信后台回复「解释神经元论文」，获取论文链接和中英对照PDF链接。

把对齐问题也交给AI

「我们正试图开发预测『AI系统会出现什么问题』的方法，」OpenAI可解释性团队负责人WilliamSaunders对媒体说，「我们希望能够真正做到，让这些模型的行为和生产的回答是可以被信任的。」

SamAltman也转发博客文章称：GPT-4对GPT-2做了一些可解释性工作。

可解释性是机器学习的研究子领域，指的是对模型的行为有清晰的理解和对模型结果的理解能力。

简单来说，目的就是解释机器学习模型「如何做到」。

2019年开始，可解释性成为机器学习的重要领域，相关研究有助于开发人员对模型进行优化和调整。针对当下AI模型大规模应用时，亟需解决的可信度、安全性和决策参考等问题。

如果我们不知道AI是如何作出决策的，始终把它当做一个黑箱，那么就算AI在各种场景下表现得再完美，也无法解决部分人类的信任问题。

OpenAI这次使用GPT-4来解决可解释性的问题，就是希望能够使用自动化的方式，让机器完成AI研究。

「这是我们对齐研究的第三支柱的一部分：我们希望自动化对齐研究。令人期待的是，这一方向能让它与AI发展的步伐相匹配。」

在2022年夏天，OpenAI曾发布文章《我们做对齐研究的方法》。

文中提到，宏观来看，OpenAI的对齐研究将由三大支柱支撑：

1、利用人工反馈训练AI

2、训练AI系统协助人类评估

3、训练AI系统进行对齐研究

「语言模型非常适合自动化对齐研究，因为它们通过阅读互联网『预装』了大量有关人类价值观的知识和信息。开箱即用，它们不是独立代理，因此不会在世界上追求自己的目标。」

太快了，连认知都范式革命了

虽然OpenAI本意很好，但是这样的研究成果着实吓坏了网友。

OpenAI的推文下梗图横飞，有不少人在认真地建议OpenAI搞慢点。

「用我们不理解的东西，解释另一个我们不理解的东西，这合理吗？」

「护栏都被你撤了」

「这太迷人了，但也让我感到极度不适。」

「自然创造了人类来理解自然。我们创造了GPT-4来理解自己。」

「我们要怎么判断解释者是好的？这就像...谁监督着监督者？」（whowatchesthewatchers)

还有人看到了更深的一层：

「大模型很快就能比人类更好地解释他们自己的思维过程，我想知道我们未来要创造多少新的词汇，来描述那些AI发现的概念？我们还没有一个合适的词描述它们。或者，我们是否会觉得这些概念有意义？它们又能教会我们如何认识自己呢？」

另一网友回应道：「人类本身对自己行为的解释，大多是谎言、捏造、幻觉、错误的记忆、事后推理，就像AI一样。」

标签：PEN OPEN GPT NAI BPENG OPEN币 gpt币最新消息 INAI币

XMR热门资讯

CTO:薅 DAO 的羊毛？DAO 资金掠夺者是如何榨干国库的？

DAO在加密领域获得了极大的关注和投资,其中有几个DAO在各自的国库中管理着数十亿美元。然而,并不是所有DAO的参与者都有着高尚的目的.

1900/1/1 0:00:00

CET:一文解读Sui Aptos上集中流动性协议Cetus

Cetus是一个基于Move生态的Dex和流动性协议,使用类似于uniswapV3的算法构建集中性流动性协议和一系列附属功能,为DeFi用户提供最佳的交易体验和更高的资金效率.

1900/1/1 0:00:00

区块链:深度解读世界上第一个受监管的链上保险项目Nayms

Nayms是一家保险科技公司,传统保险业不透明、缓慢且效率低的下,新项目?Nayms?通过引入区块链技术,让保险行业变得透明和高效,同时将风险定价和保险业务管理提升到了一个新的水平.

1900/1/1 0:00:00

PRO:浅谈Layer 3 的潜在优势及应用链的未来发展

Layer3和应用链解决方案的崛起为以太坊生态系统带来了新的可能性。在这篇文章中,Scroll研究员Yicheng将深入探讨L3的主要优势和Scroll的发展,以及个人期待的未来探索方向.

1900/1/1 0:00:00

API:一周融资速递 | 30家项目获投；已披露融资总额约为1.83亿美元（4.24-4.30）

经Odaily星球日报不完全统计,?4月24日-4月30日公布的海内外区块链融资事件共30起,较上周数据有一定减少,已披露融资总额约为1.83亿美元,较上周数据有明显下降.

1900/1/1 0:00:00

人工智能:GPTDAO发起Twitter Space ，【AI老炮儿深挖AGI前世今生】

将于美国西部时间2023年5月6日晚上8点举行。本次AMA活动将邀请AI领域的资深专家,深度剖析AGI技术的前世今生,探讨人工智能对我们的生活和未来的影响.

1900/1/1 0:00:00