GPT:OpenAI正式推出多模态GPT-4

作者：

时间：1900/1/1 0:00:00

作者：OpenAI&TheVerge&Techcrunch

翻译 &分析：阿法兔

*本文6000字左右

GPT-4可以接受图像和文本输入，而GPT-3.5只接受文本。

GPT-4在各种专业和学术基准上的表现达到 "人类水平"。例如，它通过了模拟的律师考试，分数约为应试者的前10%。

OpenAI花了6个月的时间，利用从对抗性测试项目以及ChatGPT中获得的经验，反复调整GPT-4，结果在事实性、可引导性和可控制方面取得了 "史上最佳结果"。

在简单的聊天中，GPT-3.5和GPT-4之间的区别可能微不足道，但是当任务的复杂性达到足够的阈值时，区别就出来了，GPT-4比GPT-3.5更可靠，更有创造力，能够处理更细微的指令。

GPT-4能对相对复杂的图像进行说明和解释，比如说，从插入iPhone的图片中识别出一个Lightning Cable适配器（下文有图片）。

图像理解能力还没有向所有OpenAI的客户开发，OpenAI正在与合作伙伴Be My Eyes进行测试。

OpenAI承认，GPT-4并不完美，仍然会对事实验证的问题产生错乱感，也会犯一些推理错误，偶尔过度自信。

开源OpenAI Evals,用于创建和运行评估GPT-4等模型的基准，同时逐个样本检查其性能。

OpenAI已经正式推出GPT-4，这也是OpenAI在扩大深度学习方面的最新里程碑。GPT-4是大型的多模态模型（能够接受图像和文本类型的输入，给出文本输出），尽管GPT-4在许多现实世界的场景中能力不如人类，但它可以在各种专业和学术基准上，表现出近似人类水平的性能。

例如：GPT-4通过了模拟的律师考试，分数约为全部应试者的前10%。而相比之下，GPT-3.5的分数大约是后10%。我们团队花了6个月的时间，利用我对抗性测试项目以及基于ChatGPT的相关经验，反复对GPT-4进行调整。结果是，GPT-4在事实性（factuality）、可引导性（steerability）和拒绝超范围解答（非合规）问题（ refusing to go outside of guardrails.）方面取得了有史以来最好的结果（尽管它还不够完美）

OpenAI领投挪威机器人公司1X:金色财经报道，近日，挪威机器人制造商1X Technologies宣布完成A2轮融资，融资规模为2350万美元，由OpenAI创业基金领投，老虎环球和一个由Sandwater、Alliance Ventures和Skagerak Capital等挪威投资者组成的财团也参与了投资。根据公司官网上的介绍，1X原名为Halodi Robotics，成立于2014年，生产能够模仿人类动作和行为的机器人，公司共有60多人。1X称其宗旨是创造具有实际应用价值的机器人，以增加全球劳动力。据悉，1X打算利用这笔资金来加大其即将推出的双足机器人模型NEO的研发力度，以及在挪威和北美大规模生产其首款商用机器人EVE。[2023/3/28 13:30:08]

在过去两年里，我们重构了整个深度学习堆栈，并与Azure合作，为工作负荷从头开始，共同设计了一台超级计算机。一年前，OpenAI训练了GPT-3.5，作为整个系统的首次 "试运行"，具体来说，我们发现并修复了一些错误，并改进了之前的理论基础。因此，我们的GPT-4训练、运行（自信地说：至少对我们来说是这样！）空前稳定，成为我们首个训练性能可以进行提前准确预测的大模型。随着我们继续专注于可靠扩展，中级目标是磨方法，以帮助OpenAI能够持续提前预测未来，并且为未来做好准备，我们认为这一点，对安全至关重要。

我们正在通过ChatGPT和API（您可以加入WaitList）发布GPT-4的文本输入功能，为了能够更大范围地提供图像输入功能，我们正在与合作伙伴紧密合作，以形成一个不错的开端。我们计划开源OpenAI Evals，也是我们自动评估AI模型性能的框架，任何人都可以提出我们模型中的不足之处，以帮助它的进一步的改进。

在简单闲聊时，也许不太好发现GPT-3.5和GPT-4之间的区别。但是，当任务的复杂性达到足够的阈值时，它们的区别就出来了。具体来说，GPT-4比GPT-3.5更可靠，更有创造力，能够处理更细微的指令。

为了理解这两个模型之间的差异，我们在各种不同的基准上进行了测试，包括模拟最开始那些为人类设计的考试。通过使用最新的公开测试（就奥数和AP等等考试）还包括购买2022-2023年版的练习考试来进行，我们没有为这类考试给模型做专门的培训，当然，考试中存在很少的问题是模型在训练过程中存在的，但我们认为下列结果是有代表性的。

OpenSea：网络钓鱼攻击受影响个人名单缩小到17人:2月22日消息，OpenSea官方刚刚发推表示，一直在夜以继日地调查这次网络钓鱼攻击的具体细节。虽然还没有确定确切的来源，但想分享一些EOD更新：已将受影响的个人名单缩小到17人，而不是之前提到的32人。最初的计数包括与攻击者有过“交互”的任何人，而不是网络钓鱼攻击的受害者。这次攻击似乎不活跃，超过15小时没有恶意合约活动。此前消息，OpenSea疑似遭到网络钓鱼攻击，大量NFT被窃取并卖出套利。[2022/2/22 10:08:26]

我们还在为机器学习模型设计的传统基准上，对GPT-4进行了评估。GPT-4大大超过现有的大语言模型，与多数最先进的（SOTA）模型并驾齐驱，这些模型包括针对基准的制作或额外的训练协议。

由于现有的大多数ML基准是用英语编写的，为了初步了解其他语言的能力，我们使用Azure Translate将MMLU基准：一套涵盖57个主题的14000个选择题，翻译成了各种语言。在测试的26种语言中的24种语言中，GPT-4的表现优于GPT-3.5和其他大模型（Chinchilla，PaLM）的英语表现，这种优秀表现还包括类似拉脱维亚语、威尔士语和斯瓦希里语等等。

我们一直在内部使用GPT-4，发现它对支持、销售、内容审核和编程等功能会产生很大影响，我们还在用它来协助人类评估AI的输出，这就是我们调整战略的第二阶段的开始。

LooksRare用户可免费上架NFT并从OpenSea导入订单:2月17日消息，LooksRare用户可在接下来7天免费上架收藏品系列，此外，用户可以从OpenSea直接导入订单至LooksRareNFT。[2022/2/17 9:57:07]

GPT-4可以接受文本和图像的提示语（prompt），这与纯文本设置平行。比如说，可以让用户指定任何视觉或语言任务，它可以生成文本输出（自然语言、代码等），给定的输入包括带有文字和照片的文件、图表或屏幕截图，GPT-4表现出与纯文本输入类似的能力。此外，还可以应用在为纯文本语言模型开发的测试时间技术，包括少数几个镜头和CoT的Prompting，不过目前图像输入仍然属于研究方面预览，没有像C端公开产品。

下列图片显示了一个 "Lightning Cable "适配器的包装，有三个面板。

面板1：一个带有VGA接口（通常用于电脑显示器的大型蓝色15针接口）的智能手机插在其充电端口。

面板2："Lightning Cable "适配器的包装上有一张VGA接口的图片。

面板3：VGA连接器的特写，末端是一个小的Lightning连接器（用于为iPhone和其他苹果设备充电）。

这张图片的搞笑性质来自于将一个大的、过时的VGA连接器插入一个小的、现代的智能手机充电端口..因此看起来很荒谬

通过在一套狭窄的标准学术视觉基准上，对GPT-4的性能进行评估，并且对它进行预览。然而，这些数字并不能代表其的能力范围，因为我们发现，这个模型能够处理很多的新的和令人兴奋的任务，OpenAI计划很快发布进一步的分析和评估数字，以及对测试时间技术效果的彻底调查结果。

我们一直在努力实现关于定义AI行为那篇文章中，所概述的计划的每个方面，包括AI的可控制性。与经典的ChatGPT个性的固定言语、语气和风格不同，开发者（很快就是所有的ChatGPT用户）现在可以通过在 "系统 "消息中描述这些方向，来规定自己的AI的风格和任务。系统消息允许API用户在范围内，大幅对用户体验进行定制，我们将持续改进。

Twitter的140件NFT在OpenSea交易量突破500万美元:8月10日消息，Twitter在6月30日发布的NFT系列“The 140 Collection”在OpenSea NFT市场上创造了1700 ETH（530万美元）的总交易量。虽然这个数字远低于Axis Infinity和CryptoPunks等NFT项目，但对于仅140件NFT来说，这是一个相当大的交易量。该系列所有代币都是各种与Twitter相关的短GIF，包括动画和与平台品牌某些方面互动的角色。该系列包含七种不同的设计，每种有20件NFT代币，Twitter仔细挑选了140名对宣布赠送NFT的主要推文做出回应的用户。不久之后，获选者成立了一个组织，目标是让他们的新数字资产发挥最大价值。

此前消息，推特官方账号在6月30日将自己的推特简介更改为“整天发布 NFT（dropping NFTs all day）”，并发推表示“为你们中的140人提供140个免费的NFT（140 free NFTs for 140 of you）”。（The Block）[2021/8/10 1:46:43]

尽管能力惊人，不过，GPT-4仍存在与早期GPT模型类似的限制。最重要的是，它仍然不是完全可靠的（比如说，它会对事实产生 "幻觉"，并出现推理错误）。在使用语言模型的输出时，特别是在高风险的情况下，应该非常小心谨慎，比如说：需要人类审查，完全避免高风险的使用）以及需要与特定的使用案例的需求相匹配。

尽管各类情况仍然存在，但相较于以前的模型（这些模型本身也在不断改进），GPT-4大大减少了hallucinations（意思是网络错觉，这里指的是一本正经的胡说八道）。在我们内部的对抗性事实性评估中，GPT-4的得分比我们最新推出的GPT-3.5高40%。

GPT-4的基础模型在这项任务中只比GPT-3.5略胜一筹；然而，在经过RLHF的后期训练后（应用我们对GPT-3.5使用的相同过程），却有很大差距。该模型在其输出中会有各种偏差，我们在这些方面已经取得了进展，但仍有更多工作要做。根据我们最近的博文，我们的目标是使我们建立的人工智能系统具有合理的默认行为，以反映广泛的用户价值观，允许这些系统在广泛的范围内被定制，并获得公众对这些范围的意见。

动态 | 迪拜开发商Ellington Properties为购房者提供加密货币支付选项:迪拜开发商Ellington Properties选择Bitcoin Suisse（BTCS）作为其首选的加密经纪提供商，为其国际客户群增加支付选项。Ellington Properties表示，客户现在可以使用比特币在迪拜市中心购买房屋，交易过程将由Bitcoin Suisse提供便利。（Arabian Business）[2019/11/29]

GPT-4通常缺乏对其绝大部分数据截止后（2021年9月）发生的事件的了解，也不会从其经验中学习。它有时会犯一些简单的推理错误，这似乎与这么多领域的能力不相符，或者过于轻信用户的明显虚假陈述。有时它也会像人类一样在困难的问题上失败，例如在它产生的代码中引入安全漏洞。GPT-4也可能在预测中自信地犯错。

我们一直在对GPT-4进行迭代，使其从训练开始就更加安全，保持一致性，我们所做的努力包括预训练数据的选择和过滤、评估，邀请专家参与，对模型安全改进、监测，以及执行。

GPT-4与过去的模型会存在类似风险，如生产有害的建议、错误代码或不准确的信息。然而，GPT-4的额外能力还导致了新的风险面。为了明确这些风险的具体情况，我们聘请了50多位来自人工智能对接风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家对该模型进行对抗性测试。他们的参与，使我们能够测试模型在高风险领域的行为，这些领域需要专业知识来评估。来自这些领域专家的反馈和数据，为我们缓解和改进模型提供了依据。比如说，我们已经收集了额外的数据，以提高GPT-4拒绝有关如何合成危险化学品的请求的能力。

GPT-4在RLHF训练中加入了一个额外的安全奖励信号，通过训练模型来拒绝对此类内容的请求，从而减少有害产出（由我们的使用指南定义）。奖励是由GPT-4的分类器提供的，它能够判断安全边界和安全相关提示的完成方式。为了防止模型拒绝有效的请求，我们从不同的来源（例如，标记的生产数据，人类的红队，模型生成的提示）收集多样化的数据集，并在允许和不允许的类别上应用安全奖励信号（存在正值或负值）。

与GPT-3.5相比，我们的缓解措施大大改善了GPT-4的许多安全性能。与GPT-3.5相比，我们将模型对非法内容的请求的响应倾向，降低了82%，而GPT-4对敏感请求（如医疗建议和自我伤害）的响应符合我们的政策的频率提高了29%

总的来说，我们的模型级干预措施增加了诱发不良行为的难度，但仍然存在 "越狱 "的情况，以产生违反我们使用指南的内容。随着人工智能系统的风险的增加，在这些干预措施中实现极高的可靠性将变得至关重要。目前重要的是，用部署时间的安全技术来补充这些限制，如想办法监测。

GPT-4和后续模型，很有可能对社会产生正面或者负面的影响，我们正在与外部研究人员合作，以改善我们对潜在影响的理解和评估，以及建立对未来系统中可能出现的危险能力的评估。我们将很快分享我们对GPT-4和其他人工智能系统的潜在社会和经济影响的更多思考。

和之前的GPT模型一样，GPT-4基础模型的训练是为了预测文档中的下一个单词，并使用公开的数据（如互联网数据）以及我们授权的数据进行训练。这些数据是来自于极大规模的语料库，包括数学问题的正确和错误的解决方案，弱的和强的推理，自相矛盾的和一致的声明，以及种类繁多的意识形态和想法。

因此，当被提示有一个问题时，基础模型可以以各种各样的方式作出反应，而这些反应可能与用户的意图相去甚远。为了使其与用户的意图保持一致，我们使用人类反馈的强化学习（RLHF）对模型的行为进行微调。

注意，模型的能力似乎主要来自于预训练过程，RLHF并不能提高考试成绩（如果不主动努力，它实际上会降低考试成绩）。但是对模型的引导来自于训练后的过程--基础模型需要及时的工程，甚至知道它应该回答问题。

GPT-4项目的一大重点是建立一个可预测扩展的深度学习栈。主要原因是，对于像GPT-4这样非常大的训练运行，做大量的特定模型调整是不可行的。我们对基础设施进行了开发和优化，在多种规模下都有非常可预测的行为。为了验证这种可扩展性，我们提前准确地预测了GPT-4在我们内部代码库（不属于训练集）中的最终损失，方法是通过使用相同的方法训练的模型进行推断，但使用的计算量要少10000倍。

我们认为，准确预测未来的机器学习能力是安全的一个重要部分，相对于其潜在的影响，它没有得到足够的重视（尽管我们已经被几个机构的努力所鼓舞）。我们正在扩大我们的努力，开发一些方法，为社会提供更好的指导，让人们了解对未来系统的期望，我们希望这成为该领域的一个共同目标。

我们正在开源OpenAI Evals，这是我们的软件框架，用于创建和运行评估GPT-4等模型的基准，同时逐个样本检查其性能。我们使用Evals来指导我们模型的开发（包括识别缺点和防止退步），我们的用户可以应用它来跟踪不同模型版本（现在将定期推出）和不断发展的产品集成的性能。例如，Stripe已经使用Evals来补充他们的人工评估，以衡量他们的GPT驱动的文档工具的准确性。

因为代码都是开源的，Evals支持编写新的类来实现自定义的评估逻辑。然而，根据我们自己的经验，许多基准都遵循一些 "模板 "中的一个，所以我们也包括了内部最有用的模板（包括一个 "模型分级Evals "的模板--我们发现GPT-4有令人惊讶的能力来检查自己的工作）。一般来说，建立一个新的评估的最有效方法是将这些模板中的一个实例化，并提供数据。我们很高兴看到其他人能用这些模板和Evals更广泛地建立什么。

我们希望Evals成为一个分享和众包基准的工具，最大限度地代表广泛的故障模式和困难任务。作为后续的例子，我们已经创建了一个逻辑谜题评估，其中包含GPT-4失败的十个提示。Evals也与实现现有的基准兼容；我们已经包括了几个实现学术基准的笔记本和一些整合CoQA（小的子集）的变化作为例子。

我们邀请大家使用Evals来测试我们的模型，并提交最有趣的例子。我们相信Evals将成为使用和建立在我们的模型之上的过程中不可或缺的一部分，我们欢迎直接贡献、问题和反馈。

ChatGPT Plus

ChatGPT Plus用户将在chat.openai.com上获得有使用上限的GPT-4权限。我们将根据实际需求和系统性能调整确切的使用上限，但我们预计容量将受到严重限制（尽管我们将在接下来的几个月里扩大和优化）。

根据我们看到的流量模式，我们可能会为更高的GPT-4使用量引入一个新的订阅级别，我们也希望在某个时候提供一定数量的免费GPT-4查询，这样那些没有订阅的用户也可以尝试。

API

要获得GPT-4的API（使用与gpt-3.5-turbo相同的ChatCompletions API），请可以去OpenAI的官方Waitlist上注册。

结论

我们期待着GPT-4成为一个有价值的工具，通过为许多应用提供动力来改善人们的生活。还有很多工作要做，我们期待着通过社区的集体努力，在这个模型的基础上进行建设、探索和贡献，共同对模型进行改进。

参考文献：1.https://openai.com/research/gpt-4

2.https://techcrunch.com/2023/03/14/openai-releases-gpt-4-ai-that-it-claims-is-state-of-the-art/

3.https://www.theverge.com/2023/3/14/23638033/openai-gpt-4-chatgpt-multimodal-deep-learning

阿法兔

个人专栏

金色财经善欧巴

金色早8点

Arcane Labs

MarsBit

Odaily星球日报

欧科云链

深潮TechFlow

BTCStudy

澎湃新闻

标签：GPT PEN OPEN NAI ChainGPT OPENX价格 OpenSwap LUNAINU

SHIB最新价格热门资讯

区块链:数藏版“Web3 域名”标价上千出了平台就没用

从今年1月开始,国内的数藏市场刮起了“域名热”,一些数字藏品平台轮番上线“数字身份”板块,效法区块链公链网络以太坊上的ENS等域名系统,卖起数藏版“Web3域名”.

1900/1/1 0:00:00

BAS:不是我泼冷水但用 Coinbase 的 L2 一定要 KYC 吗？

本文来自Blec report2023 年 2 月 23 日.

1900/1/1 0:00:00

ETA:“元宇宙”之父：不存在“一个”元宇宙 AI替代不了艺术家

来源：极客公园（ID：geekpark）作者：Tim Bradshaw尼尔·斯蒂芬森（Neal Stephenson）的科幻小说.

1900/1/1 0:00:00

区块链:Web3中文｜政策影响下的新加坡Web3步伐喜忧参半

如果说“亚洲四小龙”是新加坡曾经的荣耀,那么当时代进入21世纪的第二个十年,用新加坡经济协会（SEE）副主席、新加坡新跃社科大学教授李国权的话来说.

1900/1/1 0:00:00

ADE:3分钟读懂Stader：会成为LSD黑马吗？

撰文：Poopman编译：0x11,Foresight NewsStader 凭借多池架构和分布式验证器技术（DVT）,可能会成为流动性质押游戏规则的改变者。LSD 战争正在迅速升温.

1900/1/1 0:00:00

BTC:金色观察 | Bankless：5个鲸鱼钱包观察工具帮助你发现alpha

文/ William Peaster,Bankless作者；译/金色财经xiaozou“Alpha”来自于“知情者”.

1900/1/1 0:00:00