火星链 火星链
Ctrl+D收藏火星链

CHA:ChatGPT 等 LLM 使用强化学习而非监督学习进行微调的 5 个原因

作者:

时间:1900/1/1 0:00:00

撰文:Tanya Malhotra

来源:Marktechpost

编译:DeFi 之道

图片来源:由无界版图AI工具生成

随着生成性人工智能在过去几个月的巨大成功,大型语言模型(LLM)正在不断改进。这些模型正在为一些值得注意的经济和社会转型做出贡献。OpenAI 开发的 ChatGPT 是一个自然语言处理模型,允许用户生成有意义的文本。不仅如此,它还可以回答问题,总结长段落,编写代码和电子邮件等。其他语言模型,如 Pathways 语言模型(PaLM)、Chinchilla 等,在模仿人类方面也有很好的表现。

Blockchain Sports与区块链项目Carbify合作减少碳排放:金色财经报道,巴西第一家名为Blockchain Sports的基于区块链的足球学院将成为一家完全碳中和的公司。该公司确认了与Carbify的合作伙伴关系,Carbify是另一个基于区块链的项目,旨在帮助拯救亚马逊雨林,并为参与者分发基于区块链的奖励。Carbify的解决方案利用区块链技术创建透明且可追溯的碳抵消系统。Blockchain Sports将能够实时监控和跟踪他们的碳排放,使他们能够通过支持巴西及其他地区经过验证的可持续项目来抵消对环境的影响。[2023/7/17 10:58:43]

大型语言模型使用强化学习(reinforcement learning,RL)来进行微调。强化学习是一种基于奖励系统的反馈驱动的机器学习方法。代理(agent)通过完成某些任务并观察这些行动的结果来学习在一个环境中的表现。代理在很好地完成一个任务后会得到积极的反馈,而完成地不好则会有相应的惩罚。像 ChatGPT 这样的 LLM 表现出的卓越性能都要归功于强化学习。

Quantum Blockchain Technologies法律诉讼已解决,公司获得7.7万欧元的法律费用:8月3日消息,加密货币技术公司Quantum Blockchain Technologies PLC周二表示,英国针对该公司的法律诉讼已经解决,该公司已获得了7.7万欧元的法律费用。

早在2018年5月,这家总部位于伦敦的加密货币公司宣布,Sosushi的前股东和董事已在英国法院向其提出了约170万欧元的索赔。2019年3月,Quantum对Sosushi提出了抗辩和反诉。

周二,Quantum表示,对该索赔的辩护已经成功。此外,根据在意大利执行的英国法院命令,索赔方已经向Quantum支付了约7.7万欧元的诉讼费用。该公司补充称,在评估利润损失的最终听证会后,可能仍会判决进一步的法律费用和损害赔偿。

同样,Sosushi也在2019年3月向意大利法院提出了100万欧元的损害赔偿要求。该公司预计这将在2022年底做出裁决。

此外,Quantum的全资子公司Clear Leisure 2017 Ltd对Sipiem Soa的前董事会和内部审计委员会提出了索赔。最初估价为1080万欧元,后来由独立法院任命的第三方专家评估,估价达780万欧元。

Quantum证实,两家公司都已提交了最终的书面论证和答复,目前预计法院将在2022年底前解决索赔问题。(LSE)[2022/8/3 2:55:54]

ChatGPT 使用来自人类反馈的强化学习(RLHF),通过最小化偏差对模型进行微调。但为什么不是监督学习(Supervised learning,SL)呢?一个基本的强化学习范式由用于训练模型的标签组成。但是为什么这些标签不能直接用于监督学习方法呢?人工智能和机器学习研究员 Sebastian Raschka 在他的推特上分享了一些原因,即为什么强化学习被用于微调而不是监督学习。

链上ChainUP WaaS联盟支持波卡生态PCX(ChainX)主链币种充值提现:据链上ChainUP官方消息,旗下WaaS联盟已支持波卡生态PCX(ChainX)主链币种充值提现,并提供节点服务,WaaS联盟成员可以在第一时间支持PCX(ChainX)。

ChainX致力于成为数字资产跨链枢纽,将通过完全去中心化的方式进行跨链资产转移,使得BTC、ETH、EOS、ADA等可以自由流通到其他链系统中。

链上ChainUP WaaS联盟是链上ChainUP集团依托3年时间所服务的300多家交易所经验,将底层资产托管和钱包封装而成的一套完整的服务,包含资产托管、节点服务、主链币种开发、热门币种一键接入、共管钱包、借贷理财等多种功能服务,通过开放钱包API与SDK,帮助交易所、项目方、媒体等快速高效接入,实现云端资产安全托管,联盟内部转账0手续费,即时到账。目前,已有超过500家企业加入ChainUP WaaS联盟。[2020/11/13 14:12:30]

区块链分析公司Chainalysis:比特币网络活动的增多与在交易所交易有关:区块链分析公司Chainalysis最近的一份报告显示,比特币网络活动的增多与在交易所交易有关。[2018/4/10]

不使用监督学习的第一个原因是,它只预测等级,不会产生连贯的反应;该模型只是学习给与训练集相似的反应打上高分,即使它们是不连贯的。另一方面,RLHF 则被训练来估计产生反应的质量,而不仅仅是排名分数。

Sebastian Raschka 分享了使用监督学习将任务重新表述为一个受限的优化问题的想法。损失函数结合了输出文本损失和奖励分数项。这将使生成的响应和排名的质量更高。但这种方法只有在目标正确产生问题-答案对时才能成功。但是累积奖励对于实现用户和 ChatGPT 之间的连贯对话也是必要的,而监督学习无法提供这种奖励。

不选择 SL 的第三个原因是,它使用交叉熵来优化标记级的损失。虽然在文本段落的标记水平上,改变反应中的个别单词可能对整体损失只有很小的影响,但如果一个单词被否定,产生连贯性对话的复杂任务可能会完全改变上下文。因此,仅仅依靠 SL 是不够的,RLHF 对于考虑整个对话的背景和连贯性是必要的。

监督学习可以用来训练一个模型,但根据经验发现 RLHF 往往表现得更好。2022 年的一篇论文《从人类反馈中学习总结》显示,RLHF 比 SL 表现得更好。原因是 RLHF 考虑了连贯性对话的累积奖励,而 SL 由于其文本段落级的损失函数而未能很好做到这一点。

像 InstructGPT 和 ChatGPT 这样的 LLMs 同时使用监督学习和强化学习。这两者的结合对于实现最佳性能至关重要。在这些模型中,首先使用 SL 对模型进行微调,然后使用 RL 进一步更新。SL 阶段允许模型学习任务的基本结构和内容,而 RLHF 阶段则完善模型的反应以提高准确性。

DeFi之道

个人专栏

阅读更多

金色财经 善欧巴

金色早8点

Odaily星球日报

欧科云链

Arcane Labs

MarsBit

深潮TechFlow

BTCStudy

澎湃新闻

标签:CHAAINHAIChainXChangeRateSignatureChainydsblockchainOMA CHAIN

pepe最新价格热门资讯
以太坊:助记词将成历史?以太坊ERC-4337启用 如何理解“账户抽象”

以太坊基金会在3月1日的WalletCon活动上宣布称,以太坊智能合约ERC-4337经过部署、测试,将正式开启智能账户的新时代.

1900/1/1 0:00:00
ETH:一文梳理硅谷银行是如何投资失利而导致创纪录跌幅的

来源微博:Degg_GlobalMacroFin简单但严肃的回顾一下硅谷银行(SVB)的整个事件.

1900/1/1 0:00:00
比特币:盘点六大比特币扩容方案现状:Stacks 数据增长较快 RSK 支持 EVM

作者:蒋海波,PANews比特币是最安全和去中心化的区块链网络,但存在不支持智能合约、每秒只能处理大约 7 笔交易、交易确认可能高达数十分钟等性能上的限制.

1900/1/1 0:00:00
SIG:美国财政部、联邦储备局和联邦存款保险公司联合声明

今天,我们正在采取果断行动,通过增强公众对我们银行系统的信心来保护美国经济。这一步将确保美国银行系统继续履行其保护存款和为家庭和企业提供信贷支持的重要角色,以促进强劲和可持续的经济增长.

1900/1/1 0:00:00
CRY:从SVB与瑞信危机始末 解读crypto行业的加息预期以及市场演进

作者:北辰最近crypto行业被传统金融市场牵着鼻子走,流传着各种从那里流传出来的七八手谣言乃至阴谋论.

1900/1/1 0:00:00
DIA:监管机构持续施压加密银行业务路在何方?

加密银行业务一团糟,FTX 交易所的暴雷导致两家受美国监管的银行遭受破坏性挤兑。其中,Silvergate Capital Corp.不得不亏本出售资产以偿还存款人和贷款人,Silvergate.

1900/1/1 0:00:00