来源:机器之心
纯文本大模型方兴未艾,多模态领域也开始涌现出多模态大模型工作,地表最强的GPT-4具备读图的多模态能力,但是迟迟未向公众开放体验,于是乎研究社区开始在这个方向上发力研究并开源。MiniGPT-4和LLaVA问世不久,阿里达摩院便推出mPLUG-Owl,一个基于模块化实现的多模态大模型。
今天要介绍的是mPLUG-Owl,该工作不仅通过大量cases展示出优秀的多模态能力,还第一次针对视觉相关的指令理解提出一个全?的测试集OwlEval,通过人工评测对比了已有模型,包括LLaVA、MiniGPT-4、BLIP-2以及系统类MM-REACT等工作,实验结果表明mPLUG-Owl展示出更优的多模态能力,尤其在多模态指令理解能力、多轮对话能力、知识推理能力等方?表现突出
CoinList推特账户已恢复控制:7月28日消息,据官方消息,CoinList推特账户已恢复控制,相关钓鱼推文同时被删除。CoinList表示未来将加强公司社交媒体账户的安全管理。
金色财经曾报道,CoinList推特账号于7月23日被盗,并发布了关于将推出原生代币的钓鱼推文。[2023/7/28 16:03:30]
论文链接:https://arxiv.org/abs/2304.14178
代码链接:https://github.com/X-PLUG/mPLUG-Owl
ModelScope体验地址:
https://modelscope.cn/studios/damo/mPLUG-Owl/summary
Justin Sun:相信CZ和Binance可以自证清白以渡过难关:6月6日消息,Justin Sun 就 SEC 起诉 Binance 和 CZ 一事发文表示,相信 CZ 和 Binance 可以自证清白以渡过难关。作为 CZ 的朋友,愿坚定不移支持 CZ,相信正义会得到伸张,我们将共同面对这一挑战。[2023/6/6 21:17:33]
HuggingFace体验地址:
https://huggingface.co/spaces/MAGAer13/mPLUG-Owl
多模态能力展示
我们把mPLUG-Owl与现有工作进行对比来感受一下mPLUG-Owl的多模态效果,值得一提的是,该工作中评比的测试样例基本上都来自已有工作,避免了cherrypick问题。
下图6展示了mPLUG-Owl很强的多轮对话能力。
灰度报告:即使美联储本月加息25%,加密货币价格仍可能上涨:金色财经报道,灰度最新研究报告表示,联邦公开市场委员会在4月份没有召开会议,并将于5月3日再次召开会议,以确定是否实施25个基点的加息,市场目前认为这一结果的可能性为80%。虽然加息历来不利于风险资产价格,但如果联邦公开市场委员会的决定符合市场预期,加密货币价格可能会受益。
灰度还表示,虽然未来发展对比特币价格的确切影响仍不确定,但额外加息和通胀率下降(从 2 月的 6% 降至 3 月的 5%)等因素与未来比特币的看涨情况非常吻合。
此外,第一共和国 (FRC)、硅谷银行 (SVB)、银门银行 (SI) 和签名银行 (SBNY) 的失败表明,投资者在经济不确定时期继续表现出对加密货币的兴趣。[2023/5/2 14:38:05]
从图7中可以发现,?mPLUG-Owl具有很强的推理能力。
StarkNet生态游戏Eykar在测试网发布Quests系统:7月31日消息,据官方消息,StarkNet生态游戏Eykar宣布Quests.eykar.org在测试网发布。用户可以免费铸造NFT并将其升级用于参与Alpha测试。[2022/7/31 2:48:29]
如图9展示了一些笑话解释例?。
在该工作中,除了评测对比外,该研究团队还观察到mPLUG-Owl初显一些意想不到的能力,比如多图关联、多语?、文字识别和文档理解等能力。
如图10所示,虽然在训练阶段并没有进行多图关联数据的训练,mPLUG-Owl展现出了一定的多图关联能力。
Blockware Solutions?宣布与 SEVA 建立新的合作伙伴关系:金色财经报道,?比特币矿机公司Blockware Solutions?宣布与 SEVA 建立新的合作伙伴关系。Blockware Solutions 已经启动了一项 150 兆瓦的矿场,以扩大其在 SunPark 的比特币采矿业务,Blockware Solutions 将在第一阶段的建设中投资1000 万美元。第一阶段将是一个占地 20 英亩的 60 兆瓦设施,将采用浸没式冷却采矿和托管业务。该项目预计将于 2022 年第四季度开始。[2022/5/27 3:44:38]
如图11所示,尽管mPLUG-Owl在训练阶段仅使用了英文数据,但其展现出了有趣的多语?能力。这可能是因为mPLUG-Owl中的语?模型使用了LLaMA,从而出现了这一现象。
尽管mPLUG-Owl没有在带有标注的文档数据上进行训练,但其仍然展现出了一定的文字识别和文档理解能力,测试结果如图12所示。
方法介绍
该工作提出的mPLUG-Owl,其整体架构如图2所示。
模型结构:它由视觉基础模块(开源的ViT-L)、视觉抽象模块以及预训练语?模型(LLaMA-7B)组成。视觉抽象模块将较?的、细粒度的图像特征概括为少量可学习的Token,从而实现对视觉信息的?效建模。?成的视觉Token与文本查询一起输?到语?模型中,以?成相应的回复。
模型训练:采用两阶段的训练方式
第一阶段:主要目的也是先学习视觉和语?模态间的对?。不同于先前的工作,?mPLUG-Owl提出冻住视觉基础模块会限制模型关联视觉知识和文本知识的能力。?因此mPLUG-Owl在第一阶段只冻住LLM的参数,采用LAION-400M,?COYO-700M,?CC以及MSCOCO训练视觉基础模块和视觉摘要模块。
第?阶段:延续mPLUG和mPLUG-2中不同模态混合训练对彼此有收益的发现,Owl在第?阶段的指令微调训练中也同时采用了纯文本的指令数据(52kfromAlpaca+90kfromVicuna+50kfromBaize)和多模态的指令数据(150kfromLLaVA)。作者通过详细的消融实验验证了引?纯文本指令微调在指令理解等方?带来的收益。第?阶段中视觉基础模块、视觉摘要模块和原始LLM的参数都被冻住,参考LoRA,只在LLM引?少量参数的adapter结构用于指令微调。
实验结果
SOTA对比
为了比较不同模型的多模态能力,该工作构建一个多模态指令评测集OwlEval。由于?前并没有合适的自动化指标,参考Self-Intruct对模型的回复进行人工评测,打分规则为:A="正确且令人满意";B="有一些不完美,但可以接受";C="理解了指令但是回复存在明显错误";D="完全不相关或不正确的回复"。
对比结果如下图3所示,实验证明Owl在视觉相关的指令回复任务上优于已有的OpenFlamingo、BLIP-2、LLaVA、MiniGPT-4。
多维度能力对比
多模态指令回复任务中牵扯到多种能力,例如指令理解、视觉理解、图?上文字理解以及推理等。为了细粒度地探究模型在不同能力上的?平,本文进一步定义了多模态场景中的6种主要的能力,并对OwlEval每个测试指令人工标注了相关的能力要求以及模型的回复中体现了哪些能力。
结果如下表格6所示,在该部分实验,作者既进行了Owl的消融实验,验证了训练策略和多模态指令微调数据的有效性,也和上一个实验中表现最佳的baseline—MiniGPT4进行了对比,结果显示Owl在各个能力方?都优于MiniGPT4。
比特币自诞生以来就被誉为一种革命性的技术,有可能改变我们使用新金融层进行交易的方式。最近,出现了一项新的创新,可以为比特币网络开启新的可能性,使其也可以作为文化层发挥作用.
1900/1/1 0:00:00头条Blur?即将上线以NFT作为抵押品的点对点永续借贷协议?BlendOdaily星球日报讯NFT?交易平台?Blur?官方宣布.
1900/1/1 0:00:00来源:澎湃新闻记者范佳来 图片来源:由无界AI工具生成“我们给你创造一个GPT大脑,把你直播的内容全部用数字化方式记录下来,就可以实现董宇辉的数字永生.
1900/1/1 0:00:00头条Coinbase面向非美国机构用户推出国际交易所Odaily星球日报讯Coinbase?今日宣布推出?CoinbaseInternationalExchange.
1900/1/1 0:00:00来源:易观 图片来源:由无界AI工具生成今年以来,随着人工智能技术不断实现突破迭代,生成式AI的话题多次成为热门,而人工智能内容生成的产业发展、市场反应与相应监管要求也受到了广泛关注.
1900/1/1 0:00:00随着经济发展和社会进步,市场对区块链技术和元宇宙的需求最近一直在上升。企业越来越热衷于将自己的品牌带入Web3生态,阿里巴巴云已经开始帮助其客户进行转型.
1900/1/1 0:00:00