来源:澎湃新闻
记者邵文方晓
·从2023年2月20日“国内第一个对话式大型语言模型”MOSS发布,到4月21日该模型正式开源,两个月间,多家中国企业和研究机构以加速度扎堆冲入被ChatGPT轰炸出来的AI大模型赛道。在梳理这些大模型所试图呈现的特点之后,我们该如何看待这种趋势?
·如何判断各家大模型的水平?“通常需要使用测试数据集来评估大模型性能,也可以根据模型中的参数数量来判断模型的复杂度。模型的响应时间也是一个重要的衡量因素,最主要的还是在线上环境实际应用时,通过监测模型在生产环境中的表现来判断其水平。”
图片来源:由无界AI工具生成
ChatGPT的发布就像打开了“潘多拉的盒子”,在中国引发了一场你追我赶的“狂飙”。
2023年2月20日深夜,MOSS的官网因服务器流量过载瘫痪,这是中国人对ChatGPT类产品兴趣暴增的最初征兆之一。
此MOSS不是《流浪地球》系列电影里的机器人,而是复旦大学邱锡鹏教授团队发布的“国内第一个对话式大型语言模型”。两个月后的4月21日,MOSS正式开源,成为国内首个插件增强的开源对话语言模型。
这两个月,注定会成为中国科技与商业界被铭记的两个月。一切都按下了快进键,时间仿佛被压缩,中国企业和研究机构以加速度扎堆冲入这个被ChatGPT轰炸出来的新赛道。
据澎湃科技不完全统计,目前国内已发布的所谓AI大模型已超过20个,除了百度、阿里等大厂,创新工场董事长李开复、百川智能CEO王小川、出门问问CEO李志飞等纷纷宣示入局。各类大模型名字五花八门,有竭力体现中国文化深厚内涵的,也有从国际知名数学家的理论中引经据典的。
回顾这狂飙突进的两个月,澎湃科技梳理了一些主要国产大模型所试图呈现的特点。除此之外,两个至关重要的问题也被提出:我们该如何判断这些大模型?喧嚣之下应该有怎样的冷静思考?
从MOSS开始:为什么要坚持做开源?
“我们的计算资源不足以支持如此大的访问量,并且作为学术团队我们也没有相关的工程经验,给大家造成非常不好的体验和第一印象,在此向大家致以真诚的歉意。”2月21日,在MOSS官网被“挤瘫”后,其开发团队发布声明诚恳致歉,并表示,“中国版ChatGPT的诞生还需要中国全体AI从业者的努力,也更需要不断和人交互以提高能力。”
这种谦虚、低调、怀着“继续学习”态度的回应,成为此后多个国产大模型设定叙事基调的先例。
根据邱锡鹏团队的介绍,MOSS可执行对话生成、编程、事实问答等一系列任务,打通了让生成式语言模型理解人类意图并具有对话能力的全部技术路径。
Aave:Yearn Finance被盗事件对Aave v2、v3没有影响:4月13日消息,Aave 在其社交平台表示,Yearn Finance 被盗事件对 Aave v2、v3 没有影响。而对于 Aave v1 的影响正在确认,该协议的最原始版本已被冻结。Aave 正在密切监视情况,以确保没有进一步的问题。
此前有社区反馈,此次 Yearn Finance 被盗事件是黑客通过 Aave v1 发起闪电贷攻击引发,派盾表示该事件的根本原因或是 yUSDT 的相关设置错误被黑客攻击。[2023/4/13 14:01:30]
这款模型引发关注的一个点是,它的英文回答水平比中文高,开发团队解释称,“因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
粤港澳大湾区数字经济研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技表示,“相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS的横空出世,令复旦大学邱锡鹏团队一举成名。在多个公开场合,邱锡鹏对大型语言模型的研究与发展做出了详细阐释。
4月1日,邱锡鹏在一个论坛上介绍,整体而言,MOSS基于公开的中英文数据训练,目前已经拥有200亿参数,具有和人类对话的能力,并可以通过与人类交互实现迭代优化。与此同时,他也坦承,尽管对语言的理解能力和ChatGPT已经非常相近,但是目前MOSS的整体完成度并不高,主要原因在于MOSS在部署和训练上投入的资本还非常有限,相较于千亿级的ChatGPT,大概只是其规模的十分之一,所以MOSS还有很多事实类知识记不住,思维链能力也相对较差。目前团队也在积极尝试引入一些外部工具,来进一步扩大模型参数规模,不断改进与优化。
在上述论坛的圆桌讨论中,邱锡鹏谈到了为什么MOSS要开源。“MOSS还是想以开源的形式去做,为什么美国卡我们脖子,一卡一个准,就是我们的生态没有建好。OpenAI做ChatGPT的时候,它不需要分心做其他东西,只是把模型做好。微软帮它做算力,还有一家开源公司帮它做部署,也有专门的公司来进行数据清洗。它是在整个生态中去做的,生态促使它发展非常快。”他说,“而我们国内每家公司都要做,这就会产生一个问题,每家都做不大,每个都做自己的,所有的东西都自己来,又不愿意跟别人分享。每家数据、算力有限,也没有多少钱可以支持研发,又在做一些很基础、重复性的事情。”
邱锡鹏表示,有了MOSS后就不用做底层的重复性工作,把整个生态建起来。“如果我们有一个统一的语言、统一的基座,下面对接一下国产的算力,做好一份接口,大家就都可以来用,能够去促进生态链的建设,使得整个中国的AI往前进一步发展。”
4月21日,新版MOSS模型正式上线,不仅更加成熟,而且还增加了“搜索引擎、计算器、解方程、文生图”等插件功能,既可在线体验,也支持本地部署。“GPT-4也能接入各种插件,这种能力在大模型落地应用过程中会很有价值。”邱锡鹏说。同时,MOSS大模型相关代码、数据、模型参数已在Github和HuggingFace等平台开放。
文心一言:最受瞩目,备受争议
3月16日,北京,身着白色衬衫和小白鞋的百度CEO李彦宏亲自上台,发布了备受关注的大语言模型“文心一言”。百度由此成为国内第一家发布类ChatGPT大模型的企业。
数据:比特币30天平均已实现波动率逾60%,一年来首度超以太坊:金色财经报道,Kaiko 数据显示,比特币的 30 天平均已实现波动率超过 60%,一年来首次超过以太坊,此前 2022 年 2 月之后以太坊的 30 天平均已实现波动率就一直高于比特币。[2023/3/21 13:17:42]
李彦宏从文学创作、商业文案创作、数理推算、中文理解和多模态生成五个方面展示了“文心一言”的能力。展示方式并非现场直播演示,而是播放了提前录制的视频。发布会进行到一半,百度的股价跌幅一度扩大至近10%。
“文心一言”的发布,可以说是关注度最高,争议声也最大。因此,李彦宏在发布会一开始就降低预期,坦率承认,“文心一言”在测试时还是有许多不完美之处,但因为市场需求,大家都希望早一点用上最新最先进的大语言模型,所以选择在此时推出。
根据百度的介绍,“文心一言”的参数规模为2600亿。在发布会现场,当澎湃科技询问李彦宏如何解决类ChatGPT产品都会出现的“一本正经胡说八道”问题时,李彦宏表示,“百度在这个方面确实有优势,我们做了知识增强和检索增强。”
百度一直强调,它是全球为数不多在芯片层、框架层、模型层和应用层四层进行全栈布局的人工智能公司。“从高端芯片昆仑芯,到飞桨深度学习框架,再到文心预训练大模型,到搜索、智能云、自动驾驶、小度等应用,各个层面都有领先业界的自研技术。”李彦宏说。
科技自媒体“AI科技评论”分析称,百度有近水楼台的智能云、充裕且体系健全的算力、运行平稳的深度学习框架、一群具有多年AI开发经验的人才,最重要的,还有一个日活数十亿搜索引擎来提供中文的本地化数据——某种程度上,距离大模型的完成形态,具备了大多数的硬条件。
发布会后,一些抢先测试“文心一言”的用户陆续晒出了测试截图,其文生图功能的质量尤其引发热议,不乏激烈的争论。而李彦宏的回应是:“外界反馈跟我预期差不多。”“你去看ChatGPT,在刚推出的时候,外界反馈比‘文心一言’还要糟糕。”
“整体而言,这类大语言模型还远未到发展完善的阶段,它们有时候会有很惊艳的表现,但不少场景下,细究起来还有明显的bug,进步空间很大。未来这段时间它一定会飞速发展,日新月异。”在发布会上,李彦宏也提前打了预防针。
科技行业媒体人何帅认为,“如果说和ChatGPT的差距,‘文心一言’只差训练量。ChatGPT跑了好几年,‘文心一言’不可能一下子赶上。百度之前做了很多‘半途而废’的事,外卖、地图、电商、元宇宙,都追逐过风口,又没追上,多多少少浪费了技术底蕴。但现在做回‘文心一言’,我还是有信心的。百度有技术能力和知识图谱,如果百度做不好,国内可能真的没有哪家企业能做好了。”
“可控大模型生态链”与“消费级显卡本地部署”
在“文心一言”正式发布的同月,还有两个相对不太引人关注的大模型被推出。3月14日,澜舟科技创始人兼CEO周明在北京创新工场总部举办的“AI1.0到AI2.0的新机遇”趋势分享会上宣布,澜舟科技推出孟子对话大模型。
根据该公司的介绍,周明从微软亚洲研究院辞职后创办澜舟科技,开始孵化孟子通用预训练模型。MChat具有类ChatGPT的能力,同时具备原有的孟子多项目功能引擎。“两者结合使得其具有ChatGPT的对话能力,又同时具备工业级尤其ToB服务器所需要的翻译、生成、信息搜索等方面的能力。”
比特币矿企Marathon Digital二季度亏损1.92美元:8月9日消息,比特币矿企Marathon Digital在第二季度亏损1.92美元,高于2021年第二季度的1.09亿美元净亏损,此外其在第二季度开采了707枚比特币,比上一季度减少了44%,同时持有的比特币储备本季度还减值1.276亿美元。
金色财经此前消息,本月初Marathon Digital完成1亿美元信贷额度再融资,Silvergate Bank参与。[2022/8/9 12:11:33]
澜舟科技提出以MChat构筑一个相对完善的可控大模型生态链。这个“可控”特色,是指其能力相较于其他同类技术更为灵活,面向垂直领域、专业赛道落地会更加聚焦,可以根据行业、地域等需求做出快速调整。更具体而言,MChat大模型底层是个“通用底座”,提供了涵盖语言预训练模型、多模态预训练模型、垂直领域预训练模型和其他预训练模型等能力。在通用底座之上,架构“能力平台”提供知识图谱、辅助写作、机器翻译、情感分析、智能检索、智能客服、文档解析等多领域的模块化能力。
在这个分享会上,同为微软亚洲研究院出身的创新工场董事长兼首席执行官李开复提出了一个观点:在深度学习的重大突破之后,AI已经处于从1.0迈入2.0的拐点。AI2.0将会带来平台式的变革,改写用户的入口和界面,诞生全新平台,催生新一代AI2.0应用的研发和商业化。
六天后,李开复在其微信朋友圈宣布:正在亲自筹组全球化AI新公司ProjectAI2.0,目标“不仅仅要做中文版ChatGPT”,目前资金、算力陆续到位,希望在全球范围内“招贤纳士”。当被问及具体计划时,创新工场方面回复澎湃科技:刚开始筹办,有进一步对外规划时再回复。
同样在3月14日,清华大学的自然语言处理研究团队、知识工程和数据挖掘小组开源了60亿参数的ChatGLM-6B模型,并开始内测对话机器人ChatGLM。
该团队在官方博客中介绍,ChatGLM是一个初具问答和对话功能的千亿中英语言模型,并针对中文进行了优化。而中英双语对话GLM模型ChatGLM-6B则结合了模型量化技术,用户可以在消费级的显卡上进行本地部署。“62亿参数的ChatGLM-6B虽然规模不及千亿模型,但大大降低了用户部署的门槛,并且已经能生成相当符合人类偏好的回答。”
能够在消费级显卡上进行本地部署,吸引了大量爱好者动手尝试,ChatGLM-6B在知乎等社交媒体的讨论圈里引发了热烈讨论和一些正面反馈。
视觉技术起家,商汤强调“多模态”和B端
到了4月,加速又进了一步。
4月10日,商汤科技召开新闻发布会,发布“日日新SenseNova”大模型体系。该体系含中文语言大模型应用平台“商量SenseChat”、图片生成模型“秒画SenseMirage”、AI数字人视频生成平台“如影SenseAvatar”、3D内容生成平台“琼宇SenseSpace”和“格物SenseThings”等。一系列名字令人眼花缭乱,而“日日新”则取自《礼记·大学》,汤之盘铭:苟日新,日日新,又日新。
商汤介绍称,作为千亿级参数的自然语言处理模型,“商量”能够提供以下功能:编程助手,帮助开发者编写和调试代码;健康咨询助手,为用户提供个性化的医疗建议;PDF文件阅读助手,能轻松从复杂文档中提取和概括信息等能力。商汤科技联合创始人王晓表示,“商量”未来主要面向B端。
Moonbeam:未发现安全问题,已结束网络维护并恢复全部功能:8月2日消息,波卡生态智能合约平台Moonbeam Network发推表示,调查发现没有证据表明最近的安全事件与Moonbeam代码库有关,所以网络维护模式已结束,并已恢复全部功能,现在网络照常运行。
此前消息,Nomad遭遇黑客攻击,其代币桥内的1.9亿美元资金几乎全部耗尽。Moonbeam随后发推表示网络进入维护模式,以调查所部署的智能合约的安全事件。[2022/8/2 2:53:00]
在发布会现场,基于超10亿参数的图像模型“秒画”生成的港风照片获得了较为热烈的反应。值得注意的是,商汤以机器视觉技术起家,算力储备较为充裕。2019年,商汤于上海临港建设人工智能计算中心,到目前共有5000P算力,大装置拥有2.7万块GPU芯片卡,可以实现自供算力训练大模型。
不过,商汤在发布会上展示的PPT里,“秒画”精选模型中有两张图片和AI画图模型社区Civitai中的图片非常相似,遭到网友质疑。在大模型展示后首个交易日,商汤股价跳水至跌幅5%,最终当日收跌。随后,商汤回应质疑称:“秒画”包含商汤自研大模型,也提供第三方社区开源模型,支持导入多个平台的开源模型或上传用户本地模型。
实际上,作为“AI四小龙”的商汤早已被期待在生成式人工智能赛道打出一记重拳。商汤科技董事长兼CEO徐立在发布会前接受澎湃科技专访时表示,国内科技企业抢滩大模型开发,目前仍处于追赶阶段。“走好自己的路,就是要有一些差异化。所谓的差异化就是用好行业自身的禀赋。”他说,在这个时间点推出大模型体系,是希望吸引更多下游用户。自然语言模型能够把各种垂直类的任务串联起来,用多模态混合的模式迭代行业场景。“我们希望我们的大模型体系能够帮助行业生产出下一代最领先的多模态模型,并且升级性能。”他说。
“未来的模型趋势是一个行业里面可能1-2个大模型,剩下的小模型、行业模型非常多。实际上自然语言模型也好,多模态模型也好,未来都是这个趋势。”徐立表示。
“所有产品都值得用大模型重做一次”
商汤科技在上海举行发布会一天后,2023阿里云峰会4月11日在北京举行。这又是一个“一把手”站台的发布会。
阿里巴巴集团董事会主席兼CEO、阿里云智能集团CEO张勇在会上表示,阿里巴巴所有产品未来将接入“通义千问”大模型,进行全面改造,包括天猫、钉钉、高德地图、淘宝、优酷、盒马等。此外,在阿里云构建的大模型基础设施平台上,将不仅有阿里的通义大模型,还能够接入各种高校、科研院所、企业机构的大模型,为更多专属模型的训练和服务提供保障。
据张勇介绍,钉钉、天猫精灵等产品在接入“通义千问”测试后,变得聪明了很多。钉钉可以自动生成工作方案,也可以在会议纪要后自动生成总结和待办事项。
张勇在这场发布会所说的一句话此后被频繁引用:面向AI时代,所有产品都值得用大模型重做一次。
在接受澎湃科技等媒体的采访时,阿里云智能CTO周靖人说,每个企业都可以有自己的智能客服、智能导购、智能语音助手、文案助手、AI设计师、自动驾驶模型等。
提到市面上的其他产品,周靖人表示,人工智能研究机构OpenAI的GPT大模型在各个方面都处在领先地位,因此“通义千问”需要取长补短,不断弥补自己的不足。他也提到,期望下个阶段“通义千问”也能贡献自己的技术创新。
韩国央行携手10家商业银行开展数字货币第三阶段测试:7月19日消息,近日,韩国银行宣布,将携手包括新韩银行、韩国农协银行在内的至少10家商业银行进行零售央行数字货币(CBDC)的第三阶段测试,了解并确认CBDC与金融机构IT系统间的互操作性。今年晚些时候,韩国银行将就根据测试结果发布一份有关数字韩元的调查报告。(未央网)[2022/7/19 2:22:19]
“通义千问”中的“通义”是阿里巴巴达摩院在2022年9月发布的大模型系列的名字。2021年,阿里巴巴达摩院宣布,多模态大模型M6使用的参数规模从万亿跃迁至10万亿,成为当时全球最大的AI预训练模型。同年,阿里达摩院发布了270亿参数、1TB+训练数据的中文预训练语言模型PLUG。
张勇在发布会上强调,大模型是一场“AI+云计算”的全方位竞争,超万亿参数的大模型研发,并不仅仅是算法问题,而是囊括了底层庞大算力、网络、大数据、机器学习等诸多领域的复杂系统性工程,需要有超大规模AI基础设施的支撑。
2022年8月,阿里云推出全栈智能计算解决方案“飞天智算平台”,为“通义千问”打下了一定基础。2022年,阿里云占中国云市场份额的36%,排名第一。
排名第二的是华为云。4月8日,华为云人工智能领域首席科学家田奇在人工智能大模型技术高峰论坛中分享了华为云盘古大模型的进展和应用,认为“AIforIndustry”将是人工智能新的爆发点。
在此之前,华为云官网上线了盘古系列AI大模型的最新消息,一时拉高了人们对华为的期待值,但田奇的分享只是“将老的内容重新拿出来简单介绍”。对于自然语言大模型,他仅用一句话带过其应用进展,表示盘古自然语言处理大模型目前覆盖智能文档检索、智能ERP、小语种大模型等落地领域,2022年华为刚交付了一个阿拉伯语的千亿参数大模型。
实际上,华为云从未明确表示4月将发布新的大模型,也从未透露过有关盘古大模型的产品计划。
而在4月13日,知乎创始人、董事长兼CEO周源正式发布“知海图AI”中文大模型,邀请AI加入知乎“讨论场”。根据知乎自己的介绍,知乎和面壁智能合作开发的“知海图AI”已经运用进了知乎热榜,知乎首个大模型功能“热榜摘要”上线并开启内测,“利用超强的语言理解能力对知乎热榜上的问题回答进行抓取、整理和聚合,并把回答梗概展现给用户,给大家直观清晰的回答。”
天气预报大模型与自动驾驶大模型
在大厂消息异常喧闹之下,一些垂直领域的大模型也在相对低调地发布着。
4月7日,上海人工智能实验室协同中国科学技术大学、上海交通大学、南京信息工程大学、中国科学院大气物理研究所及上海中心气象台发布了全球中期天气预报大模型“风乌”。
据介绍,该模型基于多模态和多任务深度学习方法构建,首次实现在高分辨率上对核心大气变量进行超过10天的有效预报,并在80%的评估指标上超越DeepMind发布的模型GraphCast。此外,“风乌”仅需30秒即可生成未来10天全球高精度预报结果,在效率上大幅优于传统模型。
上海人工智能实验室科学家白磊介绍,“风乌”的领先性体现在预报精度、预报时效和资源效率三方面:在预报精度方面,相比于传统的物理模型,“风乌”误差降低19.4%;在预报时效方面,“风乌”基于再分析数据达到10.75天;在资源效率方面,现有物理模型往往运行在超级计算机上,而“风乌”AI大模型仅需单GPU便可运行,30秒即可生成未来10天全球高精度预报结果。
4月12日,致力于自动驾驶的人工智能技术公司毫末智行发布自动驾驶生成式大模型DriveGPT“雪湖·海若”。该公司称,其目标是实现端到端自动驾驶,现阶段主要用于解决自动驾驶的认知决策问题,后续会将毫末智行多个大模型的能力整合到自动驾驶生成式大模型DriveGPT。
自动驾驶生成式大模型是指,将输入的自然语言文本串换成智能驾驶感知到的过去场景,输出则变为包括自车决策规控、障碍物预测以及决策逻辑链等条件在内的未来场景。
根据毫末智行的介绍,“雪湖·海若”的参数规模达到了1200亿,初始化模型共使用了4000万量产车驾驶数据训练。它能够对各种场景做生成式任务,但这些生成结果还需要按照人类偏好去调优,在安全、高效、舒适等维度上做出取舍。
毫末智行科技有限公司成立于2019年,总部位于北京,企业注册资本约1.4亿元人民币,2022年完成A+轮融资,交易金额数亿人民币。投资者包括美团和高瓴。
ChatGPT火热以来,自动驾驶大模型已成为业内探讨的焦点话题。在今年2月的2023全球人工智能开发者先锋大会上,云骥智行联合创始人兼执行副总裁曹光植表示,自动驾驶终局之战已开始,它应该是端到端的自动驾驶大模型架构,非常类似于GPT大模型,“我们相信终究会出现一个针对自动驾驶的大模型。”但是,“雪湖·海若”是否能成为这个赛道的有力竞争者,还有待观察。
“天工3.5”与“序列猴子”
进入4月中旬,更多国产大模型的消息陆续传来。
4月17日,由昆仑万维和奇点智源合作自研的的大语言模型“天工3.5”开启内测。昆仑万维称,“天工”大模型已经非常接近ChatGPT的智能水平,因为ChatGPT是基于GPT3.5大模型,所以将大模型命名为“天工3.5”。对于“天工”大模型的表现,昆仑万维CEO方汉称,“比较符合研发预期。满意的是文本生成和文案撰写很惊喜,实用性会很好。”
不过,深交所在4月11日盘后向昆仑万维科技股份有限公司下发关注函,要求其说明“天工3.5”可能面临的风险,包括但不限于商业化、运行、技术、行业等方面,并再次提醒不得利用市场热点题材进行“蹭热点”等违法违规行为。
昆仑万维科技股份有限公司成立于2008年,企业注册资本约1.18亿元人民币,最初以网游题材上市,上市之后在海外进行了多元化发展,业务包括浏览器、社交、娱乐、新闻等板块。根据其介绍,2020年昆仑万维研发团队从一亿级模型做起,上升至十亿级模型,再到百亿级模型。项目累计投入数亿人民币,组织数百人研发团队。
北京奇点智源科技有限公司成立于2021年,企业注册资本1000万元人民币。根据其官网介绍,该公司致力于实现通用人工智能,目前聚焦于大规模预训练语言模型及开发者API的研发工作。
4月20日,人工智能公司出门问问发布多模态大语言模型“序列猴子”,称其参数量在几百亿规模,具备“知识、对话、数学、逻辑、推理、规划”能力,支持文字生成、图片生成、3D内容生成、语音生成和语音识别等任务。基于“序列猴子”,该公司还发布了多项AIGC产品,包括AI写作平台“奇妙文”、AI绘画平台“言之画”、AI配音平台“魔音工坊”、数字人视频与直播平台“奇妙元”。
出门问问CEO李志飞对比了“序列猴子”和GPT-4:“如果说GPT-4是100分,我们的模型是50分。”目前“序列猴子”还需解决三大问题:结合个性化数据回答问题、降低胡说八道的概率和增强上下文的记忆能力。
李志飞曾在谷歌AI团队就职,2012年回国创办出门问问,从事智能语音技术业务。公司诞生之初备受资本追捧,但在近十年的发展历程中,最初的光环逐渐黯淡。今年2月,前美团联合创始人王慧文发布著名的“出资5000万美元打造中国版OpenAI”的“英雄帖”时,李志飞就坐在他的对面。
与其他喜欢表现汉语言文化底蕴的大模型名称不同,“序列猴子”的命名灵感来源于数学家埃米尔·波雷尔在20世纪初提出的“无限猴子”定理。根据该定理,如果一群猴子随机地敲打一台打字机,最终一定会产生完整的莎士比亚作品。
何以判断?
老虎证券股票分析师BoPei近日在接受香港媒体采访时表示,围绕ChatGPT大张旗鼓的动作表明了市场是多么渴望新的投资叙事,“经过这么多年的发展,西方和中国互联网行业都已饱和,渴望一个新的方向。”
但是,当国产AI大模型的推出速度以周为计甚至以天为计时,我们该如何判断各家大模型的水平?除了像一名普通用户一样在互联网上同题提问对比回答质量,还有没有更专业的测试和评价方式?
显然,需要更专业的评估与测试。上海人工智能研究院研究员王锦对澎湃科技解释称,通常需要使用测试数据集来评估大模型性能,也可以根据模型中的参数数量来判断模型的复杂度。模型的响应时间也是一个重要的衡量因素,最主要的还是在线上环境实际应用时,通过监测模型在生产环境中的表现来判断其水平。
那么,目前国内开发大模型的思路是否都是在努力复现ChatGPT的成功路径?
王锦解释道,“ChatGPT的成功对全球AI领域产生了巨大影响,肯定会有许多公司和研究机构参考GPT系列模型,但以ChatGPT和GPT-4为代表的生成式人工智能模型结构和训练方法都是不公开的,并没有办法按照技术路线进行复现。大模型的基础架构是共同的,但除了主体架构外的训练方法和网络架构方面的技术创新与融合都需要创新和探索。”
同时,在实现ChatGPT的表现效果方面,仍有一些技术需要探索。比如建立高质量的数据集,对千亿级标记的编码技术,卡训练和推理的分布式计算设计,生成对话交流的能力,以及伦理安全方面的考虑和设计等。“此外,中文语料的训练难度较大,因为中文数据的质量较差、数量较少,中文语言训练的难度较高,目前的ChatGPT中文表现也不佳,这些都需要继续研究探索。”王锦说。
对于国内外AI公司的技术差距,清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈向澎湃科技坦言,“就底层技术而言,中国有很多团队和公司都有,但在最终体现的系统能力上,我们存在着一定的差距。”这里面有企业家精神、资本环境、人才、技术理念等多方面的因素,非常复杂。比如大模型研究,是做一个项目,还是实现通用人工智能的最终理想?比如资本,是为了短期逐利,还是能够坚持长期投入?
中国哪个机构最有机会做出类ChatGPT产品?粤港澳大湾区数字经济研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技表示,从技术实力、数据和计算资源来看,国内百度等大型企业具备开发类ChatGPT的实力。但是在新兴领域,尤其是人工智能领域,没有历史包袱的初创公司也有很大机会。在大量投资及核心算法人员支持之下,这些公司通常拥有更加灵活的战略规划。总的来说,最有机会的一定是能够坚定不移地执行其战略规划,并拥有足够的技术实力和创新能力的团队。
黄民烈则表示,国内科技公司的难点不在于什么时候推出中国版ChatGPT,而是在这股AI浪潮中能否有深入的远见和创新性的想法,才能迎面赶上甚至超越。
中国针对大模型最有发言权的人之一、奇绩创坛创始人兼CEO陆奇则在4月22日的一次演讲中指出,中国创业者应认清这次历史性的拐点时刻,定位今天的时代坐标、找准自己的位置。“我个人最反对蹭热,你要做大模型,想好到底做什么,大模型真正是怎么回事,跟你的创业方向在哪个或哪几个维度有本质关系。”他还打了一个比方:“这个时代跟淘金时代很像,如果你那个时候去加州淘金,一大堆人会死掉。但是卖勺子、卖铲子的人永远可以赚钱。”
目前看来,这些国产大模型都还处于非常早期的发展阶段,无论是面向C端还是B端,基本都在内测。与此同时,国家互联网信息办公室4月11日发布《生成式人工智能服务管理办法》,生成式人工智能的监管法规已处于出台在即的状态。
还有一些大模型产品仍在被期待中。4月21日,科大讯飞总裁吴晓如表示,科大讯飞将在5月6日正式对外发布科大讯飞“星火”大模型。4月9日,京东集团副总裁何晓冬在人工智能大模型技术高峰论坛上表示,京东计划在今年发布新一代产业大模型“言犀”。腾讯则表示,将在5月发布“混元”AI大模型,首测将有超过12亿的微信用户同时访问。
过去两个月可能只是一个开始,但已经给了我们什么样的启示?
来源:中华工商时报近日,浙江省发改委等5部门联合印发《浙江省元宇宙产业发展2023年工作要点》,定下加快“元平台”布局建设、强化“元技术”前沿攻关等16项重点任务.
1900/1/1 0:00:00今天来聊一聊以太坊升级的事情,但我们想换个角度,不谈上海升级的影响、不谈Layer2的创新、不谈Rollup的技术革命.
1900/1/1 0:00:002023年4月,香港交易所官方发布了一份名为《ETF与全球金融市场虚拟资产生态圈的发展》的研究报告.
1900/1/1 0:00:00王融?腾讯研究院首席数据法律专家本期观点摘要:1.ChatGPT等AI应用服务商直接面向个人提供服务,收集并处理个人信息,可被视为个人信息保护合规主体——数据控制者.
1900/1/1 0:00:00出品:欧科云链研究院作者:JasonJiang自从2022年底有关虚拟资产在港发展的政策宣言发布后,香港始终是Web3世界的焦点.
1900/1/1 0:00:00从2022年3月开始,美联储将连续加息,一口气将联邦利率提升到4.75%?~?5%?,可以说是有史以来速度最快幅度最大的加息周期.
1900/1/1 0:00:00