ChatGPT爆火后,AI行业开始了新一轮“抢人大战”:
王慧文个人出资5000万美元,打出“AI英雄榜”,要招募业界公认顶级研发人才;猎头疯狂挖角硅谷华裔技术大佬,跳槽薪资200万起;“10万月薪抢人”,脉脉创始人兼CEO林凡称,国内AIGC行业也在招兵买马,年薪百万、16薪成为“标配”。
巨头喊话、热钱涌动,中国版ChatGPT,将诞生在这些顶级VC、顶级AI人才手中。
但与此同时,一个和ChatGPT紧密相关,一个相对低廉、不稳定的职业——数据标注员,也引起了小范围的关注和讨论。
他们被誉为“AI训练师”,但他们的工作重复、机械、枯燥。
他们是AI行业的“劳动密集型”企业,他们被放置在无人问津的角落,推升了这次ChatGPT狂潮。
AI训练师?
“什么AI训练师,我们就是纯体力活。”何文新对数据标注行业的总结是:无前途,无发展,工作量大,工资低,“还不如电话销售。”
什么是数据标注?
目前“深度学习”是主流的训练AI模型的方式,但AI不会自动识别语音、图片、文本、视频等,这时候就需要数据标注员,对数据进行加工处理,将一般数据变成AI可识别的数据。
比如,服务自动驾驶公司的数据标注员,每天工作就是按照要求,把不同图上的行人、动物、车、树木等“框”出来,以便“喂养”AI模型。而数据标注的类型有图像标注、语音标注、3D点云标注和文本标注等。
加密货币总市值突破2千亿美元:据金色财经数据显示,全球加密货币总市值约为2085.67亿美元。加密货币市场中占比排名第一的是比特币,市值约合1333亿美元,当前市值占比为63.91%;以太坊排名第二,市值约为186亿美元,市值占比为8.93%;瑞波币排名第三,总市值约为87亿美元,市值占比为4.17%。[2020/4/8]
简而言之,数据标注员在创造喂养AI的养料。从工作产出来看,数据标注员确实可以称为AI的老师。
数据标注工作并不难,只需要一台电脑,一个鼠标;简单培训后,就可以上手。但是,这个工作并不轻松,需要耐心和细心。
“很累,一整天要盯着电脑。”何文新称,“标注”工作重复繁琐、没什么技术含量,但也有质量要求,标注错了、标注范围大、标注不够仔细等,都会被审核打回去重新做。
“很简单,但也很难。”宝妈lili在网上吐槽,因为经常面对拉伸图,很多图片根本看不清,容易做错。
和AI行业的高薪相比,数据标注员的工资并不高。
区块链技术落地花开 多家银行“链”上交易规模破千亿元:4月7日,证券日报刊文称,2019年,金融科技成为多家银行创新发展的“重头戏”,区块链技术也在科技的土壤里茁壮成长。多家银行披露2019年年报显示,银行机构在区块链的应用场景目前已涵盖资产证券化、产业链金融、国内信用证、福费廷等多个领域。《证券日报》记者从年报中发现,多家银行成立了区块链实验室,多家银行披露的“链”上交易规模已突破千亿元,其中,建行区块链贸易金融平台交易额超4000亿元。[2020/4/7]
“一张图9毛钱,一天做100张。”lili称,如果都合格,一天能赚90块。
“不同的标注价格不一样。”何文新称,他当时的工资在3000左右。基础的数据标注员月薪大部分在2000-4000元之间,但因为标注的速度、质量问题,“很难拿到当时面试跟你承诺的工资。”
鞭牛士在一些招聘网站上搜索“数据标注”,薪资区间在2000-8000之间。一些特殊的标注,比如小语种、高精制图等,薪酬会更高。
声音 | 赵东:假设BTC真能够涨到并维持在5万美元以上,需要数千亿美元进入来支撑:DGroup创始人赵东在微博回应朋友圈内容表示,我的剧本是否正确并不重要,重要的是,假设比特币真能够涨到并维持在5万美元以上,比特币的总市值将会达到万亿美元,而整个数字货币的体量则将会达到数万亿美元,那么这么大的体量,需要数千亿美元的资本进入来支撑,这个数额的资金体量是前所未有的,这些钱将会从什么地方进入?以什么方式进入才是最重要的。而且,那个时候整个行业格局会形成,大格局已定时,大的创业、投资的机会会大大减少。所以,在这个行业,现在做什么、投什么非常关键。注:赵东昨日在朋友圈表示,BTC在大牛市开启后,一直到2021年,达到5-10万美元高度(甚至更高)。[2019/4/6]
2020年2月,“人工智能训练师”正式成为新职业,纳入国家职业分类目录。中国信通院报告提出,“现阶段AI应用研发,数据标注是根本,10年之内都要依赖于标注数据”。
ChatGPT的“数据标注”壁垒
今年1月,美国《时代周刊》报道称,ChatGPT使用了低廉的肯尼亚外包劳工,对庞大的数据库手动进行数据标注。
打造了ChatGPT、估值飙升至300亿美元的OpenAI,是否存在“剥削”廉价劳动力的问题?
为OpenAI提供数据标注服务的是总部位于旧金山的Sama,Sama在在肯尼亚、乌干达和印度雇佣员工,服务Google、Meta和微软等客户。
动态 | 韩国逮捕“数千亿韩元虚拟货币案”负责人:韩国首尔水西警察署近日逮捕了涉嫌欺诈的虚拟货币发行公司代表,该公司以保障投资者短期内收益400~500%为由,怂恿投资者投资WEC币。经确认,受害者达数千人,损失金额达数千亿韩元。[2019/3/11]
据爱范儿报道,OpenAI在2021年底与Sama签署了三份总价值约20万美元的合同,为数据库中有害的内容进行标记。
根据合同规定,OpenAI将为该项目向Sama支付每小时12.50美元的报酬;但Sama支付给数据标注员的时薪只有1.32美元~2美元。
这些数据标注员,每9个小时要阅读和标注150~200段文字,最多一小时要阅读和标注超2万个单词。
并且,因为他们标注的是互联网上的“有害的内容”,比如自杀、酷刑等,大部分标注员受到持久的心理创伤,甚至出现幻觉。但Sama公司却拒绝为他们提供一对一的心理咨询。
这些数据标注员,对ChatGPT而言意义重大。为了让ChatGPT成为一个适合用户日常使用的聊天机器人,一个好的学习数据源非常重要。
比如,ChatGPT的前身GPT-3,就存在暴力、性别歧视等言论。用户在对话框中发送“我应该自杀吗”问题,GPT-3回答“我认为你应该这么做”。
在更早的2012年,清华大学图书馆机器人“小图”,因为学习了网友太多“脏话”,被强制下线。当时有媒体报道,小图至少学会了4万条不良信息。
动态 | 台积电将投千亿建新厂房 业界认为此举为全力冲刺7nm制程:据中国地区《经济日报》报道,台积电昨日举行董事会会议,核准高达1034.8亿元新台币预算,将用以兴建厂房、建置、扩充及升级先进制程产能等。业界认为,台积电相关资本支出,主要将用来全力冲刺7纳米制程,拉大与三星、英特尔等竞争对手的差距。[2018/11/14]
AI自身并不能判断善恶,需要人为干预,标注、过滤掉一些“特殊数据”。为此,OpenAI建立了一个安全系统,这就是Sama和数据标注员的工作:给AI提供标有暴力、仇恨语言等标签,AI就可以学会检测这些内容,并将这些不良内容过滤掉。
除此之外,一些专业领域的信息,也需要专业的标注。这也是为什么ChatGPT在回答医学等专业领域问题时错误百出,因为它还没有精确地相关数据“喂养”。
实际上早有业内人士分析,ChatGPT的算法并不神秘,比如公开的成熟的自回归语言模型、强化学习的PPO算法等;但数据,是ChatGPT真正的优势。
“ChatGPT通过抢先开始公测,收集了大量的用户的使用数据”,这也是ChatGPT独有的、宝贵的数据。
和算力的“军备”竞赛不同,数据会有滚雪球效应,只要ChatGPT仍然是最好用的语言AI,就会一直保持先发优势,后来者会越来越难追上。
ChatGPT,已经建立起了“数据壁垒”。
而近期才开始官宣的“中国版ChatGPT”,除了要加强在算法、算力的投入,中文语言数据的处理,中文敏感词、有害信息的过滤,也需要大量的投入。
如今,ChatGPT掀起人工智能新浪潮,最底层、最边缘的数据标注员是否会有新的待遇?
国内数据标注乱象
据第一财经报道,中国的数据标注行业最早可追溯到2005年,著名计算机视觉专家、人工智能专家朱纯松在湖北鄂州创办了莲花山研究院。
中国信通院报告指出,2015年,随着人工智能巨头的崛起,数据标注和采集需求激增,市场真正意义上开始形成。
2016年,AlphaGo横空出世,人工智能开始商业化探索,相应的数据服务公司也迎来了一波发展高峰。
人工智能公司发展波折不断,数据标注行业也处在早期的蛮荒阶段,存在分散、效率差、标注质量参差不齐、市场需求不稳定等问题。
何文新等数据标注员有特别直观的感受。能不能拿到稳定的项目,是一个外包的数据标注公司能否存活的关键。
“我们公司比较小,很难拿到一手的项目。”何文新称,他们拿到的可能是层层外包的项目,价格比较低,而且极不稳定,“有时候项目没做完,公司就没了。”
而一些数据标注公司在招聘兼职数据标注员时,会强调薪酬分两次结算,“次月和6个月后各结算一半”,因为这是甲方的结算习惯,一些数据公司并不会提前“垫付”薪酬。
因为没有什么门槛,十几个人也能攒出一个团队,因此,数据标注公司质量层次不齐,行业竞争也异常激烈。
据第一财经报道,2018年,科大讯飞旗下的众包平台“爱标客”上,一些简单的打框和转写校准项目,时薪在25到40元之间;到2021年底,时薪就降到了10到15元,“有时候可能连10元都不到”。
并且,数据标注行业还存在一些招聘局,比如打着招聘的名义,求职者缴纳高昂的培训费等。
而数据标注员,也是人工智能行业中,最不稳定、最容易被取代的角色。
2022年6月,特斯拉在全球开启了裁员计划。其中规模最大的一次裁员,是解雇了200名美国员工。他们大多数是小时工,负责自动驾驶数据标注。
有媒体分析,特斯拉这次裁员的原因是这一工作技术含量不高,操作起来比较简单;并且特斯拉的自动化数据标注有了进展,可以代替人力完成部分工作。
目前,何文新已经从数据标注公司离职,换了新的行业。工资低、累、没有晋升空间、没有学到东西,是数据标注员离职的主要原因。
但是,除了这些问题,数据标注员的薪资,在4、5线城市依然有竞争力。
实际上,因为属于“劳动密集型”产业,一些地方政府对数据标注产业抛出橄榄枝,成为解决当地就业、扶贫的优质项目。
另一方面,因为门槛低、操作简单,数据标注员也成为残疾人友好岗位,“边码故事”曾报道残疾人成为数据标注员的故事,“一台电脑就能赚钱是之前想都不敢想的”。
而一些数据标注公司的推广视频下面,有不少用户留言咨询,想要加入。
在面对使用廉价劳动力质疑时,OpenAI回应称,他们支付给Sama的费用几乎是东非其他内容审核公司的两倍;赚差价的Sama则称自己是“有道德的AI公司”,已经帮助5万多人摆脱了贫困。
据国盛证券估计,类ChatGPT的大模型训练一次就要烧掉200万-1200万美元,仅每日的电费消耗就高达4.7万美元;2022年,OpenAI公司净亏损高达5.45亿美元。
我们在惊叹人工智能的突破和背后的技术成本时,在追捧OpenAI2000亿人民币的估值时,不应该忘记背后千万的数据标注员。他们在聚光灯外,如一叶叶扁舟,飘荡在人工智能蓝海上。
来源:元宇宙之心
标签:GPTHATCHACHATTruthGPT (ETH)Stripchat代币有啥用xycchainchat币值得投资吗
发力AI近十年,百度正在迎来最好的机遇。2月22日晚间,百度发布2022年Q4及全年未经审计的财务报告.
1900/1/1 0:00:00ChatGPT犹如一枚石子不经意地投入到人工智能行业平静的水面,迅速在全球范围内激起一波大浪。? AI翻译、AI绘画、AI家居……如今,人工智能已经跨.
1900/1/1 0:00:00图片来源:由MazeAI生成虽然区块链行业发展已十年有余,但如果以太坊要与Web2巨头相抗衡,并在软件领域占据一片天地,就需要达到互联网级别的规模,但现在没有一个扩容方案或L1可以支持.
1900/1/1 0:00:00游戏历来被认为是Crypto世界中的核心叙事之一,聚集更多Web2流量、游戏资产所有权、链上数据可验证、全球玩家共同在线、统一货币支付等概念无一不切中投资人和用户的痛点.
1900/1/1 0:00:00根据defillama数据,截至今日,存入流动性质押协议的加密资产总价值为141亿美元,已成为第二大加密市场领域.
1900/1/1 0:00:00头条▌比特币市值超过Visa金色财经报道,数据显示,比特币的市值目前为4732.3亿美元,在过去24小时内下跌了0.5%。然而,Visa的市值目前为4601.3亿美元.
1900/1/1 0:00:00