火星链 火星链
Ctrl+D收藏火星链
首页 > 火必下载 > 正文

MBL:科普 | 联邦学习这件小事

作者:

时间:1900/1/1 0:00:00

背?景

计算机学院的学生小A意图使用大数据及人工智能的相关技术完成自己的一个课题《大学生男生生活费消费行为的偏好分析》,然而苦于数据量不够,便寄希望于身边的朋友以及学校的广大男性同学,原本以为是一件轻而易举的事,然而…

由于个人隐私易泄露,数据交易难定价,合作者激励制度不健全,以及恶意提供无用或者虚假数据等问题,收集真实且有价值的的数据远比想象中难。

而近两年来,“联邦学习”被学术界和工业界经常提及,联邦学习究竟是什么,为何能解决以上问题,我们从它的前世今生开始慢慢揭开面纱。

▲?人工智能是什么

人工智能是人为制造出来的智能,可以让机器“智能”地完成一些通常认为只能由人来完成的简单工作。其研究目的是促使智能机器会“听”、会“看”、会“说”、会“思考”、会“学习”、会“行动”。

美国说唱歌手Megan Thee Stallion与Cash App合作发布比特币科普视频:美国说唱歌手Megan Thee Stallion与由Square开发的移动支付服务Cash App合作发布了一段名为“Bitcoin for Hotties”的视频。该视频从她的角度解释了什么是比特币,为什么比特币有价值等内容。Megan Thee Stallion在Instagram上拥有超过2410万粉丝,在 Twitter上拥有640万粉丝。(Bitcoin News)[2021/8/8 1:41:10]

自1956年人工智能的概念被提出至今,有了飞速的发展。从早期的电子游戏AI等,到现阶段的智能家居、围棋新星阿尔法狗等,到未来的无人驾驶工具以及毁天灭地的终结者都是人工智能应用的产物。

人工智能已经改变了我们的生活,从遥不可及的实验室科技转变成为我们身边随处可见的工具,甚至改变世界的重要伙伴。人工智能中的“学习”能力是人工智能发展的核心,方法也层出不穷,机器学习、深度学习、强化学习……可以统称为机器学习。发展至今,我们也逐渐发现了制约机器学习和人工智能进一步发展的瓶颈。

人大附中物理老师李永乐科普拜占庭将军问题和区块链:5月14日,人大附中物理老师、科普视频网红李永乐在其公众号发布视频《拜占庭将军问题是什么?区块链如何防范恶意节点?》。李永乐老师在视频中对拜占庭将军问题和区块链进行了讲解,他表示,拜占庭将军问题本质上指的是,在分布式计算机网络中,如果存在故障和恶意节点,是否能够保持正常节点的网络一致性问题。在近40年的时间里,人们提出了许多方案解决这一问题,称为拜占庭容错法。例如兰波特自己提出了口头协议、书面协议法,后来有人提出了实用拜占庭容错PBFT算法,在2008年,中本聪发明比特币后,人们又设想了通过区块链的方法解决这一问题。区块链通过算力证明来保持账本的一致性,也就是必须计算数学题,才能得到记账的权力,其他人对这个记账结果进行验证,如果是对的,就认可你的结果。与拜占庭问题比起来,就增加了叛徒的成本。[2020/5/14]

▲?机器学习的瓶颈

1.算法瓶颈

目前的机器学习存在着鲁棒性较差以及算法的不可解释性两大问题。

虽然人工智能领域依靠深度学习在图像识别上取得了巨大的突破,然而在加入“噪声”后将图片内容完全识别错误的“人工智障”行为依旧屡见不鲜;其次,在引入神经网络的机器学习中,“黑盒子”状态的算法虽然提升了算法的效果,但因缺乏严格的数学理论证明以及算法的解释性,从而一直为学业界的人士所诟病。

动态 | 币安科普MimbleWimble算法:币安官方推特今日发布隐私算法Mimblewimble的科普贴,在下方留言区大量网友留言猜测是否是基于 Mimblewimble算法的隐私币Grin或者Beam即将登陆币安交易所,其中猜测Grin的呼声更高。[2019/9/2]

2.数据瓶颈

2.1?数据需求量大

计算能力和计算成本是首当其冲需解决的问题,而一个好的机器学习算法背后,是大量数据多轮次的重复性计算的结果,需要大量算力成本。

2.2?数据供给稀缺

云计算、AI技术发展至今,我们发现制约AI应用落地的是没有足够的数据支撑算法的训练和验证。巧妇难为无米之炊,缺少数据的机器学习算法犹如空油的F1赛车,无法施展它最强的性能。

联邦学习的前世今生

▲?数据隐私问题

数据是机器学习的原油,伴随机器学习的兴起和大数据的浪潮,数据的收集成为业内的产业之一。因为产业的暴利和法制的不健全,用户的信息被大肆的爬取、收集、贩卖,导致很长一段时间我们的生活不堪其扰。

声音 | ETC Labs主管:科普教育是未来几年公链面临的巨大挑战:ETCLabs主管Darin Kotalik认为,科普教育是未来几年公链面临的巨大挑战,人们必须要对区块链有基本的认识,分清楚公链和私链的区别。[2019/8/25]

APP上的信息爬取,电话与身份信息泄露让我们总是能接收到各种广告推销电话。更有甚者,“裸贷”风波和Facebook用户信息泄露,让大众在信息化时代对于个人信息安全更加谨慎小心。2018年的欧洲隐私和数据保护法案GDPR的出台虽然一定程度上保障信息隐私安全并规范了数据收集方式,但无形中加剧了优质数据整合的难度,对机器学习与人工智能领域都是一次重大的挑战。

▲?联邦学习的前世

伴随着以上涉及到的问题,Google公司早在2016年提出联邦学习的概念,这一概念原本用于解决安卓手机终端用户在本地更新模型的问题,具体如下:

中科院自动化研究所将面向大中小学生开展区块链等主题的科普讲座:5月21日,新华网讯,今年,中国科学院自动化研究所将举办第十四届“自动化之光”公众科学开放日活动。届时,自动化所将面向大中小学生分别开展《脑与智能》、《区块链技术与平行智能》、《大数据时代的视觉智能》、《动画真奇妙》等4个主题报告,用实例和生动的演示深入浅出地为大家揭示智能技术的原理和奥妙。[2018/5/21]

Step1.?手机下载现有模型;

Step2.?用手机的本地数据来训练模型;

Step3.?训练好后,迭代更新,并将更新的额内容加密上传到云端;?

Step4.?与其它用户的更新进行整合,作为对共享模型的改进;

Step5.?该过程不断重复,改进后的共享模型也会不断地被下载到本地。

值得注意的是,在执行的过程中有两个特别的点:?

每个设备端在更新己方模型时都是依赖于自己数据的个性化更新;该场景中的共享模型可能不是完整的机器学习模型/神经网络模型,可能是经过压缩的模型。▲?联邦学习的今生

联邦学习的正式诞生是在2017年,Google的AI?blog中提出的一种分布式机器学习框架,目标是在保证数据隐私安全及合法合规的基础上,实现多方共同建模,并提升AI模型的效果。当完成训练后,根据联邦学习特有的激励机制,会给予所有的参与方一定的激励作为共同参与训练的奖励。随后以杨强教授为首的团队进一步推进联邦学习框架,直至我们现在所看的样子。

联邦学习的分类

▲?联邦学习的精髓

国际人工智能联合会主席杨强教授曾经举过一个联邦学习的例子:

我们每个人的大脑里都有数据,当两个人在一起做作业或者一起写书的时候,我们并没有把两个脑袋物理性合在一起,而是两个人用语言交流。所以我们写书的时候,一个人写一部分,通过语言的交流最后把合作的文章或者书写出来。

我们交流的是参数,在交流参数的过程中有没有办法保护我们大脑里的隐私呢?是有办法的,这个办法是让不同的机构互相之间传递加密后的参数,以建立共享的模型,数据可以不出本地。

故而,在本地数据不出库的情况下,通过对中间加密数据的流通与处理来完成多方对共享模型的机器学习训练,便是联邦学习的精髓所在。

▲?横向联邦学习

横向联邦学习是指,在不同数据集之间数据特征重叠较多而用户重叠较少的情况下,按照用户维度对数据集进行切分,并取出双方数据特征相同而用户不完全相同的那部分数据进行训练。

横向联邦学习的本质是样本的联合,适用于参与者间业态相同但触达客户不同,即特征重叠多、用户重叠少时的场景,比如不同地区的银行间,他们的业务相似,但用户不同。

▲?纵向联邦学习

纵向联邦学习是指,在不同数据集之间用户重叠较多而数据特征重叠较少的情况下,?按照数据特征维度对数据集进行切分,并取出双方针对相同用户而数据特征不完全相同的那部分数据进行训练。

纵向联邦学习的本质是特征的联合,适用于用户重叠多,特征重叠少的场景,比如同一地区的商超和银行,他们触达的用户都为该地区的居民,但业务不同。

▲?迁移联邦学习

联邦迁移学习是指,在多个数据集的用户与数据特征重叠都较少的情况下,不对数据进行切分,而是利用迁移学习来克服数据或标签不足的情况。

当参与者间特征和样本重叠都很少时可以考虑使用联邦迁移学习,如不同地区的银行和商场间的联合。主要适用于以深度神经网络为基模型的场景

小结

本次带大家走进“联邦学习的大门”,简要介绍了联邦学习的「前世今生」及「不同分类」,下一篇将会详细讲解「不同分类下的联邦学习」,敬请期待!

作者简介

严杨

来自数据网格实验室BitXMesh团队?PirvAIの修道者

标签:人工智能区块链MBLSTEP《人工智能》电影解析区块链域名选什么后缀好BUMBLECistep币上交易所了吗

火必下载热门资讯
区块链:普华永道:英国在采用数字货币的道路上处于欧洲领先地位

普华永道报告显示,在采用数字货币方面,英国在整个欧洲处于领先地位,在世界上排名第五。普华永道英国区块链和加密专家HaydnJones评论:“CBDC的出现是货币演变过程中的一个重要里程碑.

1900/1/1 0:00:00
比特币:GBTC持续负溢价,灰度效应真的失灵了?

以下是关于灰度比特币信托在未来几个月内将如何影响价格的最新分析.....现在是时候仔细检查所有内容是否在适当的位置,以便您可以毫不犹豫地本能地抓住它.

1900/1/1 0:00:00
PEN:Reflexer Labs 将于 4 月 15 日进行首次 FLX 代币分配

据官方消息,稳定资产RAI开发团队ReflexerLabs表示,已完成首次关于其非治理代币FLX分发的快照,并将于4月15日进行首次FLX代币分配,另外.

1900/1/1 0:00:00
数字货币:央视3·15晚会曝光黑幕,区块链能否将平台垄断的数据还给大众?

畸形的数据时代今年央视3·15晚会上接连曝光了好几个通过现代化、数字化的方式侵犯消费者权益的案例,听闻让人为之一惊.

1900/1/1 0:00:00
OLA:Solana首个IDO平台Solstarter更新路线图:将于Q3推出DAO

Solana首个IDO平台Solstarter已更新路线图,具体如下:首先,Solstarter计划于Q3推出DAO,将用于有关代币机制、潜在回购和生态系统支出的任何治理决策.

1900/1/1 0:00:00
DEFI:波士顿联储或将于三季度公布数字美元平台原型,未透露是否采用区块链技术

波士顿联储项目负责人JamesCunha表示,美国联邦储备银行和麻省理工学院的官员们一直在开发数字美元平台的原型,最快在7月,官方计划公布他们的研究成果.

1900/1/1 0:00:00