HDF:董老师开讲了：系列一之大数据入门

作者：

时间：1900/1/1 0:00:00

?独立、敏捷的中美科技观察，硅发布微信号Guifabucom

作者董飞

在硅谷，大家非常热情地谈创业谈机会，我也通过自己观察和积累，看到不少最近几年涌现的热门创业公司。我先给大家一个列表，这是华尔街网站全世界创业公司融资规模的一个评选，它本来标题是“十亿美金俱乐部”，可以看出不到一年时间，截至今年1月17日，排名和规模已经发生很大变化。

首先，估值在十亿美金的公司达到7家，而一年前都没有；第二，第一名是中国的小米；第三，前20名中，绝大多数比如Uber、Airbnb、Dropbox、Pinterest；第四，里面也有不少相似模式成功的，比如Flipkart就是印度市场的淘宝，Uber与Airbnb都是共享经济的范畴。

所以，大家还是可以在移动、大数据、消费级互联网、通讯、支付及O2OApp里寻找大机会。这里面，很多公司我都曾面试和感受过他们环境，下面有机会我也会给大家一一详细介绍。

第二，在Linkedin，每年会评选一个最有需求的创业公司名单，基本是结合Linkedin用户访问量和申请数做出的挖掘。下面，我列出最近3年数据，大家可以做个判别和趋势分析。

里面还是很靠谱的，比如不少上榜名单已成功IPO，里面有很多大数据领域公司，而除了之前看到的一些互联网项目，在一些医疗健康、智能硬件、在线教育也吸引很大注意力。

第三，看了那么多高估值公司，很多人都觉得非常疯狂，是不是很大泡沫了，泡沫是不是要破了，这是很多人的疑问。在硅谷这个充满梦想的地方，投资人鼓励创业者大胆去发展同样也助长泡沫，很多项目在几个月时间估值就会翻2、3倍，例如在Uber、Snapchat上，我也惊讶他们的巨额融资规模和颠覆速度。

下面这张图，就是讲新事物的发展规律，这是硅谷孵化器YCombinator公开课Howtostartastartup提到的。一个新Idea加上一点点原型，就会迅速吸引眼球，然后先驱者引发潮流，在大众爆发把泡沫吹到极致，接下来就是各种负面质疑，名声一落千丈，而这时离Peak也许才过去几个月。

但这东西本质没有变，从“看山不是山”到“看山还是山”，这段重心回归到产品上重新积累用户，然后就到了可持续增长的健康轨道上。从Quora网站流量、Tesla股票到比特币，你都发现它们惊人的匹配这张图的某个节点。背后不变的是人性，举例在牛市，大家都很容易挣钱，但只有熬过最痛苦的时代，才能体会事物发展本质和踏实的意义。

第四，未来趋势是什么？大家都很关心。我先提最近看的一部电影《ImitationGame》，它讲的是计算机逻辑奠基者艾伦图灵艰难的一生，当年为破译德军密码制作了图灵机为二战胜利作出卓越贡献，挽回几千万人的生命，可在那个时代因为同性恋被判化学阉割，自杀结束了短暂的42岁生命。

《时代》杂志首次发布TIME100 AI：中科院院士曾毅、马斯克和Sam Altman等入选:金色财经报道，《时代周刊》今天揭晓了首届世界人工智能最具影响力人物榜单“TIME100 AI”，其中介绍了当今人工智能领域 100 名最具影响力的人物，主要包括中科院院士曾毅、OpenAI创始人Sam Altman 、Google DeepMind创始人Demis Hassabis、a16z联创Marc Andreessen、创新工场首席执行官李开复等，埃隆·马斯克也以人工智能公司xAI创始人身份入选。[2023/9/7 13:25:16]

他的一个伟大贡献就是在人工智能的开拓，他提出图灵测试，测试某机器是否能表现出与人等价或无法区分的智能。我们现在回到今天，人工智能已有很大进步，从专家系统到基于统计的学习，从支持向量机到神经网络深度学习，每一步都带领机器智能走向下一个阶梯。

谷歌资深科学家吴军博士提出当前技术发展的三个趋势：第一，云计算和和移动互联网，这是正在进行时；第二，机器智能，现在开始发生，但对社会的影响很多人还没意识到；第三，大数据和机器智能结合，这是未来时，一定会发生，有公司在做，但还没太形成规模。

他认为未来机器会控制98%的人，而现在我们就要做个选择，怎么成为剩下的2％？李开复在2015年新年展望也提出未来五年物联网带来庞大创业机会。

大数据入门

接下来，我讲一讲大数据入门。先来做个思考，以前有个国王很阔绰也很爱排场，有天，他很高兴想奖赏他的宠臣，然后说，让他来提任何奖励。

这个大臣给国王看下面这个棋盘，是个8＊8的方格，如果我在每个标号的格子内放米粒，第一个格子放1粒米，后面格子总是前面格子的两倍。那么问题来了，如果我把整个棋盘放满，需要多少米粒？

我们学过级数的话，可以快速做个演算，它的推演是1+2+4…+2^63＝2^64–1。这个数字多大很多人没印象，反正如果真要兑现的话，这个国家肯定是破产了。

其实我把这个棋盘分成上下两半，在上一半总共需要的米粒是2^32，这并不是个很大的数，其实前几年计算机的32位就是那么大，但下半场就完全不一样了，这是个平方级别的规模，我下面会给大家一个交代。现在大家也经常听到什么手机64位处理器，并无实际意义。

我们接着看看这张曲线图是信息时代的增长，其实工业革命前，世界人均GDP在1800年前的两三千年里基本没变化，而从1820年到2001年180年里，世界人均GDP从原来667美元增长到6049美元。

由此足见，工业革命带来的收入增长的确翻天覆地。这里面发生了什么？大家可以思考一下。但人类的进步，并没停止或者说稳步增长，在发明了电力、电脑、互联网、移动互联网，全球年GDP增长从万分之5到2％，信息也是在急剧增长。根据计算，最近两年信息量是之前30年总和，最近10年是远超人类所有之前累计信息量之和。

国际清算银行：对加密行业进行监管比实施全面禁令更加可取:8月22日消息，根据国际清算银行（BIS）发布的研究报告，到目前为止，加密资产并没有减少而是放大了欠发达经济体的金融风险。该技术仍然能够以各种建设性的方式应用，监管需要将创新引导到那些对社会有用的方向上。研究表示，考虑到执法的难度和抑制创新的风险，对加密行业进行监管比实施全面禁令更加可取。[2023/8/22 18:15:50]

在计算机时代，有个著名摩尔定律，就是说同样成本每隔18个月晶体管数量会翻倍，反过来，同样数量晶体管成本会减半。这个规律已经很好匹配了最近30年的发展，并且可以衍生到很多类似领域：存储、功耗、带宽、像素。

而最下面这个头像是冯诺伊曼，20世纪最重要数学家之一，在现代计算机、博弈论和核武器等诸多领域有杰出建树的最伟大科学全才之一。他提出技术会逼近人类历史上某种本质的奇点，在那后，全部人类行为都不可能以我们熟悉的面貌继续存在。

这就是著名的“奇点理论”，目前会呈越来越快的指数性增长，美国未来学家RayKurzweil称：人类能在2045年实现数字化永生，他自己也创办奇点大学，相信随信息技术、无线网、生物、物理等领域的指数级增长，将在2029年实现人工智能，人的寿命也将会在未来15年得到大幅延长。

我们再回到现在，地球上至今的数据量从GB、TB、PB、EB到达ZB，我们之前提出的2^64就相当于16EB的大小。

大数据有什么用？

所谓“学以致用”，大数据领域在各行业都可以应用，这里举几个有趣的例子。在Linkedin时，CEO提出“经济图谱”的概念，希望整合用户、公司、工作机会、技能、学校和帖子变成一个复杂而有蕴含无限可能的数字化社会。

比如说找对象，有个国外极客，他抓取约会网站的数据，根据一些指标如地理、年龄、兴趣，建立下面的3D模型找到真爱；又如阿里巴巴通过数据魔方，提炼出消费跟女生胸部成正比的结论。

在移动App上，今日头条通过你的个人社会化信息，建起兴趣图谱推荐文章并随你的使用会越来越聪明；在线教育领域：MOOC中的M就是大规模的意思；其他如互联网金融人人贷，通过大数据积累信用，释放一些传统金融体系下未被满足而又广泛存在的巨大需求，最近也是拿到1.3亿美金融资。硅谷有家Wealthfront做大数据理财，23andMe提供个人基因组的“大数据”等等。

下面是2014年别人总结的大数据公司列表，我们大致可以分成基础架构和应用，而底层都是会用到一些通用技术，如Hadoop、Mahout、HBase和Cassandra，我在下面也会涵盖。

过去7天NFT销售额下降32%:金色财经报道，数据显示，在2月份NFT的销售额大幅飙升之后，过去7天NFT的销售额比上周下降了32.32%。在19个不同的区块链中，以太坊占本周结算的1.862亿美元NFT销售总额中的1.4856亿美元。[2023/3/6 12:43:55]

我可以举几个例子，在分析这块，Cloudera、hortonworks、mapr作为Hadoop三剑客，一些运维领域，mangodb、couchbase都是nosql代表，作为服务领域AWS和GoogleBigQuery剑拔弩张，在传统数据库，甲骨文收购了MySQL、DB2老牌银行专用，Teradata做了多年数据仓库。

上面的Apps更多，比如社交消费领域的谷歌、亚马逊、Netflix、Twitter、商业智能：SAP、GoodData，一些在广告媒体领域：TURN、Rocketfuel，做智能运维sumologic等等。最后还有个去年的新星Databricks伴随着Spark的浪潮震撼Hadoop的生态系统。

大数据之中国公司

对迅速成长的中国市场，大公司也意味大数据，BAT三家都是对大数据投入不惜余力，我4年前在百度时，百度就提出框计算的东东，最近两年成立硅谷研究院，挖来AndrewNg做首席科学家，研究项目就是百度大脑，在语音、图片识别大幅提高精确度和召回率，最近还做了个无人自行车非常有趣。

腾讯作为最大社交应用对大数据也情有独钟，自己研发C++平台的海量存储系统。淘宝去年双十一主战场，2分钟突破10亿，交易额突破571亿，背后是有很多故事，当年在百度做Pyramid有志之士，继续在OceanBase创造神话。

而阿里云当年备受争议，马云也在怀疑是不是被王坚忽悠，最后经历了双十一洗礼证明OceanBase和阿里云的靠谱。小米的雷军对大数据也是寄托厚望，一方面，这么多数据几何级数增长；另一方面存储带宽都是巨大成本，没价值就真破产。

大数据相关技术，最紧密的就是云计算，我列出主要是AmazonWebService和GoogleCloudPlatform，在国内还有阿里云、金山云、百度云、腾讯云、小米云、360云、七牛……每个里面都是大量技术文档和标准，从计算到存储，从数据库到消息，从监控到部署管理，从虚拟网络到CDN，把所有一切用软件重新定义了一遍。

先来讲亚马逊的云。我本人在亚马逊云计算部门工作过，所有还是比较了解AWS，总体上成熟度很高，有大量创业公司都是基于上面开发，比如有名的Netflix、Pinterest、Coursera。

亚马逊还是不断创新，每年召开reInvent大会推广新的云产品和分享成功案例，在这里面我随便说几个，像S3是简单面向对象的存储，DynamoDB是对关系型数据库的补充，Glacier对冷数据做归档处理，ElasticMapReduce直接对MapReduce做打包提供计算服务，EC2就是基础的虚拟主机，DataPipeline会提供图形化界面直接串联工作任务。

扎克伯格：Meta下一款VR头显10月推出，将专注于“虚拟场景中的社交”:金色财经报道，扎克伯格表示，Meta的下一款VR头显将于10月推出，并将专注于“虚拟场景中的社交”。[2022/8/26 12:50:26]

这边还可以说一下Redshift，它是一种架构，是非常方便的数据仓库解决方案，就是SQL接口，跟各个云服务无缝连接，最大特点就是快，在TB到PB级别非常好的性能，我在工作中也直接使用，它还支持不同硬件平台，如果想速度更快，可以使用SSD的，当然支持容量就小些。

在数据库领域，我就列出三种代表，一类是关系型数据库管理系统，它的特点是A(Atomic)、C(consistent)、I(isolation)、D(duration)，连起来就是ACID。简单说，就是支持事务回滚和外键关联，而NoSQL是与之对应的Base，所谓Basic可用，为了扩大Scale，牺牲一些一致性和事务。而谷歌提出F1，希望解决在大规模数据同时还要做到事务强一致性。在这里面都是非常常见的NoSQL,这些公司可能你都没听过，但它们都是融资过亿，估值都非常高，在几个Billion以上。

我会花一些篇幅介绍Hadoop，首先看Hadoop从哪里开始的，不得不提谷歌的先进性，在10多年前，谷歌出了3篇论文论述分布式系统的做法，分别是GFS、MapReduce、BigTable，非常牛逼的系统，但没人见过，在工业界很多人痒痒的，就想按其思想去仿作。

当时，ApacheNutchLucene作者DougCutting也是其中之一，后来他们被雅虎收购，专门成立团队去投入做，就是Hadoop的开始和大规模发展的地方，之后随着雅虎衰落，牛人去了Facebook、谷歌，也有成立Cloudera、Hortonworks等大数据公司，把Hadoop的实践带到各个硅谷公司。

而谷歌还没停止，又出了新的三辆马车：Pregel、Caffeine和Dremel，后来又有很多步入后尘，开始新一轮开源大战。

那么为啥Hadoop就比较适合做大数据呢？首先扩展很好，直接通过加节点就可以把系统能力提高，它有个重要思想是：移动计算而不是移动数据，因为数据移动是很大的成本需要网络带宽。

其次，它提出的目标就是利用廉价普通计算机，这样虽然可能不稳定，但通过系统级别上的容错和冗余达到高可靠性。并且非常灵活，可以使用各种data，二进制、文档型、记录型。使用各种形式，在按需计算上也是个技巧。

另一个问题，我们提到Hadoop一般不会说某个东西，而是指生态系统，在这里面太多交互的组件了，涉及到IO、处理、应用、配置、工作流。在真正的工作中，当几个组件互相影响，你的头疼的维护才刚刚开始。

数据：81,000,000枚USDT从Tether财政部转移至未知钱包:金色财经报道，据Whale Alert数据，81,000,000枚USDT从Tether财政部转移至未知钱包。[2022/8/11 12:19:22]

我也简单说几个：HadoopCore就三个HDFS、MapReduce、Common，在外围有NoSQL:Cassandra、HBase，有Facebook开发的数据仓库Hive，有雅虎主力研发的Pig工作流语言，有机器学习算法库Mahout，工作流管理软件Oozie，在很多分布式系统选择Master中扮演重要角色的Zookeeper。

下面是Hortonworks提出的数据平台，这个公司比较强势，它有最多的HadoopCommittee成员，是真正的标准制定者，而2.0就是由它们提出。

在Hadoop1.0前，是0.16到0.19、0.20，还有一只是0.23进化成现在的2.0，应该说，现在大致都被2.0取代了，主要区别是1.0只能支持MapReduce框架、资源和数据处理限制在一起。

而2.0首先抽象出Yarn这个资源管理器，然后上层可以支持各种插件机制，便于扩展，Hortonworks还研发了Tez作为加速引擎把一些相关任务合并共享或者并行来优化。

下面这个是英特尔给出的HadoopStack，英特尔也是个对技术前沿由追求的公司，虽然它主业是处理器，但在互联网的时代，为抓住一些软件机会，它们也在积极融合，为生态系统做贡献。

另外，Cloudera是老牌Hadoop公司，成立7、8年了，当年Hadoop之父就是在那做首席架构，它提出的CDH版本是很多公司的稳定Hadoop版本，一般公司也不会自己去搭Hadoop最新版，否则出了Bug会很痛苦，它提供了一个打包方便部署。

涉及技术细节甚至源代码

下面内容涉及技术细节甚至源代码，可能有些枯燥，我也尽量深入浅出。我们先说HDFS，所谓Hadoop的分布式文件系统，它是能真正做到高强度容错。并且根据locality原理，对连续存储做了优化。

简单说，就是分配大的数据块，每次连续读整数个。如果让你自己来设计分布式文件系统，在某机器挂掉还能正常访问该怎么做？首先需要有个master作为目录查找，那么数据节点是作为分割好一块块的，同一块数据为了做备份不能放到同一个机器上，否则这台机器挂了，你备份也同样没办法找到。

HDFS用一种机架位感知的办法，先把一份拷贝放入同机架上的机器，然后在拷贝一份到其他服务器，也许是不同数据中心的，这样如果某个数据点坏了，就从另一个机架上调用，而同一个机架它们内网连接是非常快的，如果那个机器也坏了，只能从远程去获取。这是一种办法，现在还有基于erasurecode本来是用在通信容错领域的办法，可以节约空间又达到容错的目的，大家感兴趣可以去查询。

接着说MapReduce，首先是个编程范式，它的思想是对批量处理的任务，分成两个阶段，所谓的Map阶段就是把数据生成key、valuepair再排序，中间有一步叫shuffle，把同样的key运输到同一个reducer上面去，而在reducer上，因为同样key已经确保在同一个上，就直接可以做聚合，算出一些sum，最后把结果输出到HDFS上。对应开发者来说，你需要做的就是编写Map和reduce函数，像中间的排序和shuffle网络传输，容错处理，框架已经帮你做好了。但据说，谷歌内部早不用这种，又有新的强大工具出现了。

HBase就是对应的BigTable的克隆版，它是基于列的存储，可以很好的扩展型，这里面出现了Zookeeper作为它高可靠性的来源，我们在分布式系统中经常怕SinglePointofFailure，它能保证在少于一半节点损害情况下，还是可以工作的。

这里的regionserver是说把数据的key做范围划分，比如regionserver1负责key从1到1w的，regionserver2负责1w到2w的，这样划分之后，就可以利用分布式机器的存储和运算能力了。

虽然MapReduce强大，但编写很麻烦，在一般工作中，大家不会直接写MapReduce程序。有人又开动大脑，简化开发。Hive的简单介绍，它主要是Facebook开发，确实很容易上手，如果做datascientist，经常也要用到这个工具。

我们想MapReduce模型有什么问题？第一：需要写很多底层的代码不够高效，第二：所有事情必须要转化成两个操作，这本身就很奇怪，也不能解决所有的情况。那么下面就看看有什么可以做的更好的。

Spark介绍

我还是介绍一些Spark的起源。BerkeleyAMPLab，发表在hotcloud是一个从学术界到工业界的成功典范，也吸引了顶级VC：AndreessenHorowitz的注资。

AMPLab这个实验室非常厉害，做大数据、云计算，跟工业界结合很紧密，之前就是他们做mesos、hadooponline，在2013年，这些大牛从BerkeleyAMPLab出去成立了Databricks，引无数Hadoop大佬尽折腰，其实也不见得是它们内心这么想，比如Cloudera也有自家的impala，支持Spark肯定会让它自家很难受，但如果你的客户强烈要求你支持，你是没有选择的

另外起名字也很重要，Spark就占了先机，它们CTO说WhereThere’sSparkThere’sFire，它是用函数式语言Scala编写，Spark简单说就是内存计算框架，之前MapReduce因效率低下大家经常嘲笑，而Spark的出现让大家很清新。Reynod作为Spark核心开发者,介绍Spark性能超Hadoop百倍，算法实现仅有其1/10或1/100。

那为啥用Spark呢？最直接就是快啊，你用Hadoop跑大规模数据几个小时跑完，这边才几十秒，这种变化不仅是数量级的，并且是对你的开发方式翻天覆地的变化，比如你想验证一个算法，你也不知道到底效果如何，但如果能在秒级就给你反馈，你可以立马去调节。

其他的如比MapReduce灵活啊，支持迭代的算法，ad-hocquery，不需你费很多力气花在软件搭建上。如果说你用Hadoop组建集群、测试、部署一个简单任务要1周时间，Spark可能只要一天。在去年的Sortbenchmark上，Spark用了23分钟跑完100TB的排序，刷新之前Hadoop保持的世界纪录。

下面这个图，是Hadoop跟Spark在回归算法上比较，在Hadoop世界里，做迭代计算是非常耗资源，它每次的IO序列画代价很大，所以每次迭代需要差不多的等待。而Spark第一次启动需要载入到内存，之后迭代直接在内存利用中间结果做不落地的运算，所以后期迭代速度快到可以忽略不计。

此外，Spark也是一个生态系统，除核心组建Spark，它也可以跑在Hadoop上，还提供了很多方便的库，比如做流式计算，SparkStreaming，比如GraphX做图的运算，MLBase做机器学习，Shark类似Hive，BinkDB也很有意思，为达到高效，它允许你提供一个误差概率，如果你要求精确度越低，它运算速度就越快，在做一些模糊计算时像Twitter的Follower数目，可以提高效率。

所以总体说，Spark是一个非常精炼的API，提供常用的集合操作，然后本身可以独立运行，或在HadoopYarn上面，或者Mesos，而存储也可以用HDFS，做到了兼容并包，敏捷高效。是不是会取代Hadoop或成为Hadoop的下一代核心，我们拭目以待！

如何学习大数据

那同学们如果问如何开始学习大数据，我也有一些建议，首先还是打好基础，Hadoop虽然火热，但它的基础原理，都是书本上很多年的积累，像Unix设计哲学、数据库的原理；

其次是选择目标，如果你想做数据科学家，我可以推荐Coursera的数据科学课程，通俗易懂，学习Hive、Pig这些基本工具；如果做应用层，主要是把Hadoop的一些工作流要熟悉，包括一些基本调优；如果是想做架构，除能搭建集群，对各基础软件服务很了解，还要理解计算机的瓶颈和负载管理，Linux的一些性能工具。

最后，还是要多加练习，大数据本身就是靠实践，你可以先按API写书上的例子，能够先调试成功，在下面就是多积累，当遇到相似问题能找到对应的经典模式，再进一步就是实际问题，也许周边谁也没遇到，你需要些灵感和网上问问题的技巧，然后根据实际情况作出最佳选择。

本文版权归作者所有，转载未经作者授权，任何组织、机构或个人不得对作品实施转载。

标签：Cloud HDFS HDF Cloud币是什么币 HDFS币是什么币HDF价格 HDF币

火币网下载官方app热门资讯

PLO:币在研究院：波卡平行链 PLO 竞拍经济模型探究

1.概览 BitZ币在研究院一直密切关注波卡生态及其PLO竞拍,在波卡平行链竞拍即将开始之前,我们把对波卡平行链竞拍规则、竞拍的经济模型测算等研究成果向大家分享.

1900/1/1 0:00:00

ONG:造币工艺及相关术语大全

欢迎关注“天涯钱币”,钱币收藏领域最精彩的自媒体关于贵金属纪念币的一些专业术语和一些造币工艺,小天特意整理出来希望对收藏的新手朋友有所帮助.

1900/1/1 0:00:00

以太坊:“萨德”部署地置换协议或推迟至下月签署

资料图片韩国媒体２０日援引消息人士的话报道,针对“萨德”反导系统部署地“换地”事宜,乐天集团计划下月中旬召开理事会会议,并很可能予以批准。预计韩国国防部将于下月与乐天方面签署该协议.

1900/1/1 0:00:00

区块链:一个让人纠结的问题：比特币究竟有没有价值？

近日,财新爆出了监管机构拟“全面取缔比特币等虚拟货币交易所”的信息,继最初有关消息真假的争论之后,开始有人关心,在日本、澳大利亚等国家逐步开放拥抱比特币的时候,我们进行全面从严监管.

1900/1/1 0:00:00

比特币:95后入局币圈被“套路”为暴利“交学费”

来源：中国青年报 00:55 　　原标题：95后入局币圈为暴利“交学费”　　记者/王烨捷实习生张小檬赵茜　　币圈的“套路”远不止通过论坛忽悠散户“入局买币”这么简单.

1900/1/1 0:00:00

以太坊:这些山寨币很可能在以太坊上海升级后引发大规模反弹

Billions项目组以太坊于2月29日在上海升级,将允许提取质押的ETH,但在测试网络上。投资者需要将注意力从与上海更新相关的ETH崩盘转移到LSD的反弹上.

1900/1/1 0:00:00