020__Hadoop及其发行商的未来
Hadoop 以及它的生态圈,从开始到现在也已经有差不多十年历史了。Hadoop 从雅虎支持的一个开源项目,到由很多项目组成的 Hadoop 生态圈,以及依靠 Hadoop 发行版开展商业活动的三大公司 Cloudera、Hortonworks 以及 MapR,其发展不可谓不迅猛。
Hadoop 以及它的生态圈,从开始到现在也已经有差不多十年历史了。Hadoop 从雅虎支持的一个开源项目,到由很多项目组成的 Hadoop 生态圈,以及依靠 Hadoop 发行版开展商业活动的三大公司 Cloudera、Hortonworks 以及 MapR,其发展不可谓不迅猛。
036 | PageRank算法的核心思想是什么?
上周我们介绍了信息搜索系统的历史进程,剖析了搜索系统的多轮打分系统,还深入探讨了倒排索引,聊了聊它的核心技术。
2017 年 10 月中旬,奥地利首都维也纳举行了一场低调的婚礼,婚礼的主角是彼得 · 蒂尔和他的同性男友。这场婚礼很低调,媒体知道也是很多天以后了。
彼得 · 蒂尔 1967 年出生于德国法兰克福,至今拥有德国国籍。他在婴儿时期就随父母移民美国,之后经历过短暂的南非生活,但大部分时间都是在硅谷度过的,并最终成为了硅谷最为重要的投资人、企业家、政治活动家之一。他就是我今天要说的主角。
037 | 经典图算法之HITS
这周我们分享的内容是如何理解网页和网页之间的关系。周一我们介绍了用图(Graph)来表达网页与网页之间的关系并计算网页的重要性,就是经典算法 PageRank。今天我来介绍一下 PageRank 的姊妹算法:HITS 算法。
彼得 · 蒂尔除了是一位非常成功的投资人,还是一个个性鲜明,对世界有着独特看法并擅于付诸实施的人。今天,我就带你看看商业之外的彼得 · 蒂尔。
彼得 · 蒂尔创建于 2003 年的 Palantir 是硅谷最为神秘的大数据公司之一。它之所以著名,是因为公司成立伊始,唯一的外部投资来自美国情报机构 CIA 旗下的投资基金 In-Q-Tel。
038 | 社区检测算法之“模块最大化 ”
一起来回顾下本周的内容。周一我们介绍了用图(Graph)来表达网页与网页之间的关系并计算网页的重要性,就是经典的 PageRank 算法。周三我们介绍了 PageRank 的一个姊妹算法,HITS 算法,并且分析了这两种算法的内在联系,这两类算法都希望给网页赋予一个权重来表达网页的重要性。
本周一开始,我说到了彼得 · 蒂尔的创投哲学,还引用了他创建 PayPal 和投资了 Facebook 的天使轮这两个例子,分别诠释了他是怎样作为创业者和投资者去践行这套哲学的。
039 | 机器学习排序算法经典模型:RankSVM
到目前为止,我们在专栏里已经讨论了关于搜索引擎方方面面的很多话题,包括经典的信息检索技术、查询关键字理解、文档理解以及现代搜索引擎的架构等等 。同时,我们也从机器学习角度出发对搜索引擎的最核心部分,也就是排序算法进行了最基本的分享,囊括了单点法排序学习(Pointwise Learning to Rank)、配对法排序学习(Pairwise Learning to Rank)以及列表法排序学习(Listwise Learning to Rank),相信你应该对这类算法的大概内容有所掌握。
我会在这一年中介绍一些总部在西雅图,或者研发中心里面很重要的一部分在西雅图的 IT 公司。这其中除了微软和亚马逊这样的大鳄以外,还囊括了诸多在不同领域取得一定统治地位的公司们。
040 | 机器学习排序算法经典模型:GBDT
这周我们讨论机器学习排序算法中几个经典的模型,周一分享了配对法排序中的一个经典算法,即排序支持向量机(RankSVM),这个算法的核心思想是把支持向量机应用到有序数据中,试图对数据间的顺序进行直接建模。