014_文档理解第一步文档分类

030 | 文档理解第一步:文档分类

我们在前几周的专栏里讲解了最经典的信息检索(Information Retrieval)技术以及基于机器学习的排序学习算法(Learning to Rank),并且花了一定的时间分享了查询关键字理解(Query Understanding)这一关键搜索组件的核心技术要点。上周,我们还详细讨论了如何从线上和线下两个层面来评价一个搜索系统。

015__在线旅游帝国Expedia崛起的背后

我会在这一年中介绍一些总部在西雅图,或者研发中心里面很重要的一部分在西雅图的 IT 公司。这其中除了微软和亚马逊这样的大鳄以外,还囊括了诸多在不同领域取得一定统治地位的公司们。

015_文档理解的关键步骤文档聚类

031 | 文档理解的关键步骤:文档聚类

周一我们分享了文档理解最基本的一个步骤,那就是给文档分类(Classification),主要是看不同文档表达什么类别的信息。今天我就来聊一聊文档理解的另外一个重要组件:文档聚类(Document Clustering)。

016__亚马逊领导力准则之要有硬骨头

亚马逊在美国公司里面是家非常奇特的公司,其中一点就是非常强调并且高度宣传它的领导力准则。亚马逊的领导力准则,一直以来都是大家研究这家企业的重点,并且有很多人还专门写书论述。而按照杰夫 · 贝佐斯的说法,这些领导力准则也是成就亚马逊的秘诀。

016_文档理解的重要特例多模文档建模

032 | 文档理解的重要特例:多模文档建模

本周我们重点分享搜索系统中的一个重要部件,那就是文档理解。周一我们首先分享了文档理解最基本的一个步骤,那就是给文档分类,主要是看不同文档表达什么类别的信息。然后,周三我们聊了聊另外一个重要的文档理解组件,也就是文档聚类的一些基本的概念和技术。今天我就来和你分享一个文档理解的重要特例:多模文档建模(Multimodal Modeling)。

017__Hadoop三国之魏国Cloudera

今天开始,我打算介绍一下 Hadoop 领域里面的三家发行商,它们之间的关系正好和三国时候的魏蜀吴很类似,所以不妨就排演一出 Hadoop 的三国版,带你一起感受和思考下大数据领域的发展和乱相。

017_大型搜索框架宏观视角发展特点及趋势

033 | 大型搜索框架宏观视角:发展、特点及趋势

我们在前几周的专栏里讲解了一系列最经典的信息检索(Information Retrieval)技术以及基于机器学习的排序学习算法(Learning to Rank)。然后我们花了一定的时间讨论了两个关键搜索组件的核心技术要点,包括查询关键字理解(Query Understanding)和文档理解(Document Understanding)。除此之外,我们还详细讨论了如何从线上和线下两个层面来评价一个搜索系统。相信你已经对搜索系统的各个基本组成部分有了一个比较基础的把握。

018__Hadoop三国之吴国MapR

今天我要介绍的这个 Hadoop 发行商是 MapR。它算得上是一家特立独行的公司,它实力很强,但却比较少去参与争斗,所以我们把它称作“吴国”吧。

MapR 成立于 2009 年,由 CEO 约翰 · 施罗德(John Schroeder)和 CTO 斯里瓦斯(M. C. Srivas)创立。到 2016 年的时候,施罗德卸任 CEO,做了执行主席(Executive Chairman),斯里瓦斯则去了 Uber。为什么 CEO 和 CTO 下台的下台,去 Uber 的去 Uber,这是个有意思的问题;我留到文章最后来说。

018_多轮打分系统概述

034 | 多轮打分系统概述

周一我为你介绍了搜索系统的一个宏观分类,包括传统的文本匹配信息检索系统和机器学习信息检索系统。这个分类可以让你非常清晰地了解信息搜索系统的历史进程,并对这两种搜索系统的特点有所了解。

019__Hadoop三国之蜀国Hortonworks

我把 Hortonworks 类比为“蜀国”,主要有两个原因:一是它也算正统出身,是原来雅虎里面写 Hadoop 的那个团队被剥离以后成立的;二是“蜀中无大将,廖化作先锋”,Hortonworks 和其他公司比起来,真是没什么大神。Cloudera 有 Hadoop 的创始人在,MapR 的 CTO 精通文件系统,而 Hortonworks 缺了一个标杆式的人物。