001__西雅图IT公司之RealNetworks:一个帝国的兴衰(上)
互联网行业的每一次泡沫,都代表了一场旷日持久的血战。一场战争里,很多公司活下来了,有的甚至还披荆斩棘,发展成了独角兽;但也有很多公司在竞争中倒下了,哪怕它曾经是一个帝国;也有的只剩下苟延残喘,甚至消失在浩浩荡荡的历史发展大潮中。
互联网行业的每一次泡沫,都代表了一场旷日持久的血战。一场战争里,很多公司活下来了,有的甚至还披荆斩棘,发展成了独角兽;但也有很多公司在竞争中倒下了,哪怕它曾经是一个帝国;也有的只剩下苟延残喘,甚至消失在浩浩荡荡的历史发展大潮中。
开篇词 | 你的360度人工智能信息助理
你好,我是洪亮劼,目前在电子商务网站 Etsy 任数据科学主管,很高兴能和你在这里相识,也很期待在接下来的时间里,通过“AI 技术内参”这个专栏和你共同探讨与人工智能有关的话题。
上回聊到微软决定进军 RealNetworks 的市场,像之前痛击网景浏览器那样,通过免费加捆绑的方式对攻 RealNetworks。文章末尾,我给你留了个问题。我虽然不知道你是怎么想的,但我相信你的想法一定很精彩。而格拉泽和 RealNetworks 面对这场战争,又是如何应对的呢?
018 | 经典搜索核心算法:TF-IDF及其变种
从本周开始我们进入人工智能核心技术模块,本周我会集中讲解经典的搜索核心算法,今天先来介绍 TF-IDF 算法。
在信息检索(Information Retrieval)、文本挖掘(Text Mining)以及自然语言处理(Natural Language Processing)领域,TF-IDF 算法都可以说是鼎鼎有名。虽然在这些领域中,目前也出现了不少以深度学习为基础的新的文本表达和算分(Weighting)方法,但是 TF-IDF 作为一个最基础的方法,依然在很多应用中发挥着不可替代的作用。
前面说到微软推出 Windows Media Player,利用一贯的免费加捆绑策略杀入媒体领域,开始抢占 RealNetworks 的市场。与此同时,苹果的 QuickTime 也同样采用了免费的竞争策略。而你是否已经站在当初格拉泽的角度,考虑了自己的应对策略呢?
019 | 经典搜索核心算法:BM25及其变种(内附全年目录)
周一我们讲了 TF-IDF 算法和它的四个变种,相对于 TF-IDF 而言,在信息检索和文本挖掘领域,BM25 算法则更具理论基础,而且是工程实践中当仁不让的重要基线(Baseline)算法 。BM25 在 20 世纪 70 年代到 80 年代被提出,到目前为止已经过去二三十年了,但是这个算法依然在很多信息检索的任务中表现优异,是很多工程师首选的算法之一。
大数据和云计算的风被谷歌吹起来的时候,被谷歌收购的网络广告公司 DoubleClick 的原 CEO 和 CTO 们觉得自己应该蹭上时代的列车,再次创业,然后 10gen 公司就这样在纽约诞生了。它的创始人分别是 DoubleClick 的创始人兼 CTO 德怀特 · 梅里曼(Dwight Merriman)、CEO 凯文 · 瑞安(Kevin Ryan),以及工程师埃利特 · 霍洛威兹(Eliot Horowitz)。
020 | 经典搜索核心算法:语言模型及其变种
在信息检索和文本挖掘领域,我们之前已经讲过了 TF-IDF 算法和 BM25 算法。TF-IDF 因其简单和实用常常成为很多信息检索任务的第一选择,BM25 则以其坚实的经验公式成了很多工业界实际系统的重要基石。
鉴于 10gen 公司改名叫 MongoDB 了,这篇文章里我们统一称为 MongoDB 公司。上回说到 MongoDB 公司的发展策略是尽善尽美地提供良好的使用体验,而对于产品功能本身,则是哪怕不成熟也先推出来再说。这种策略的好处是让这个数据库很快地流行开来,坏处是用户用久了各种问题层出不穷,苦不堪言,用户甚至跳出来公开说“不要用 MongoDB”。
021 | 机器学习排序算法:单点法排序学习
在专栏里我们已经讲解过最经典的信息检索技术。这些技术为 2000 年之前的搜索引擎提供了基本的算法支持。不管是 TF-IDF、BM25 还是语言模型(Language Model),这些方法和它们的各类变种在很多领域(不限文本)都还继续发挥着作用。