056__互联网第一股雅虎的兴衰:没有救世主
杨致远从建立人工编辑的互联网分类索引,到创立雅虎,再到雅虎上市,用了不到两年的时间。之后他想出通过给厂商做显示广告的方式,让雅虎在第一次互联网泡沫破灭之前赚了很多钱,成了全球访问量最大的网站。
杨致远从建立人工编辑的互联网分类索引,到创立雅虎,再到雅虎上市,用了不到两年的时间。之后他想出通过给厂商做显示广告的方式,让雅虎在第一次互联网泡沫破灭之前赚了很多钱,成了全球访问量最大的网站。
087 | 基础文本分析模型之二:概率隐语义分析
在上一篇的分享里,我们展开了文本分析这个方向,讨论了“隐语义分析”(Latent Semantic Indexing)这个模型。隐语义分析的核心是基于矩阵分解的代数方法。这种方法的好处自然是能够直接利用代数计算方法对文本进行分析,而短板则是无法很好地解释结果。而“解释性”是很多概率模型的一大优势,因此,自然就有很多研究者想到是否能够把概率的语言移植到隐语义分析上。
雅虎曾经是互联网上访问量最大的一个网站,雅虎公司也一度发展为让人艳羡的“互联网第一股”。但是后来雅虎公司的发展却每况愈下,最后被 Verizon 以非常低廉的价格收购了。
088 | 基础文本分析模型之三:EM算法
周一我们分享的模型是“概率隐语义分析”(Probabilistic Latent Semantic Indexing),或者简称为 PLSA,这类模型有效地弥补了隐语义分析的不足,在 LDA 兴起之前,成为了有力的文本分析工具。
有一句话叫作“兵熊熊一个,将熊熊一窝”,这句话还是很有道理的。一个企业发展得怎么样,很多时候需要看企业的那群领导人到底怎么样。透过企业的领导人去分析企业的前景,往往行之有效。
089 | 为什么需要Word2Vec算法?
至此,关于文本分析这个方向,我们已经介绍了 LDA(Latent Diriclet Allocation),这是一个出色的无监督学习的文本挖掘模型。还有“隐语义分析”(Latent Semantic Indexing),其核心是基于矩阵分解的代数方法。接着,我们分享了“概率隐语义分析”(Probabilistic Latent Semantic Indexing),这类模型有效地弥补了隐语义分析的不足,成为了在 LDA 兴起之前的有力的文本分析工具。我们还介绍了EM(Expectation Maximization)算法,这是针对隐参数模型最直接有效的训练方法之一。
用亚马逊创始人贝佐斯自己的话形容,亚马逊领导力准则是这家公司取得如此辉煌成就的基石。认真学习这些领导力准则,不但有助于理解亚马逊的企业文化,也可以帮助我们分析亚马逊如何取得了这样举世瞩目的成就。
090 | Word2Vec算法有哪些扩展模型?
从上一期的分享开始,我们进入到文本分析的另外一个环节,那就是介绍一个最近几年兴起的重要文本模型,Word2Vec。这个模型对文本挖掘、自然语言处理等很多领域都有重要影响。我们讨论了 Word2Vec 模型的基本假设,主要是如何从离散的词包输入获得连续的词的表达,以及如何能够利用上下文从而学习到词的隐含特性。我们还聊了两个 Word2Vec 模型,SG(SkipGram)模型和 CBOW(Continuous-Bag-of-Word)模型,讨论了它们都有什么特性以及如何实现。
通过上一节课的学习,相信你已经知道了 Pod 是 Kubernetes 中原子化的部署单元,它可以包含一个或多个容器,而且容器之间可以共享网络、存储资源。在日常使用过程中,也应该尽量避免在一个 Pod 内运行多个不相关的容器,具体原因在上一节课中也已经详细阐述。
通过上一讲的内容,相信你已经了解了现代化构建流程和处理内容。这一讲,我将结合 Webpack 为主的成熟方案现阶段的“不足”,从源码实现角度带你分析 Vite 的设计哲学,同时为“解析 Webpack 源码,实现自己的构建工具”一讲内容打下基础,循序渐进,最终你将能够开发一个自己的构建工具。