27_Pipeline_I_O__Beam数据中转的设计模式

2025-01-03 约 3485 字预计阅读 7 分钟

你好，我是蔡元楠。

今天我要与你分享的主题是“Pipeline I/O: Beam 数据中转的设计模式”。

在前面的章节中，我们一起学习了如何使用 PCollection 来抽象封装数据，如何使用 Transform 来封装我们的数据处理逻辑，以及 Beam 是如何将数据处理高度抽象成为 Pipeline 来表达的，就如下图所示。

27_大数据从哪里来？

2025-01-03 约 3636 字预计阅读 8 分钟

大数据就是存储、计算、应用大数据的技术，如果没有数据，所谓大数据就是无源之水、无本之木，所有技术和应用也都无从谈起。可以说，数据在大数据的整个生态体系里面拥有核心的、最无可代替的地位。很多从事机器学习和人工智能的高校学者选择加入互联网企业，并不是贪图企业给的高薪，而是因为只有互联网企业才有他们做研究需要用到的大量数据。

27_代码优化：为什么你的代码比他的更高效？

2025-01-03 约 6069 字预计阅读 13 分钟

在使用 LLVM 的过程中，你应该觉察到了，优化之后和优化之前的代码相差很大。代码优化之后，数量变少了，性能也更高了。而针对这个看起来很神秘的代码优化，我想问你一些问题：

27_多元化变现：如何明确不同创作阶段的变现任务？

2025-01-03 约 3470 字预计阅读 7 分钟

你好，我是周维。

通过上节课的学习，我们现在已经了解了短视频 + 变现模式的特点，知道如何根据自己的内容定位和个人优势选择合适的变现模式。可是这里仍然存在一个现实的问题：即使了解了不同变现模式的特点，最终获得的收益还是没有别人多，这是为什么呢？

27_风控系统：如何从海量业务数据中，挖掘黑灰产？

2025-01-03 约 4591 字预计阅读 10 分钟

你好，我是何为舟。

在上一讲中，我们讲了如何通过安全的产品方案，提升黑产攻击业务的资源成本，降低应用被攻击的风险。当然，仅靠产品方案是没办法完全抵御黑产的。因为在产品方案中，我们还需要对用户体验进行关注。

27_尽早暴露问题：_为什么被指责的总是你？

2025-01-03 约 3462 字预计阅读 7 分钟

今天我准备讨论一个经常会让很多程序员郁闷的事情，为什么你已经工作得很辛苦了，但依然会被指责。在讨论这个问题之前，我们先来讲一个小故事。

程序员小李这天接到了一个新的任务。系统要做性能提升，原先所有的订单都要下到数据库里，由于后来有很多订单都撤了，反复操作数据库，对真正成交过程的性能造成了影响。所以，技术负责人老赵决定把订单先放到缓存里。

27_决策树：信息增益、增益比率和基尼指数的运用

2025-01-03 约 2349 字预计阅读 5 分钟

你好，我是黄申。

上一节，我通过问卷调查的案例，给你解释了信息熵和信息增益的概念。被测者们每次回答一道问题，就会被细分到不同的集合，每个细分的集合纯净度就会提高，而熵就会下降。在测试结束的时候，如果所有被测者都被分配到了相应的武侠人物名下，那么每个人物分组都是最纯净的，熵值都为 0。于是，测试问卷的过程就转化为“如何将熵从 3.32 下降到 0”的过程。

27_课前导读：学习现代语言设计的正确姿势

2025-01-03 约 4172 字预计阅读 9 分钟

你好，我是宫文学。

到目前为止，你就已经学完了这门课程中前两个模块的所有内容了。在第一个模块“预备知识篇”，我带你梳理了编译原理的关键概念、算法等核心知识点，帮你建立了一个直观的编译原理基础知识体系；在第二个模块“真实编译器解析篇”，我带你探究了 7 个真实世界的编译器，让你对编译器所实际采用的各种编译技术都有所涉猎。那么在接下来的第三个模块，我会继续带你朝着提高编译原理实战能力的目标前进。这一次，我们从计算机语言设计的高度，来印证一下编译原理的核心知识点。

27_利用Mock与回放技术助力自动化回归

2025-01-03 约 3933 字预计阅读 8 分钟

你好，我是王潇俊。今天我和你分享的主题是：利用 Mock 与回放技术助力自动化回归。

在《代码静态检查实践》和《越来越重要的破坏性测试》这次的分享中，我介绍了对持续交付有重大影响的两个测试类型，即静态代码检查和破坏性测试。

27_名师分享活都来不及干了还有空注意代码风格

2025-01-03 约 3972 字预计阅读 8 分钟

26 | [名师分享] 活都来不及干了，还有空注意代码风格？！

你好，我是蔡元楠，是极客时间《大规模数据处理实战》的作者。今天是我第二次受邀来我们专栏分享了，很高兴再次见到你。今天我分享的主题是：活都来不及干了，还有空注意代码风格吗？！