17_Structured_Streaming：如何用DataFrame_API进行实时数据分析_

2025-01-03 约 3562 字预计阅读 8 分钟

你好，我是蔡元楠。

上一讲中，我们介绍了 Spark 中的流处理库 Spark Streaming。它将无边界的流数据抽象成 DStream，按特定的时间间隔，把数据流分割成一个个 RDD 进行批处理。所以，DStream API 与 RDD API 高度相似，也拥有 RDD 的各种性质。

17_程序员也可以“砍”需求吗？

2025-01-03 约 3764 字预计阅读 8 分钟

我们前面讲的任务分解，主要是在讲开发任务的分解。今天我们换个角度，看看需求的分解。是的，需求也要分解。

有一次，我和一个做开发的同事聊天，他给我讲了他近期的烦恼。

17_春节策划丨快来挑战一下自己的分析逻辑吧

2025-01-03 约 542 字预计阅读 2 分钟

春节策划丨快来挑战一下自己的分析逻辑吧！

Hi，我之前给你出了一套试卷，不知道你答得怎么样了呢？

今天我们继续来挑战！

在性能测试分析的过程中，有两个关键点是做分析的人必须要关注的，第一点就是，在压力工具执行完成之后，要学会判断瓶颈是否出现，以及是否应该继续加压。其次，在分析中，要学会分段会层，如果发现是某个节点出现了问题，就要学会从已有问题的计数器顺藤摸瓜找到具体的证据链。

17_分布式安全：上百个分布式节点，不会出现“内奸”吗？

2025-01-03 约 4010 字预计阅读 9 分钟

你好，我是何为舟。

如今，大数据处理已经成为了每一个应用和公司都必备的业务。因此，除了数据库之外，分布式的平台和框架也是开发人员最熟悉的工具之一。

17_高性能缓存架构

2025-01-03 约 3479 字预计阅读 7 分钟

虽然我们可以通过各种手段来提升存储系统的性能，但在某些复杂的业务场景下，单纯依靠存储系统的性能提升不够的，典型的场景有：

需要经过复杂运算后得出的数据，存储系统无能为力

例如，一个论坛需要在首页展示当前有多少用户同时在线，如果使用 MySQL 来存储当前用户状态，则每次获取这个总数都要“count(*)”大量数据，这样的操作无论怎么优化 MySQL，性能都不会太高。如果要实时展示用户同时在线数，则 MySQL 性能无法支撑。

17_海绵学习法怎么找到你的10000小时

2025-01-03 约 3991 字预计阅读 8 分钟

17 | 海绵学习法：怎么找到你的10000小时？

你好，我是华仔。

上一讲我简要地介绍了自己总结的一套系统的学习方法，而它的指导原则就是 10000 小时定律。

10000 小时定律的走红，跟畅销书作家马尔科姆·格拉德威尔（Malcolm Gladwell）有很大的关系。2008 年他在《异类》这本书里介绍了安德斯·艾利克森（Anders Ericsson）教授的研究成果，并提炼出了这个定律，要想成功就必须要有 10000 小时的投入。

17_划分土地（中）：如何实现内存页面初始化？

2025-01-03 约 7056 字预计阅读 15 分钟

你好，我是 LMOS。

上节课，我们确定了用分页方式管理内存，并且一起动手设计了表示内存页、内存区相关的内存管理数据结构。不过，虽然内存管理相关的数据结构已经定义好了，但是我们还没有在内存中建立对应的实例变量。

17_黄色网站？不仅仅是“黄色”罪名

2025-01-03 约 3469 字预计阅读 7 分钟

在互联网刚兴起那几年，有一句流传很广的话：在互联网上，没人知道你是一条狗。虽说这调侃的是社交的匿名和隐私问题，但我也看到了其发展的另一面，也就是网络上有藏污纳垢的现象，最常见的就是一些黄色网站、论坛或是其他群组。

17_基础篇__CPU是如何执行任务的？

2025-01-03 约 3678 字预计阅读 8 分钟

你好，我是邵亚方。

如果你做过性能优化的话，你应该有过这些思考，比如说：

如何让 CPU 读取数据更快一些？
同样的任务，为什么有时候执行得快，有时候执行得慢？
我的任务有些比较重要，CPU 如果有争抢时，我希望可以先执行这些任务，这该怎么办呢？
多线程并行读写数据是如何保障同步的？
…

要想明白这些问题，你就需要去了解 CPU 是如何执行任务的，只有明白了 CPU 的执行逻辑，你才能更好地控制你的任务执行，从而获得更好的性能。

17_检视：计划的可行——时间与承诺

2025-01-03 约 3176 字预计阅读 7 分钟

有了愿景，也有了具体的计划，但经常还是一年过去，发现实际和计划相比，总是有差距。是的，这是普遍现象，你可能并不孤独和例外：统计数字表明，在年初制定了计划的人中，只有 8% 实现了这些计划。