17_Structured_Streaming:如何用DataFrame_API进行实时数据分析_

你好,我是蔡元楠。

上一讲中,我们介绍了 Spark 中的流处理库 Spark Streaming。它将无边界的流数据抽象成 DStream,按特定的时间间隔,把数据流分割成一个个 RDD 进行批处理。所以,DStream API 与 RDD API 高度相似,也拥有 RDD 的各种性质。

17_程序员也可以“砍”需求吗?

我们前面讲的任务分解,主要是在讲开发任务的分解。今天我们换个角度,看看需求的分解。是的,需求也要分解。

有一次,我和一个做开发的同事聊天,他给我讲了他近期的烦恼。

17_春节策划丨快来挑战一下自己的分析逻辑吧

春节策划丨快来挑战一下自己的分析逻辑吧!

Hi,我之前给你出了一套试卷,不知道你答得怎么样了呢?

今天我们继续来挑战!

在性能测试分析的过程中,有两个关键点是做分析的人必须要关注的,第一点就是,在压力工具执行完成之后,要学会判断瓶颈是否出现,以及是否应该继续加压。其次,在分析中,要学会分段会层,如果发现是某个节点出现了问题,就要学会从已有问题的计数器顺藤摸瓜找到具体的证据链。

17_高性能缓存架构

虽然我们可以通过各种手段来提升存储系统的性能,但在某些复杂的业务场景下,单纯依靠存储系统的性能提升不够的,典型的场景有:

  • 需要经过复杂运算后得出的数据,存储系统无能为力

例如,一个论坛需要在首页展示当前有多少用户同时在线,如果使用 MySQL 来存储当前用户状态,则每次获取这个总数都要“count(*)”大量数据,这样的操作无论怎么优化 MySQL,性能都不会太高。如果要实时展示用户同时在线数,则 MySQL 性能无法支撑。

17_海绵学习法怎么找到你的10000小时

17 | 海绵学习法:怎么找到你的10000小时?

你好,我是华仔。

上一讲我简要地介绍了自己总结的一套系统的学习方法,而它的指导原则就是 10000 小时定律。

10000 小时定律的走红,跟畅销书作家马尔科姆·格拉德威尔(Malcolm Gladwell)有很大的关系。2008 年他在《异类》这本书里介绍了安德斯·艾利克森(Anders Ericsson)教授的研究成果,并提炼出了这个定律,要想成功就必须要有 10000 小时的投入。

17_划分土地(中):如何实现内存页面初始化?

你好,我是 LMOS。

上节课,我们确定了用分页方式管理内存,并且一起动手设计了表示内存页、内存区相关的内存管理数据结构。不过,虽然内存管理相关的数据结构已经定义好了,但是我们还没有在内存中建立对应的实例变量

17_黄色网站?不仅仅是“黄色”罪名

在互联网刚兴起那几年,有一句流传很广的话:在互联网上,没人知道你是一条狗。虽说这调侃的是社交的匿名和隐私问题,但我也看到了其发展的另一面,也就是网络上有藏污纳垢的现象,最常见的就是一些黄色网站、论坛或是其他群组。

17_基础篇__CPU是如何执行任务的?

你好,我是邵亚方。

如果你做过性能优化的话,你应该有过这些思考,比如说:

  1. 如何让 CPU 读取数据更快一些?
  2. 同样的任务,为什么有时候执行得快,有时候执行得慢?
  3. 我的任务有些比较重要,CPU 如果有争抢时,我希望可以先执行这些任务,这该怎么办呢?
  4. 多线程并行读写数据是如何保障同步的?

要想明白这些问题,你就需要去了解 CPU 是如何执行任务的,只有明白了 CPU 的执行逻辑,你才能更好地控制你的任务执行,从而获得更好的性能。

17_检视:计划的可行——时间与承诺

有了愿景,也有了具体的计划,但经常还是一年过去,发现实际和计划相比,总是有差距。是的,这是普遍现象,你可能并不孤独和例外:统计数字表明,在年初制定了计划的人中,只有 8% 实现了这些计划。