116__Databricks之Spark的数据金砖王国

2025-01-03 约 2625 字预计阅读 6 分钟

说起大数据的创业公司，我们一定都会提到 Databricks 这公司，而这家公司知名的原因，一大部分来自于它的开源产品 Spark。Spark 是 Hadoop 生态圈里大红大紫的项目，事实上，它甚至已经取代了新一代的经典运行框架：Hadoop MapReduce。

116_成为香饽饽的数据科学家如何衡量他们的工作呢

2025-01-03 约 2868 字预计阅读 6 分钟

056 | 成为“香饽饽”的数据科学家，如何衡量他们的工作呢？

本周我们聊了在构建一个数据科学家团队时，从筛选简历入手到电话面试，再到 Onsite 面试这一系列的流程。从无到有，建立一个数据科学家或者人工智能团队的确是一件煞费苦心的事情。

2025-01-03 约 0 字预计阅读 0 分钟

2025-01-03 约 2226 字预计阅读 5 分钟

2014 年，数据库领域的顶级会议 VLDB 在杭州召开。柏林理工大学的教授沃克尔·马尔科（Volker Markl）做了一场关于大数据计算平台的专题报告，这场报告讲的是一个叫做 Flink 的系统。

2025-01-03 约 2688 字预计阅读 6 分钟

057 | 人工智能领域知识体系更新周期只有5～6年，数据科学家如何培养？

在上一期的分享里，我们聊了数据科学家团队管理的一个重要步骤，那就是如何来衡量数据科学家或者人工智能工程师在团队中的业绩，我们重点讲了如何看待数据科学家团队的价值和数据科学家评定的一些误区。

2025-01-03 约 0 字预计阅读 0 分钟

2025-01-03 约 2444 字预计阅读 5 分钟

今天这篇文章，我们来讲讲一个非常年轻的公司 Dremio 的故事。这个故事涉及了两个 Apache 开源项目 Drill 和 Arrow，和一家 Hadoop 发行商 MapR。

我们先从 MapR 公司开始讲起，MapR 在 2009 年成立，发展一直不错，在 CTO 的带领下，公司出品了一个自己的文件系统，取代了 HDFS，同时，它的 Hadoop 发行版也取得了不俗的成绩。

2025-01-03 约 2714 字预计阅读 6 分钟

058 | 数据科学家团队组织架构：水平还是垂直，这是个问题

周一我们聊了数据科学家培养的话题，我们分析了数据科学家培养的重要性，要从技术的提高和整体的团队协作几个角度来进行培养。

2025-01-03 约 0 字预计阅读 0 分钟

2025-01-03 约 2143 字预计阅读 5 分钟

在今天的大数据创业领域，每个有相当数量受众的开源项目，它的背后都会有一个创业公司在支持。今天我们就来聊聊开源项目 Druid，以及它背后的创业公司 Imply。