2016大数据版图：未来的机会在哪里？

2016-09-06 来源： 36kr 作者： Matt Turck

First Mark Capital 的 Matt Turck 给我们描绘了全球大数据发展的全景，也展望了大数据发展的未来，其中有很多观点对大数据领域的创业公司是很有借鉴意义的。我们结合自己跟一些国内大数据创业公司和客户的交流，谈谈对国内大数据创业公司发展的思考：

1.市场和客户在哪里？
大数据技术由互联网公司兴起，生态体系不断成熟，并逐渐向其他行业渗透。大数据的技术使用方法和大数据创业公司的客户是两码事。国内很多互联网公司都是开源大数据技术的使用者，但他们拥有很强的技术能力，基本很少为这些技术付费。真正的客户应该是那些拥有大数据却没有处理能力的公司。这可能就是 Matt Turck 提到的，大数据快速发展几年之后，面临的是更加广阔、但也更加棘手的问题：让中等规模以上客户采用大数据技术。

2.做产品还是做服务？这是个艰难的决定。
做产品拥有更好的前景，因为规模化以后将拥有非常好的利润水平。但在今天的大数据市场，很多大数据产品面临来自全球开源技术和产品的竞争，而且技术的更新和变化非常快，前期高研发投入和低销售产出的时期可能让创业公司非常煎熬。
做服务可能会陷入“IT 外包”的魔咒，客户也许就会按人头来付费，眼下公司有不错的现金流了，但是公司的未来和前景在哪里？
不管怎么样，大数据技术本身已经开始走向应用阶段，企业客户需要的是真实的价值，而怎么提供这样的价值，持续的提供这样的价值，从而获取短期以及长期的收益，是大数据创业公司需要深入思考的问题。

3.看好“去 IOE”背景下国内大数据公司崛起的机会。
大数据技术体系和生态的发展打破了很多企业客户原有的 IT 体系，“去 IOE”给大家提供了广阔的市场机遇。
经历了前些年大数据技术生态的培育和渗透，越来越多的企业客户开始拥抱大数据。国内大数据领域的创业也是百花齐放、风生水起，有的公司做单点技术突破的产品，有的公司做端到端的解决方案，有的公司从开源起步，扩大用户基数，进而再寻求商业化。相信在不久的将来，大数据领域将有越来越多的独角兽。
但是，我们必须认识到企业服务市场的规律，企业客户永远是理性的，你的价值取决于客户对你的认可程度和对你产品需求的迫切程度，而不是其他，所以不管怎么样，脚踏实地，深挖自身能力和价值，一定是成为独角兽的过程中不可或缺的。

2016大数据版图

在喜新厌旧的技术初创企业界，已有 3 年历史“大数据”听起来似乎已经过气了。虽然 Hadoop 在 2006 年已经出来，但“大数据”这个概念大概是在 2011 到 2014 年左右才真正火起来的。也就是在这段时间里，至少是在媒体或者专家眼里，“大数据”成为了新的“金子”或者“石油”。然而，至少在我跟业界人士交谈中，大家越来越感觉到这项技术已经在某种程度上陷入了停滞。2015 年可能是数据领域的那些酷小子转移兴趣，开始沉迷于 AI 以及机器智能、深度学习等许多相关概念的年份。

抛开不可避免的炒作周期曲线态势不管，我们的“大数据版图”已经进入第 4 个年头了，趁这个时候退一步来反思一下去年发生了什么，思考一下这个行业的未来会怎样是很有意义的。

那么 2016 年大数据到底还算不算个“东西”呢？我们不妨探讨一下。

企业技术=艰苦工作

大数据有趣的一点在于，它不再像当初经历过那样有可能成为炒作的题材了。

大数据为许多消费者或商业用户体验提供了动力，但它的核心是企业技术：数据库、分析等，这些东西都是在后端运行的，没几个人能看得见。就像在那个世界工作的任何人都知道那样，用一个晚上的时间就想适应企业端的新技术是不可能的。

大数据现象在早期主要是受到了与一批骨干互联网公司（尤其是 Google、Facebook、Twitter 等）的共生关系的推动，这些公司既是核心大数据技术的重度用户，同时也是这些技术的创造者。

这些公司突然间面对着规模前所未有的庞大数据时，由于本身缺乏传统的（昂贵的）基础设施，也没有办法招募到一些最好的工程师，所以只好自己动手来开发所需的技术。

后来随着开源运动的迅速发展，一大批此类新技术开始共享到更广的范围。然后，一些互联网大公司的工程师离职去创办自己的大数据初创企业。

其他的一些“数字原生”公司，包括崭露头角的独角兽公司，也开始面临着互联网大公司的类似需求，由于它们自身也没有传统的基础设施，所以自然就成为了那些大数据技术的早期采用者。而早期的成功又导致了更多的创业活动发生，并获得了更多的VC资助，从而带动了大数据的起势。（2010年，A轮投资市场中只有2.5%与大数据有关。今天，这个部分的投资占整个投资市场的7.5%以上。）

快速发展了几年之后，现在我们面临的是更加广阔、但也更加棘手的机遇：让中等规模到跨国公司级别的更大一批企业采用大数据技术。

这些公司跟“数字原生”公司不一样的是，他们没有从零开始的有利条件。而且他们失去的会更多：这些公司绝大部分的现有技术基础设施都是成功的。那些基础设施当然未必是功能完备的，组织内部许多人也意识到对自己的遗留基础设施进行现代化应该是早点好过晚点，但他们不会一夜间就把自己的关键业务取代掉。任何革命都需要过程、预算、项目管理、试点、局部部署以及完备的安全审计等。大企业对由年轻的初创企业来处理自己基础设施的关键部分的谨慎是可以理解的。

还需要理解的另一个关键是：大数据的成功不在于实现技术的某一方面（像 Hadoop 什么的），而是需要把一连串的技术、人和流程糅合到一起。你得捕捉数据、存储数据、清洗数据、查询数据、分析数据并对数据进行可视化。这些工作一部分可以由产品来完成，而有的则需要人来做。一切都需要无缝集成起来。最后，要想让所有这一切发挥作用，整个公司从上到下都需要树立以数据驱动的文化，这样大数据才不仅仅是个“东西”，而且就是那个（关键的）“东西”。

换句话说：有一堆艰苦的工作要做。（根据我们与很多企业和创业公司的交流，目前中国的公司在使用大数据的时候，将会有80%的精力花在数据的清洗方面。）

生态体系正在成熟

与此同时，在初创企业/供应商这一块，整个第一波的大数据公司（ 2009 至 2013 年间成立的那批）现在已经融了数轮的资金，企业规模已经得到了扩大，并且从早期部署的成功或失败中学到了东西，现在他们已经能够提供更成熟的、经受过考验的产品了。少数一些已经成为了上市公司（包括 2015 年上市的HortonWorks 和 New Relic），而有的（比如 Cloudera、MongoDB 等）融资已经达上亿美元了。

这个领域的 VC 融资活动仍然很有生气，2016年的前几周我们见证好几轮相当可观的后期阶段大数据融资事件：Data Dog（ 9400 万美元），Bloom Reach（ 5600 万美元），Qubole（ 3000 万美元），PlaceIQ（ 2500 万美元）等。2015 年大数据初创企业拿到的融资额达到了 66.4 亿美元，占整个技术 VC 总融资额额 11%。

随着该领域的创业活动持续进行以及资金的不断流入，加上适度的少量退出，以及越来越活跃的技术巨头（尤其是 Amazon、Google、IBM ），使得这个领域的公司日益增多，最后汇成了这幅 2016 版的大数据版图。

在基本趋势方面，行动开始慢慢从左转到右（即创新、推出新产品和新公司），从基础设施层（开发者/工程师的世界）转移到分析层（数据科学家和分析师的世界）乃至应用层（商业用户和消费者的世界），“大数据原生应用”已经在迅速冒头—这多少符合了我们原先的一些预期。

大数据基础设施：仍有大量创新

Google 关于 Map Reduce 和 BigTable 的论文（Cutting 和 Mike Cafarella 因为这个而做出了 Hadoop ）的诞生问世已有 10 年了，在这段时间里，大数据的基础设施层已经逐渐成熟，一些关键问题也得到了解决。

但是，基础设施领域的创新仍然富有活力，这很大程度上是得益于可观的开源活动规模。

2015 年无疑是 Apache Spark 之年。自我们发布上一版大数据版图以来，这个利用了内存处理的开源框架就开始引发众多讨论。自那以后，Spark 受到了从 IBM 到 Cloudera 的各式玩家的拥护，让它获得了可观的信任度。 Spark 的出现是很有意义的，因为它解决了一些导致 Hadoop 采用放缓的关键问题：Spark 速度变快了很多（基准测试表明 Spark 比 Hadoop 的 Map Reduce 快 10 到 100 倍），更容易编程，并且跟机器学习能够很好地搭配。

除了 Spark 以外，还出现了其他的一些令人兴奋的框架，比如 Flink、Ignite、Samza、Kudu 等，这些框架的发展势头也很好。一些思想领袖认为，Mesos（数据中心资源管理系统，把数据中心当作一台大计算资源池进行编程）的出现也刺激了对 Hadoop 的需求。

即便在数据库的世界里，新兴的玩家似乎也越来越多。多到市场已经难以承受的地步，这里发生了很多令人兴奋的事情，从图形数据库（如 Neo4j ）的成熟，到专门数据库的推出（如统计时序数据库 InfluxDB），乃至于 CockroachDB 的出现（受 Google Spanner 灵感启发诞生的融合了 SQL 与 NoSQL 长处的新型数据库）。数据仓库也在演变（如云数据仓库Snowflake）。（中国也有很多公司开始加入数据库基础创新的行列。）

大数据分析：现在跟AI结合了

大数据分析过去几个月出现的一股趋势是，越来越关注利用人工智能（形式和风格各异）来帮助分析大规模的数据，从而获得预测性的洞察。

其实最近出现复兴的 AI 很大程度上算是大数据的产物。深度学习（最近受到关注最多的 AI 领域）背后的算法基本上是几十年前就诞生了的，但直到最近能够以足够便宜、足够快速地应用到大规模数据之后才发挥出了它的最大潜能。AI 与大数据之间的关系如此紧密，以至于业界专家现在认为 AI 已经令人懊恼地“与大数据陷入了热恋当中”。

不过反过来，AI 现在也在帮助大数据实现后者的承诺。

分析对 AI /机器学习越来越多的关注也符合大数据下一步演进的趋势：现在数据我都有了，但究竟从中能得到什么样的洞察呢？

当然，这件事情可以让数据科学家来解决，从一开始他们的角色就是实现机器学习，否则的话就得想出模型来发现数据的意义。但是机器智能现在正在逐渐发挥辅助数据科学家的作用—只需要倒腾数据，新兴的产品就能从中提炼出数学公式（如 Context Relevant）或者自动建立和推荐最有可能返回最佳结果的数据科学模型（如 DataRobot）。一批新的 AI 公司提供的产品能够自动识别像图像这样的复杂实体（如 Clarifai、Dextro），或者提供强大的预测性分析（如 Hyper Science）。

同时，随着基于无监督学习的产品的传播和改善，看看它们与数据科学家之间的关系如何演变将非常有趣—将来这两者是敌还是友呢？AI 当然不会很快取代数据科学家的位置，但预计会看到数据科学家通常执行的更简单一点的工作越来越多的自动化，从而可以极大提高生产力。

但不管怎样，AI / 机器学习绝不是大数据分析唯一值得关注的趋势。大数据 BI 平台的普遍成熟及其日益增强的实时能力也是一个令人兴奋的趋势（如 SiSense、Arcadia Data 等）。

大数据应用：真正的加速

随着一些核心基础设施的挑战得到解决，大数据应用层正在快速构建。

在企业内部，已经出现了各种工具来帮助跨多个核心职能的企业用户。比方说，销售和营销的大数据应用通过处理大规模的内外部数据来帮助找出哪位客户可能会购买、续约或者流失，且速度越来越实时化。客服应用帮助个性化服务。人力应用帮助找出如何吸引和挽留最好的员工等。

专门的大数据应用几乎在任何一个垂直行业都有出现，从医疗保健（尤其是基因组学和药物研究）到金融、时尚乃至于执法。

从很多方面来看，我们仍然处在大数据现象的早期发展阶段。尽管已经花费了数年时间，但减少基础设施来存储和处理大规模数据还只是第一阶段。AI /机器学习已经成为大数据应用层的一股迅猛趋势。大数据与 AI 的结合将会推动很多行业的惊人创新。从这个角度来说，大数据的机会也许要比大家想象的还要大。

2016大数据版图：未来的机会在哪里？

2016大数据版图

企业技术=艰苦工作

延伸阅读

祝贺蓝湖资本天使轮领投企业—物理AI第一股Momenta（6880.HK）今日挂牌港交所

2026年二季度，蓝湖资本被投企业的业务进展

蓝湖资本荣登36氪「2026中国股权投资行业创业投资机构CHINA100」