入选首个Forrester云数仓研究报告，“后起之秀”DataWorks有何魔力?

日前，全球权威IT咨询机构Forrester发布最新研究报告The Forrester WaveTM: CloudData Warehouse, Q4 2018，对云数据仓库从各个维度进行综合评判，帮助企业选择最佳解决方案。其中，阿里云DataWorks、MaxCompute、ADB等三款产品成功入选，并在产品功能(Current Offering)方面力压微软，杀入前七。

这是Forrester Wave首次发布关于云数仓解决方案(Cloud Data Warehouse，简称CDW)的测评。2017年和2018年的Q2，Forrester分别发布过BigData Fabric和Big Data Warehouse的研究报告，其中对Big Data Fabric的定义为：

在2018年3月，Forrester发布了题为Now Tech: Cloud Data Warehouse, Q1 2018的前瞻性报告，首次提出了CDW的概念：

An on-demand, secure, and scalableself-service data warehouse that automates provisioning, administration,tuning, backup, and recovery to accelerate analytics and actionable insightswhile minimizing support requirements.

—— 一种按需使用的、安全的、可扩展的自助式数据仓库，通过自动化的部署、管理、调优、备份、恢复加速数据分析过程，同时将技术支持需求降到最低。

既然是首个Forrester云数仓报告，我们就来聊聊报告的标准，另外依据标准维度来看看DataWorks背后的魔力。

先谈谈标准

在本次发布的研究报告中，Forrester进一步阐述了CDW应具备的核心能力：

· 快速部署：允许客户通过图形化操作，在数分钟内完成数仓的搭建或扩缩容;

· 一键数据上云：对于已有私有数仓的客户，提供便捷的迁移工具，能够自动完成表结构创建、数据传输加载、宽表合并的动作;

· 支持多种分析洞察场景：例如IoT客户端采集处理、异构数据源关联分析、即席自助查询等场景;

· 较低的软硬件成本：相较于私有数据仓库，可节省20%至80%的客户成本，同时支持存储、计算费用分开结算。

报告同时指出，相比于传统的Big Data场景，CDW需要支持的使用场景更加多样，从原先简单的数据加载、报表展示，到更加复杂的客户行为分析、风险控制、反欺诈、IoT分析等更加贴近业务的场景。

本次测评，Forrester从功能覆盖、战略规划、市场规模三个维度出发设计了25项指标，结合历史研究、厂商自评、用户调研、专家打分。

大数据计算的集大成者

从Forrester对CDW核心能力的定义中可以看出，功能覆盖全面，满足客户全链路、全场景的需求，是对CDW的核心要求。事实上，由于主流的CDW解决方案，通常由PaaS化的计算引擎演化而来，在计算性能、可扩展性等方面有相当的技术储备，但是对于数据上云、多种分析场景全覆盖、以及数据治理的需求，难以提供工具来进行覆盖。

例如，大家熟悉的AWS Redshift，不仅提供了大容量、高可靠的数据仓库服务，更提供了数据迁移产品来辅助用户将数据迁移上云。但是，仍然在数据集成容量方面得分不够理想。

再比如，大数据的先驱Google BigQuery，HBase即参照其底层存储BigTable设计，不仅自身提供了强大的离线、实时数据处理服务，更整合了Google Cloud Storage、Google Drive等基础设施，覆盖了异构组合查询的需求场景，但是仍在用户入门、数据管理工具、工作流设计工具等方面不尽如人意。

不仅是AWS、Google这样的巨头，缺少开发设计工具、缺少管理运维工具，Oracle、Azure、Hotonworks、Pivotal等老牌大数据、云服务公司的解决方案，在功能场景的广度上，都不约而同的暴露出了短板。

DataWorks是阿里巴巴集团沉淀多年的一体化大数据研发平台，基于MaxCompute、Flink、ADB、PAI等计算引擎，提供了从离线计算，到流式处理覆盖了从数据汇聚、数据研发、数据治理到数据开放共享的整条链路。

DataWorks提供的DataStudio组件，提供了媲美客户端IDE的开发体验，从代码提示、自动补全，到结构化SQL视图、代码全局搜索、SQL模板共享，极大的提高了数据开发者的工作效率;

DataStudio深度集成的数据集成组件，可将数据同步节点与SQL节点混合编排，支持20余种不同数据源的读写，且提供整库上云、多库批量上云的快速迁移功能;

其提供大监控运维组件，内置了沉淀多年的基线监控算法，只需设定数据产出节点，即可自动推断其他任务的监控阈值，实现智能监控;

DataWorks还提供了数据资产管理、数据质量管理、数据安全等组件，提供客户一站式的数据治理解决方案。

在整个数据链路的最上层，DataWorks还拥有数据服务组件，支持客户通过简单的配置，将数据表转变为查询API，满足各种业务场景的对接需求。

布局未来：支持AI/ML算法

CDW广阔的使用场景给了给家厂商无穷的想象空间。在深度学习全民化的浪潮下，将对AI/ML算法的支持引入CDW是大势所趋。Google、IBM、MarkLogic等入选厂商都不约而同的将AI/ML概念加入到了战略规划之中。

一般来说，CDW对AI/ML算法的应用，主要包含三种方式

· 训练AI/ML模型：通过CDW开发调度工具，将数据的获取、整理、汇总的过程与模型的训练过程联动起来

· 使用AI/ML模型处理数据：数据在CDW的处理过程中，可以调用AI/ML模型，完成诸如分类、预测、模式匹配等常见SQL无法完成的操作

· 使用AI/ML模型管理数据：在海量数据集面前，传统的数据治理方法论需要智能算法的加持，实现数据的自动化管理

在这方面，DataWorks可谓走在了业界前列。首先，DataWorks深度集成阿里云的机器学习平台PAI，可以直接在数据加工业务流程中插入机器学习实验，既可以将数据加工与模型训练联动，又可以直接在数据加工过程中应用算法模型。

其次，DataWorks的各个模块使用了大量机器学习算法，减少数据治理过程的人工介入：

· 智能监控模块：通过算法分析数据加工流程，识别链路上的瓶颈节点，智能判断故障的影响范围

· 数据质量模块：通过43种统计算法，识别数据质量问题，并及时阻塞下游加工流程，防止数据污染

· 数据安全模块：内置模式识别算法，可以直接通过数据内容，匹配识别出地址、身份证号、银行卡号等敏感信息

当然，除了AI/ML算法的支持和应用之外，DataWorks还在致力于向更广阔的业务场景延伸。除了操作离线数据的DataStudio之外，FlinkStudio定位于流式计算过程的开发，FunctionStudio提供便捷的自定义函数(UDF)开发能力，通过CloudAppStudio快速开发的数据应用则用来补齐从数据到业务的“最后一公里”。这些组件，都正在被逐步纳入到DataWorks生态体系中来。

公共云赋能

市场规模是Forrester评价体系的重要维度。Forrester不仅从客观上判断产品的普及程度，更通过访谈等方式获取用户的主观评价，尤其是Forrester咨询订阅用户，他们的需求与意见更是至关重要。

对CDW这样的企业级生产工具来说，无疑应该适配多种客户的不同需求。在本次测评的25项指标中，对这一点提出了非常高的要求：

· 必须在公共云面向所有用户提供服务，且必须在2018年6月前上线

· 必须拥有25家以上付费客户，且必须分布于多个国家或地区

· 在过去的12个月内多次被受访客户提及

DataWorks自2009年开始服务阿里巴巴集团内业务，近10年来几乎服务了阿里巴巴经济体内的所有业务，积累了大量的实践经验。

从2013年开始，DataWorks登陆阿里云，向公共云客户提供服务，目前已在全球18个Region上线，注册客户逾3万家。

2015年开始，专有云平台ApsaraStack Enterprise搭载DataWorks，至今已服务超过130家政企客户，尤其是支撑了几乎所有的“城市大脑”项目，承载公安、交通、工业物联网等多种复杂计算场景。

结语

从Forrester的本次研究报告可以看出，大数据技术已经进入CDW阶段，需求重点从原先的“能不能”，向自助式、智能化、面向业务的纵深发展。大数据技术的竞争，已经不再是性能、容量的比拼，而是一站式综合解决方案的沉淀。

DataWorks作为阿里巴巴CDW体系中直接面向开发者的研发平台，沉淀了多年跨行业的数据加工、数仓管理、协作开发的最佳实践，横向上覆盖离线计算MaxCompute、实时计算Flink、机器学习PAI三大计算引擎，纵向上打通数据集成、数据研发、数据治理、数据开放共享、数据应用开发整条链路。

* 登陆名：
* 密码：

* 登陆名：	您希望我们怎样称呼您？
* 密码：
* 密码确认：

入选首个Forrester云数仓研究报告，“后起之秀”DataWorks有何魔力?

相关阅读: