hwyzw 发表于 2025-2-26 08:43:48

阿里EB级数据价值最大化:数据服务与产品开发平台的创新组合

    数据服务能够发挥作用,数据产品开发平台也能够发挥作用,它们通过有机的组合,将阿里 EB 级数据的价值发挥了出来。数据服务通过规范 DSL 标准,将 Query、Push、DAG 编排等进行组合,对外提供了单一接口,可动态化查询所有数据。它与实时计算平台打通,能使数据秒级触达应用,具备平均 RT 小于 5 毫秒的数据获取能力。除了输出基础数据指标外,还实现了在基础服务能力之上提炼的动态逻辑、挖掘、算法能力的服务化输出,从而完成了数据在业务间的全域流通。

    数据产品开发平台对阿里数年复杂业务场景进行了实践和抽象。它凭借变和不变的架构设计思路以及跨端的大数据,提供了一套开放平台,非开发人员可自助使用该平台来满足阿里绝大多数数据产品需求。此平台能实现跨 PC、手机、大屏的多端功能,还能提供数据分析能力、报表配置能力、产品配置能力和产品开发能力,从而解决非开发人员自助完成看数据、分析数据、使用数据的需求,最终实现数据对业务的直接赋能。

    ↓详情参看下文实录+PPT↓

    { Part1 }

    数据赋能的背景

    ▊总体来看,阿里巴巴的生态可以分为六个业务板块:

    阿里巴巴通过电商、物流、健康、文娱、金融以及云计算这些业务,服务了数亿用户,服务了上千万的小微企业,也服务了上千万的商家。在我们提供业务服务的过程中,截至目前,我们已经沉淀的数据量达到了 EB 级规模。

    我们借助全域数据体系,建设了这些数据,将不同业态的数据进行了融合,并且把它们相互链接起来。

    下面这张图,勾勒了阿里巴巴大数据体系。

    【图:阿里巴巴大数据体系】

    从下往上进行观察,最底层的部分是全域数据。第二层是基础数据建设,其中包含了人工智能的某些算法。在基础数据建设之上,分别存在着各种数据服务以及数据产品开发平台。

    从图中我们能够发现,我们的数据产品以及服务,是借助各类不同的应用场景来实现服务阿里小二、阿里商家、消费者以及合作伙伴这一目的的。

    数据服务和数据产品开发平台与应用场景强相关且直接连接。它们的主要作用是将底层建设好的数据和算法,生产成能够直接赋能业务和用户的应用。

    { Part2 }

    数据服务和数据产品开发平台的关系

    数据服务与数据产品开发平台的关系如同齿轮那般,它们彼此相互依存,构成了一个整体。

    为什么这么说?

    ———————

    ▊从业务角度来看:业务使用数据有两个最核心的场景:

    业务本身对数据有需求。在此情况下,业务会借助数据服务来直接获取所需数据,此为第一个场景。

    第二,业务中的运营人员和分析师,他们需要借助数据来提升数据赋能的效能。在这种情况下,运营和分析师会利用相应的数据产品去使用数据。因此,数据产品开发平台承担着主要的职责。

    所以通过这两个核心的数据赋能业务的场景,我们能够发现数据服务与数据产品开发平台之间存在着相关依存的关系。

    3. 有助于推动数据产品的开发和创新,提升企业的数据竞争力。

    https://img1.baidu.com/it/u=2387356256,4036897921&fm=253&fmt=JPEG&app=138&f=JPEG?w=1066&h=500

    首先,通过这样的一个组合,能够打破业务之间的数据壁垒。需要强调的是,这里打破的并非底层的数据壁垒,而是业务之间的数据壁垒。因为 6 大业务板块所产生的数据,在形态、含义和结构上都存在很大差异。在底层完成整个数据打通之后,打破壁垒的目的是在业务层上,让数据能在各个业务间如同水一般流通。

    第二,满足灵活多变的数据需求。

    第三,实现全域流通和按需自助。所有用户能够通过按需自助的方式完成相关操作,无需专业开发以及产品的介入。

    { Part3 }

    数据服务介绍

    ▊数据服务主要由四个核心能力组成:

    基础数据服务主要提供基础数据能力,能够实现上万数据指标跨域获取。

    其次,有标签画像服务。利用这个服务,能够给用户提供数量达上百个的标签来进行刻画。

    第三,人群透视服务。此服务是对标签智商的提炼。在营销场景中,接入该服务,就能实现人群的圈选等操作。

    第四,存在算法模型服务。这种服务以一键服务化的方式,能够将算法能力通过服务展现出来。

    【图:数据服务的架构】

    上图展示了数据服务的架构。

    从上往下看,有一个门户。通过这个门户可以发现,在整个阿里巴巴公共层中,有多少基础指标能够被获取。同时,这些指标现在已经被哪些业务部门以何种方式获取了。

    用户按照同样的方式,就能够获取到相应的数据,这样能极大地缩短用户发现数据的路径,也能缩短获取数据的路径,还能缩短使用数据的路径。

    中间这层为 DSL。我们借助 DSL 统一了用户获取数据的标准和规范。在整个 DSL 之下,存在一些大的核心能力,包括实现所有与查询相关的能力输出,提供实时数据推送的能力,实现 DAG 可视化以及可配置编排业务逻辑,还能输出算法和人工智能的能力。

    【图:DSL&DAG实例】

    ▊现在,我们的数据服务的主要有三大应用场景:

    第一是阿里集团内部,诸如搜索、推荐、营销等场景;

    第二是数据大屏。大家在双 11 看到了酷炫的大屏,而这个大屏实际上是通过数据服务得以实现的。

    第三是商业化数据产品,其中生意参谋是商家熟知的。它所展示的数据是通过数据服务来达成的。

    { Part4 }

    数据产品开发平台

    https://img1.baidu.com/it/u=4137624529,2555544892&fm=253&fmt=JPEG&app=120&f=JPEG?w=500&h=840

    我们构建数据产品开发平台的最核心目的在于,能够让并非专业的开发人员,依据自身的需求,去搭建数据产品,以此实现他们使用数据的目的。

    ▊那么数据产品开发平台,它主要对外提供了四个能力:

    第一,用户可以完成数据分析;

    第二,用户可以去自助实现报表配置;

    第三,非开发人员可以利用它去实现产品配置;

    第四,开发人员能够利用它来开发一些更为复杂的、更具个性化的以及更定制化的数据产品。

    从具体方面来看数据产品开发平台的架构,整个架构的核心能力依旧是由两部分构成的。一部分是应用端,另一部分是服务端。

    DSL 处于应用和服务之间。所有的应用和服务,最终都要依据 DSL 标准来进行配置。构建完成的应用和服务,并非独立运行的实体,而是一个配置,渲染引擎、执行引擎等能够加载并运行这个配置。通过构建引擎生成配置,以实现不同国家、不同机房、不同终端都能运行的目标。

    事实上,整个数据产品开发平台的构建思路主要有两个方面。一方面是要明确什么是变的,另一方面是要明确什么是不变的。

    其实我们只要能够对数据使用过程进行分析,就能够分解出变和不变这两个要素,进而能够比较快速地解决问题。

    举个例子:对于一个应用,我们怎么来分解变和不变两个要素。

    应用的布局是不变的,样式是不变的,分析思路也是不变的;而应用中的组件,有的可以是一个图表,有的可以是功能区域,还有的可以是一个不可见的逻辑,这些是变化的。

    分析一个组件:组件的类型和属性保持不变;然而每个组件所能表达的数据是可以变化的;同理推导数据:对于一个数据而言,其格式和权限是不变的;但从哪个服务可以获取到该数据是可以变化的。

    最后到服务这一层,服务由两部分构成。一部分是通过 SQL 获取的原始数据,另一部分是业务逻辑。通过业务逻辑对原始数据进行加工和编排,最终以服务化的方式,将数据开放给上层应用。

    我们了解思路之后,接着来看整个平台的构建过程。这个过程分别有在应用端的构建引擎以及在服务端的构建引擎。

    同理,服务端也是如此,非开发人员通过输入 SQL 和一些业务逻辑的实现,就能够生成一个基于 DSL 描述的服务。在应用层,上述的服务是可以实现PC、无线和大屏的跨端。

    在使用过程中,有一个使用过程的示意,即通过两个引擎,分别是渲染引擎和执行引擎。

    它们会去加载由 DSL 描述的应用和服务,接着进行交互,从而完成整个产品的实现。

    ▊数据产品开发平台在阿里的应用对象主要是四块:

    首先是业务运营。在日常运营过程中,运营人员能够借助这个平台,自行去生成所需的产品。

    第二是决策分析方面,分析师会对行业进行业务分析指导。他们能够借助整个平台,使用并开发自身的数据分析产品,以此来完成决策分析。

    第三是后端营销其实也可以通过它来搭建产品;

    最后是刚才提及的生意参谋。它是通过这个平台来开发商业应用产品的。目前已经累计为 2 千万商家提供了服务。
页: [1]
查看完整版本: 阿里EB级数据价值最大化:数据服务与产品开发平台的创新组合