离线与实时标签处理：MaxCompute、云Spark、云HBase与OTS的ETL与用户画像构建

hwyzw 发表于 2024-12-20 17:14:15

离线标签：按照给定逻辑进行sql编码，+云spark+云hbase（后替换为ots），每天或每小时进行ETL清洗，更新标签信息。

实时标签：kafka+blink++表存储（OTS），标签信息实时更新。

3、负责主键设计，MD5()加密取前四位然后拼接，防止数据热点；

4. 建立二级索引。第一阶段是通过云hbase+内置solr实现的。第二阶段改为表存储OTS+多索引功能。主要用于人群筛查。

业绩：主导并落地用户画像基础功能服务，为业务赋能用户洞察、精准营销、广告投放。

时间：20xx.4-20xx.7

项目名称：幻影大师简历项目2

项目角色：数据开发

由于公司IDC机房自建CDH面临运维成本高、稳定性差、使用复杂繁琐等问题，决定将现有数据仓库迁移到阿里云大数据一站式解决方案（ODPS）上，借助云平台的天然优势，让公司的人力资源更多地向数据服务倾斜，大大降低了自建数据仓库高昂的运维成本，解放了人力。同时，离线计算已经不能满足越来越多的时间敏感需求，还需要构建实时的Data通道，即架构的数据仓库：

工作内容：

1、负责批量创建HDFS数据迁移任务，并使用ODPS迁移工具将原hive上的全部数据迁移到odps上；

2、参与部分业务线数据仓库的重构，即重新梳理业务模型，按照业务主题领域进行建模，ods/dws/dws/ads的分层架构；

3、负责搭建实时数据通道、业务研发，将App或小程序端的用户埋点数据输入消息中间件kafka。在此基础上，基于Blink，将用户埋藏数据进行扁平化、分析并存入数据库（odps）。同时关联其他维度表做一些实时计算和统计，比如新老客户、DAU等实时指标。

成果：整个数据仓库迁移到云端，大大节省了运维成本。同时，腾出人力专注于数据应用服务。同时优化了数据仓库结构，将原来的离线计算模式转变为离线+实时的lamda架构。初步满足业务对时间敏感的数据服务的需求。

时间：20xx.6-20xx.12

https://img1.baidu.com/it/u=1604750388,1615971567&fm=253&fmt=JPEG&app=120&f=JPEG?w=1253&h=500

项目名称：幻影大师简历项目3

项目角色：数据开发

公司风控部门成立初期，没有一套完整的数据仓库。所有数据分析师都直接从业务数据库中获取数据。他们面临着取数据效率低、周期长、跨库查询、拖累业务数据库等问题。为了解决这些问题，并提供更多的数据服务，需要构建标准的数据仓库模型。

工作内容：

1、参与搭建基于开源大数据CDH版生态组件的大数据平台（50个节点）；

2、数据库分层设计，主要设计ods、dwd、dws、ads层；

3、业务数据库数据（主要是mysql）通过sqoop导入到hive数据仓库，少量mongo数据库数据通过自带工具导入到hive数据仓库；

4、使用oozie调度工具定期进行ETL数据处理和清洗；

5、利用监控作业任务状态实时监控作业运行状态，异常报警发送至钉钉群消息；

6、构建分析工具，为数据分析师提供便捷、强大的大数据分析工具。

成果：大大缩短了数据分析师的数据检索周期，也解决了跨库检索的痛点，为数据分析师提供了多元化的报表数据服务和数据分析服务。

时间：20xx.12-20xx.2

项目名称：幻影大师简历项目4

项目角色：数据开发

设计基于随机森林的贷款违约率风险评估模型，旨在确定贷款申请客户的违约概率，为风险控制决策提供相关判断依据。该模型利用历史申请人信息以及当前数据仓库中2000多个外部和内部标签，通过特征工程（数据预处理、特征选择、降维等）提取最相关的客户标签进行训练，随机森林模型为用于实现客户违约概率数据的输出，为客户的贷款风险控制决策提供必要的依据。

时间：20xx.5-20xx.5

https://img1.baidu.com/it/u=3413672113,1091898059&fm=253&fmt=JPEG&app=120&f=JPEG?w=755&h=500

项目名称：幻影大师简历项目5

项目角色：数据开发

参与数据分析平台的基础设施建设、表设计、数据处理、编码，使用大数据开源组件（hdfs、spark、hive、sqoop、oozie、）提供数据融合、离线计算、实时对公司贷款业务进行监测预警功能，并为各部门提供各类数据报表，开发业务分析中间表，极大地为风控业务人员获取数据提供了便捷的途径，方便销售人员发现新的特点和新规则的风险控制。和验证。

时间：20xx.5-20xx.7

项目名称：幻影大师简历项目6

项目角色：数据开发

风控规则需要从历史数据中检测贷款申请人的申请信息是否符合当前历史贷款申请数据中的某些风险规则。因此，需要实时、快速地返回历史数据对比结果。本系统使用kafka，作为实时流的入口，使用hbase作为底层数据库，从实时应用信息中提取对应的关键信息，快速查询并插入到hbase数据库中，最后将结果返回给实现历史数据的快速验证。

时间：20xx.3-20xx.5

项目名称：幻影大师简历项目7

项目角色：数据开发

由于旧的历史巡检系统作为数据仓库，无法满足长期跟踪流程（即订单号从采集到下达的整个生命周期的状态）快速、高效查询的要求。收据）。并发查询，所以采用了+hbase的方案来解决上述问题。所有源数据均使用公司自己的 etl 工具提取到 hd。在fs中，在()中进行各种复杂的关联和映射，最终生成单数的生命周期数据，设计key值，然后放入hbase中。现在无论多久之前都可以查询单个号码。时间在毫秒级别，并发查询量也中规中矩。每秒可提供5000个订单号查询。

自我评价

1. 7年研发经验（2年Java研发+5年大数据研发经验）

2、熟悉/Hbase/Hive/Spark/Flink/kafka等主流开源分布式大数据组件；熟悉阿里云大数据开发平台（原ODPS）；熟悉数据仓库分层体系建设、学科领域模型设计、数据仓库标准化落地后参与企业级大数据平台建设，熟悉使用和性能优化，熟悉Linux系统操作，熟悉基于spark开发在斯卡拉上。

页: [1]

【华网优展网】's Archiver

离线与实时标签处理：MaxCompute、云Spark、云HBase与OTS的ETL与用户画像构建