1. 首页
  2. 资讯

【技术分享】大众点评数据平台架构变迁

存储和计算有的是GreenPlum GreenPlum采用双集群热备,一大一小,累积关键报表数据一起在另另还还有一个集群存储、计算。 传输:公司的DBA同学将数据从Mysql、SQLServer拉出来,落地成文件。传输任务管理器每天三更三更半夜解析落地的文件,但会将数据load到greenplum 调度:使用Quartz框架,依赖关系存里装表中,将依赖检查做成另另还还有一个脚本,下游job 调用最好的土法子check上游任务否是完成 监控:用户任务管理器自主判断异常,邮件手机报警。

1. 有了明确的模型分层:

4. 开发了许多自定义的UDF

时间:2015-11-11 08:05来源:人人有的是产品经理作者:网友见面见面点击:

1.3 数据应用:

有了明确的上层数据集市,各层数据集市打通,类式团购数据和流量数据打通 形成了用户集市、商户集市两大主题 和算法团队企业商务合作建设推荐系统 提供框架和工具支持,引入实物数据开发者

建设Redis Cluster,支持实时推荐、用户画像等服务 Hadoop升级到YARN 引入Storm支持实时计算 推出类Kafka的分布式消息系统,结合日志框架,支持日志数据的快速/低成本接入 建设元数据中心

3.2 架构:

3.1 数据:

ODS:存放从原系统派发来的原始数据 DW:保存经过清洗,转换和重新组织的历史数据,数据将保留较长时间,满足系统最细粒度的查询需用 DM: 数据集市。基于部门或某一特定分析主题需用 RPT:直接面向用户的报表

3.0(2013.12)

4.1 数据:

2. GREENPLUM作为HIVE的“cache”所处,供用户做许多小数据的快查询,报表存储。

3. 基于volocity开发了canaan计算框架。

报表数据以邮件的形式发送给用户 用户需用使用自定义sql的web查询工具主动查询数据

1. 存储和计算都基于HIVE

6. 传输:

2.0(2013.04)

4.0(2014.12)

7. 监控:但会任务数量增长较快(30000+),运维但会是个大现象此外,但会,朋友花了较大精力做了可视化的工作:

4.2 架构:

4. 主数据:保存了数据仓库元数据信息,供用户查询和系统实物各个模块交互。

3.3 数据产品:

持续扩充/完善数据模型 数据规范化,主要包括:APP日志、渠道 完善数据开发平台,许多部门数据开发者3000+

3. 调度:和canaan框架进行整合,支持用户快速新增任务,并自动导入任务依赖。

支持DashBoard

2.3 数据应用

运营工具:用户自定义SQL,存储基于HIVE 指标(KPI):用户自定义SQL,计算基于HIVE,结果里装GREENPLUM中,用户需用根据指标通过时间拼接成报表 HIVE WEB:非常便捷的HIVE WEB工具,可用性需用甩hive原生的web界面HWI十几个街了

2. 形成了流量、团购、信息三大基础模型及构建于三大基础模型之上的数据集市

5. ACL:构建了数据仓库数据访问权限控制,包括用户权限申请、审批者审批、数据赋权等。

2.2 架构

来源:IT瘾

参考阿里DataX的设计,实现了点评的异构数据离线传输工具wormhole 可视化界面,用户通过界面操作,方便的将数据导入导出数据 和调度、主数据等系统打通

以支持用户报表需求为主 初步沉淀出了许多底层模型 模型计算任务管理器以python为主

以下从 数据&架构&应用的深层对2012.07-2014.12期间大众点评数据平台的架构变迁做另另还还有一个概括性的总结,希望对还所处数据平台发展初期的同学有许多帮助,欢迎线下沟通。

2.1 数据:

引入mysql、hbase,支持线上服务 数据访问接口支持:API、Query Engine、RPC Service 引入shark支持临时查询,出于稳定性考虑,牺牲性能,shark/spark集群和hadoop/hive集群物理隔离 数据质量:用户指定以条件,对计算结果做检查

1.1 数据:

推出专有数据产品,包括:运营效果评估、流量分析产品等。

1.0(2012.07)

1.2 架构:

最近和许多公司的同学对数据平台的发展题做了许多沟通,发现个人所有所有遇到的大现象都类式,架构的变迁有的是一定的类式性。

本文来自投稿,不代表赢咖2立场,如若转载,请注明出处:http://www.zfxindai.cn/zixun/1410.html