数据湖应用主要分布于泛互联网(电商、网络广告、社交媒体、游戏、互联网金融等)、泛政务(智慧城市、智慧政府、交通等)、金融(银行、保险等)、工业(工业互联网、能源、制造等)、医疗(基因、影像治疗、诊断等)、汽车(车联网等)以及零售、运营商等其他行业。
腾讯主导发布了Hadoop 2.8.4、2.8.5、Spark 2.3.2和Ozone1.0等,也是多个项目的核心贡献者,包括Hadoop 、Spark 、Alluxio、Iceberg、HBase、Hive、MXNet、Parquet等。
腾讯云参与多项工委会信创标准和案例评选工作,作为唯一金融大数据解决方案入选《2020年信息技术应用创新解决方案》。与多家国产服务器、国产芯片和国产操作系统厂商建立合作,并进行适配改造,国产化生态丰富。
基于Lambda框架搭建的数据处理和分析平台,两套独立实现,维护成本高。业务数据不断变化,业务方每天将业务数据全量导入到数仓中一次,但是频繁导入数仓会造成极大的业务压力,数据应用时延为T+1。同时缺乏高性能的交互式查询引擎,对于海量数据的查询时间在分钟级(分钟-数十分钟),无法对接报表工具进行高效分析。离线链路问题:整体方案是t+1,不能解决时效性问题。Clickhouse 不支持ACID事务,通过外部逻辑保证clickhouse中数据不重复,流程加长。实时链路问题:使用Oceanus ,计算后把指标数据落地到mysql,一旦指标增加和变化,Oceanus应用计算逻辑需要修改。
主要目标:实时数据湖取代以hive为主的离线数据湖,统一存储、统一数据查询和服务,该阶段主要关注点:批流融合。