大数据是传统互联网客户的核心业务,是产业互联网数字化转型必由之路,公有云厂商都在加速布局。
客户希望云厂商能够解决大数据场景下的性能、成本、运维等问题
针对大数据分析场景,需要COS提供性能加速能力
腾讯云在大力推广数据湖解决方案,帮助客户技术转型。面向大数据业务场景:推荐系统,数字化运营,用户行为分析,风控系统,预测系统。 方案价值:云原生:serverless架构,免运维;流批一体:通过Table Format(Delta Lake,Hudi,Iceberg)支持流批一体;数据共享:打通大数据、AI、BI,消除数据孤岛;高性价比:弹性、按需扩容; 一站式:多元化的数据分析引擎。
计算端缓存加速:多协议支持:HDFS/FUSE/S3;云原生: 容器化部署/EMR集成;多级缓存:RAM/SSD/HDD;云生态:云监控/云日志/统一鉴权。
Data Cache: 支持Hive Table Level预热,面向业务加速;支持Iceberg Table Leve预热;支持Prefix Level预热,按目录加速;支持多种数据缓存淘汰策略, LRU/LRFU/TTL;支持缓存数据同步/异步写入COS; Metadata Cache:避免了大量的list operations;提高了Metadata 访问性能。
GooseFS Master: 部署在EMR Master节点,HA部署方式,Master高可靠;一个Master作为Leader,其他Master Standby;通过shared journal确保数据一致性;RocksDB作为Metadata Store,支持海量inode; GooseFS Worker: 每个EMR Core Node部署一个 GooseFS Worker;支持Data Locality;根据计算引擎的调度来Cache对应的 业务数据。
GooseFS Master:部署在Master节点,HA部署方式, Master高可靠; 一个Master作为Leader,其他Master Standby;通过shared journal确保数据一致性;RocksDB作为Metadata Store,支持海量inode; GooseFS Worker:每个GPU Worker Node部署一个 GooseFS Worker 同TF Worker部署 在一个Node;支持Data Locality;根据计算引擎的调度来Cache对应的 业务数据。
GooseFS Master:HA部署方式,Master高可靠; 一个Master作为Leader,其他Master Standby;通过shared journal确保数据一致性;RocksDB作为Metadata Store,支持海量inode; GooseFS Worker:通过DaemonSet,确保每个TKE Worker Node部署一个GooseFS Worker Pod;支持Data Locality;根据计算引擎的调度来Cache对应的业务数据。
数据在1PB以下,采用数据湖、本地盘成本区别不大;达到 1PB的时候,出现拐点,数据湖成本优势显现;当数据量持续增长后,本地盘HDFS成本增长迅速,数据湖成本优势显著,对比本地盘HDFS有巨大优势。
支持流式数据通过Table Format(Delta,Hudi,Iceberg)直接写入COS对象存储,并提供Record Level updates and Deletes能力;支持主流计算分析引擎Spark,Presto,Flink,Hive,提供近实时数据分析和查询能力;实现流批一体数据分析平台。
数据加速提供Tbps级别带宽资源,ms级别时延,加速大数据、AI业务处理速度
主要功能:AZ Locality;专有加速域名访问资源;缓存数据强一致;可以加速Bucket,或者prefix;同一个Bucket,支持多个加速器;支持存量Bucket,随时 Enable/Disable;如果miss cache,从COS回源。
加速能力:Date 加速;读加速 加速流程: ① COS Requests到CGI(COS Gateway Interface) ② CGI根据Prefix路由到对应的AZ COS加速 器;如果对应的Prefix没有被加速,直接 路由请求到COS; ③ 写入请求:Object先写入COS,成功后, Cache到COS加速器中; ④ 读取请求:如果COS加速器中没有对应的 Object,从COS中读取,并Cache到COS 加速器中;如果COS加速器中已经有对应 的Object,直接返回Cache中的数据
提供文件系统级别元数据能力,加速 Rename、List等操作,解决大数据、AI业务在对象存储上的元数据QPS瓶颈问题。主要特性:文件系统级别元数据操作;提供Rename API,Rename无需Copy / Delete数据,直接在Metastore完成;List、Head操作,直接查询Metadate Store,避免对象存储QPS问题;性能:10万 QPS; Limitations:支持10亿级别Objects数量;Enable元数据后,不支持部分COS功能特性(详见产品帮助文档);需要创建新Bucket,不支持存量 Bucket;新Bucket Enable元数据加速后,不支持Disable。
COS Acceleration:Cache Accelerator + Data Accelerator + Metadata Accelerator * 在miss cache的情况下,后端存储提供 10 万QPS 的能力
借助 TStor 对象存储一体机数据自动上云能力,GooseFS在云上、云下提供统一的数据加速平台。IOT数据(车载数据、摄像头数据)上传 到本地数据中心TStor对象存储;本地大数据集群通过GooseFS加速数据 访问,完成数据清洗和标注,生成训练 数据集;TStor自动同步训练数据集到云上COS对 象存储;在云上按需拉起GPU训练集群,通过 GooseFS加速,完成AI模型训练。
训练集群配置: 10 台黑石。黑石配置: 96c, 384g, Nvme-SSD-3.2TB * 4, V100-32GB * 8; 单个训练任务:单机8卡一次训练24小时,可以处理3亿张图片,每张图片 100KB,100 epochs,每个epoch处理300GB数据,数据总吞吐30TB。
灯塔大数据平台: • 最大单集群超过120台 ,整体超过300台机器 • 长稳部署纯读case, 业务不中断 • 单节点读IOPS平均5K- 6K,峰值超过10K