有数大数据基础平台NDH是网易数帆推出的企业级大数据基础平台。该产品基于最新开源技术打造,内置多种存储计算引擎,并对包括Hadoop、Spark、Impala等在内的多个核心组件做了功能及性能增强,新增EasyEagle组件实现智能运维和任务治理,支持企业级安全管控。
结合网易数帆在大数据领域多年的沉淀积累,有数大数据基础平台NDH不仅支持对核心代码的完全掌控,并且适配信创软硬件生态,可以更自主化、便捷化、智能化地提升企业数据运维效率,在加强数据安全保障的同时,筑牢企业数字底座。
Kyuubi:支持企业可以像使用HiveServer2一样开发SparkSQL。
统一接口:接口简单易用,并兼容传统大数据任务,方便用户历史任务迁移。
分布式计算服务:服务支持无限水平拓展,提供高客户端并发能力。
高可用特性:服务支持平滑迁移,滚动升级。
多租户特性:有效的进行计算资源的隔离和共享,提高集群资源的利用率;实现数据和元数据的隔离,保障数据安全。
EasyEagle:提升资源利用率,提高问题诊断效率
运行资源监控:支持集群维度、队列维度以及任务维度的CPU\内存资源监控。
任务资源治理:帮助平台管理员以及用户分别了解队列、任务的实际资源使用率,指导用户对资源浪费严重的大任务进行合理资源优化,提升集群资源利用率。
任务问题诊断:旨在提供快速的错误分析能力,尽量避免让用户去查看大量的原始日志信息,从而加快任务排错。
任务性能优化:系统针对给定任务提供详细的性能问题类别以及优化建议。
HDFSMetaService:应用于数据资产服务,指导数据治理
准实时元数据查询服务:准实时解析HDFS元数据并基于此提供在线查询服务,业务可以查询指定路径的元数据信息、目录结构信息,还可以通过指标过滤查询,比如获取大小超过1T的目录集合等。
HDFS元数据仓库服务:HDFS元仓服务可以统计文件增长最快的目录等,用于指导数据治理。
Impala:Apache社区开源组件,以性能优秀著称的数仓查询引擎。网易数帆在开源Impala基础上进行了大量易用性、高可用性以及稳定性的功能增强元数据自动同步增强:通过订阅Hive元数据服务(Hive Metastore,HMS)的DDL变更日志来自动刷新Catalog中缓存的表、分区和文件级元数据。通过变更日志批量获取、合并和元数据异步加载等方式提升元数据同步性能。
虚拟数仓服务:提供虚拟数仓功能,用于物理资源隔离和算力水平扩展,支持虚拟数仓间资源的分时复用;支持通过Hive JDBC或用户会话进行虚拟数仓选择
查询管理系统:能够收集保存lmpala集群所有的查询信息,自动计算表的统计信息,自动取消慢查询等。基于历史查询建立标准化报表系统,从用户、查询数量、查询性能、扫描数据量、资源使用、查询时间分布、排队耗时等多维度展示集群状态。
多表物化视图服务:支持通过控制台创建单表聚合或多表Join的物化视图,在源表数据更新后支持自动更新物化视图数据。支持对用户SQL进行透明改写使其命中物化视图。
本地缓存服务增强:增强了社区版Impala的DataCache能力,提供了异步CacheFil(缓存读未命中时异步填充缓存数据)、缓存白名单(支持动态设置分区粒度的数据缓存区间)、Footer专用缓存(Parquet/ORC文件的Footer块用于进一步加速Scan性能)、缓存信息持久化(在impalad重启后可继续命中已缓存的数据块)等功能。
用户权限管理增强:支持使用提交SQL的用户账号来进行数据的读写操作,避免社区版Impala使用同一账号操作数据导致权限不一致。增强了社区版lmpala的数据脱敏功能,支持中文数据脱敏。
Coordinator服务高可用和负载均衡特性:支持通过Zookeeper进行Coordinator节点的高可用配置,支持配置多个Coordinator用于高并发场景下的负载均衡。
Hive:基于Hadoop的一个数据仓库工具,是大数据数据仓库的事实标准
Metastore服务高可用和负载均衡特性:解决社区Metastore服务单节点在高负载场景下无法横向扩展进而导致服务过载异常风险。
HiveServer2服务高可用和负载均衡特性:解决社区HiveServer2服务单节点在高负载场景下无法横向扩展进而导致服务过载异常风险。
Spark:大数据领域最流行的计算引擎之一,网易数帆拥有国内为数不多的内核研发团队
Z-Order支持:支持通过Z-Order算法对多维数据进行分区排序,使得数据保持优秀的分布聚集,从而在查询侧提高数据的DataSkipping比例。
自适应查询优化:自适应查询优化(Adaptive Query Execution,AQE)是 Spark3.0 版本引入的重大特性之一,可以在运行时动态的优化用户的SQL执行计划,很大程度上提高了 Spark作业的性能和稳定性。AQE包含动态分区合并、Join数据倾斜自动优化、动态Join策略选择等多个子特性。网易内部版本在社区版本的基础上对AQE功能进行了增强。
权限管控:基于Ranger实现用户读写库、表、列的权限认证。
日志审计:所有用户操作行为都会记录到审计日志中,方便操作回湖以及统计分析。
HDFS:大数据基础平台的存储基座,数据安全性至关重要
公共回收站:由于HDFS的delete API接口会直接删除数据,容易引起数据误删无法恢复的问题,实际生产线和项目中曾发生过多次高危事件。针对此类场景特别新增公共回收站功能,可以将数据继续保留一段时间,保障误删数据一键恢复。
删除黑名单机制:用户可以设置部分目录为“删除黑名单”,设置为“删除黑名单”的目录不允许被删除。
·结合业务场景制定整体迁移方案,提供原厂迁移服务。
·整个迁移过程基本无需平台整体停服,迁移成本低、所需资源可控、风险可控。
·无缝对接网易数帆数据中台产品,提质增效。
海致BDP一站式大数据分析平台,权限管理自上而下,满足多分组,跨部门之间的数据管控。每个部门分组均可设置子管理员,减少专人维护成本。数据与图表独立管理,互不影响。数据权限可控制到行+列级别。B/S架构,拖拽式分析,方便简洁。
数据管控
B/S架构
拖拽式分析
实时大屏
千瓦科技能源管理解决方案通过碳无忧平台,我们为终端客户(toB)解决以上问题。通过平台监控,实时的系统、短信、电话预警、自动控制功能,提升用能安全,大大降低电气火灾等用能安全事故发生概率。通过自动报表、分析报告、实时数据, 降低人力抄表、制表、驻点成本,提升用能、管理效率。通过平台AI分析引擎,找出各个大数据之间的潜在关联性,改进安全、品质,预测设备故障周期与寿命。
用能安全
用能质量
零碳无忧
智能分析