icon阿里云Databricks数据洞察icon
阿里云Databricks数据洞察
Databricks数据洞察(简称DDI)是基于Apache Spark的全托管大数据分析平台。产品内核引擎使用Databricks Runtime,并针对阿里云平台进行了优化。DDI为您提供了高效稳定的阿里云Spark服务,您无需关心集群服务,只需专注在Spark作业的开发上。DDI提供的DataInsight Notebook,可以使数据工程师、数据分析师和数据科学家共享集群计算资源、协同工作。
icon产品优势icon
极致性能
Databricks Runtime内核,性能明显优于社区版Spark,最高可达50倍提升。满足高性能、高稳定性、可弹性的计算需求。
批流一体
Databricks Delta Lake为数据湖分析提供了ACID事务能力,轻松处理包含数十亿文件的PB级表的元数据信息,实现了批流一体的数据处理方式。
 
 
协同分析
同时满足数据科学家、数据工程师以及业务分析师的计算需求,提供交互式的协同分析工作平台。
数据共享
计算存储分离,减少数据冗余,实现多引擎间的数据共享,降低数据存储成本,内置对OSS的访问性能优化。
icon功能特性icon

Databricks数据洞察包含了完整的社区版Spark的功能和特性,全面兼容Apache Spark。 Databricks数据洞察包含以下组件:

Spark SQL和DataFrames

Spark SQL是用来处理结构化数据的Spark模块。DataFrames是被列化了的分布式数据集合,概念上与关系型数据库的表近似,也可以看做是R或Python中的data frame。

Spark Streaming

实时数据处理和分析,可以用写批处理作业的方式写流式作业。支持Java、Scala和Python语言。

MLlib

可扩展的机器学习库,包含了许多常用的算法和工具包。

GraphX

Spark用于图和图并行计算的API。

Spark Core API

支持R、SQL、Python、Scala、Java等多种语言。

icon产品架构icon

Databricks数据洞察构建在ECS之上,使用阿里云对象存储服务(OSS)为核心存储。本文介绍Databricks数据洞察的产品架构。 存储访问加速层方便您可以像操作HDFS上的数据一样访问OSS上的数据。 目前,Databricks数据洞察提供了两种执行Spark作业的方式,包括通过Notebook或者在项目空间里新建Spark作业。同时,Databricks数据洞察还提供了监控告警、元数据管理、权限管理等功能,方便您对集群资源进行管理。

icon产品功能icon
全托管分析平台
快速拉起Spark全托管的集群,操作简单,按需付费。集群规模:用户根据需求设置节点数量,支持集群高可用。机型选择:支持ECS通用型、计算型和内存型三种实例规格族。弹性能力: 集群规模可动态扩展,调整计算资源大小,达到成本最优。
交互式协同工作
多种用户角色共享数据,交互式协同合作。 Notebook: 可以协同工作的工作空间,交互式的作业执行方式,支持Spark、PySpark、Spark R和Spark SQL类型的作业,分析结果可视化展示。统一元数据: 集群之间共享数据库、表的元信息,无需重复创建。
 
 
完全兼容Spark生态
100%兼容开源Spark,迁移成本低,性能表现优异。 Databricks Runtime:在Apache Spark基础上做了大量的性能优化,且针对阿里云OSS做了I/O优化,提供了更快速、更高效的计算引擎。Databricks Delta Lake:较开源Delta Lake,功能更完备,对核心功能点均有更深度的优化和性能提升。
企业安全性
与阿里云RAM集成,可以根据用户和角色做权限控制,保障数据安全性。
icon应用场景—流批一体数据仓库icon

统一的大数据管理平台,从上游数据抽取到下游数据分析,贯穿整个数据分析工作流。自动扩缩容,免运维,降低运维成本。

数据获取
接收实时产生的流式数据和外部云存储上批量数据。
数据ETL
持续高效地处理增量数据,支持数据的回滚和删改,提供ACID事务性保障。
BI数据分析
支持Ad hoc查询,无缝对接多种BI分析工具。
AI数据探索
支持机器学习。
icon应用场景—机器学习icon

简化机器学习生命周期,快速进行模型测试、实验、以及生产部署,并可视化结果。

特征工程
Spark SQL/Data Frame进行的分布式的数据预处理,EDA和特征工程。
分布式模型训练
利于Spark ML、ML相关模块做特征处理,进行ML/DL模型分布式训练。
在线部署
封装模型到Spark ML pipeline,以PMML或Mleap方式存放于OSS,发布到PAI-EAS做线上预测服务。
云边端一体
利用容器镜像服务和ACK@Edge,将模型作为容器下沉到边缘终端,服务离线终端设备的AI。
产品推荐 查看更多>>
    数说雷达创新营销全流程数字化策略平台

    基于海量互联网数据,以AI智能算法为引擎,融合行业解决方案,为产品创新、品牌资产管理、KOL及明星优选、内容创新等业务场景,提供一站式的产品及分析服务,结合数说“品牌加购”指南的最佳实践,助力营销创新与品牌增长。

    以AI智能算法为引擎

    品牌资产管理

    KOL及明星优选

    一站式的产品及分析服务

    数划云互联网行业预算分析解决方案

    数划云互联网行业预算分析解决方案,新一代云原生xP&A:用户易用、数据全面、深度协同,帮助企业更好决策,建立预算管理的组织架构,实现管理报告与会计报告口径区分。

    标准规范

    数据全面

    管理报告

    全流程闭环

    SaaS商业智能分析

    SaaS提供多维分析和报表展现。可以在实现快速上线一套数据可视化分析报表,还可以通过拖曳式自服务多操作进行交互分析,快速获得分析结果。

    高可用

    安全可靠

    使用便捷