越来越多的企业认识到大数据对于自身未来发展的重要性,纷纷开始使用并逐渐依赖大数据处理的相关技术。但随着需要处理的数据越来越多,业务场景越发复杂,在实际执行过程中遇到很多问题,如大数据人才紧缺,相关技术缺乏沉淀,难以突破瓶颈,同时不同业务部门的业务需求纷繁多样,导致不同项目代码重复开发、重复造轮子、项目技术架构五花八门的情况也很常见,给后期维护和迭代带来很大的挑战。
对于以上的现实问题,博睿数据以10年的大数据项目实践经验,抽象和设计出一套灵活轻便、场景通用、稳定高效的超级大数据处理引擎框架—Bonree Ants,以满足企业复杂多样的数据处理需求。
Ants(蚁群)名称源于其寓意:高效协作、小而有力、合纵连横,我们认为其可以诠释这套超级引擎框架的初衷:轻便灵活、场景通用、稳定高效。
Bonree Ants大数据处理引擎框架是一个针对时序指标数据处理的通用流式计算引擎框架。此引擎框架负责范围包括原始数据预处理、准实时计算(支持默认算子和自定义算子)、多种时间粒度批量计算、数据落地及各种容错处理,同时支持自定义高级功能自定义扩展机制,默认支持如时序指标动态基线计算、报警条件判断计算等扩展等。
Bonree Ants可以帮助企业便捷快速的实现海量时序指标数据的在线流式处理。我们的目标是,对于常见的时序指标流式处理的业务场景可完全不需要研发人员参与,只需非研发业务人员对数据应用进行简单配置和业务脚本描述,即可实现其目标;而对于复杂业务场景我们则希望研发人员通过引擎的插件机制,进行少量编码来实现相关与业务强关联的逻辑,而将大数据处理中底层复杂的资源调度、任务编排、容错处理交给引擎负责,快速实现相关大数据处理业务开发,极大降低企业相关开发和维护成本 通过在博睿数据众多服务项目的实践,应用Bonree Ants引擎框架之后,大数据处理开发工作量整体降低了80%,整体项目周期缩短40%以上。
Bonree Ants引擎框架依赖开源组件运行:ZooKeeper、Kafka、Storm、Redis,依赖少,部署简单,架构轻便,这也是其核心优势之一。
Bonree Ants底层计算框架基于Storm,之所以选择Storm作为底层计算框架,主要考虑到Storm自身的实时性高、资源开销小,外部依赖少、纯内存计算、容错性好等特性。
Bonree Ants将时序指标大数据处理过程抽象为以下几个主要流程,即:预处理、准实时计算、小批量计算、大批量计算、落地入库等。以上流程均由运行于Storm之上的Preprocessing Topology、Calculation Topology、Storage Topology三类拓扑负责完成。
Bonree Ants整个数据处理过程中数据不落地,均在内存中完成。由于需支持大时间粒度批量计算业务场景,Bonree Ants引入Redis作为Storm集群辅助内存存储集群,以降低大批量计算时对Storm集群内存的开销,由于采用内存计算的方式,Bonree Ants实时性高,对磁盘I/O几乎无影响。
Bonree Ants批量计算是基于时间粒度的聚合计算,默认支持1秒、1分钟、10分钟、1小时、1天等五个不同时间粒度的聚合。由于各粒度计算之间存在递进依赖关系,因此为减少计算资源开销,加速计算过程,Bonree Ants在Redis集群缓存了各粒度中间计算结果,以备下一时间粒度计算直接使用,从而减少数据处理量级。
Bonree Ants对于最终计算结果落地只提供了基本框架支持。由于不负责最终数据存储,因此也不会对最终数据落地存储组件有任何限制。Bonree Ants默认内置支持Mysql存储方案,如采用Mysql作为最终落地数据库,则建表和结果数据入库过程均可由Bonree Ants自动完成。如需采用其他落地方案,如HBase等,则由用户开发Storage-Plugin插件进行自定义支持。
Bonree Ants整体架构设计大量采用插件(plugins)和扩展(extensions)机制,其将与业务强关联的个性化处理,如数据预处理策略抽象为Etl-plugin,将数据和维度指标处理的算子(内置支持sum、max、min等基本算子)开放为Operator-plugin,而将处理结果落盘策略抽象为Storage-plugin。
同时,在支持插件技术外,为了丰富Bonree Ants引擎框架功能,还支持extensions扩展机制。用户可以在现有引擎框架基础上开发自己需要的extension,并以独立计算拓扑的方式提交给Ants,由于Ants加载运行,从而实现Ants功能的延伸。目前,Bonree Ants默认内置动态基线扩展(base-line extension)和报警条件判断扩展(alter-judge extension)。
此外,Bonree Ants还支持插件动态更新和Schema.xml动态更新功能,这样能够帮助用户实现不重启即可更新业务处理逻辑的支持,对用户复杂多变的业务场景带来极大的灵活性。
Bonree Ants引擎框架自身与业务无耦合,数据处理流程高度抽象,通用性强,简洁开放的架构,较少的组件依赖,开发部署及维护成本低;秒级时延,实时性好,内置批量计算支持;支持extension机制,用户可自行丰富业务场景功能支持;内置多种容错策略,保证稳定与数据安全;同时,Bonree Ants提供强大的在线Web Console支持,可支持可视化管理和监控,具体功能包括如下:
Bonree Ants以小而美的理念,以灵活高效的计算方式快速处理企业数字化业务带来的庞大数据量,是企业提高大数据在线处理能力的智能大脑。
腾讯云智能数据分析是新一代云原生敏捷分析解决方案,产品采用无服务器架构(Serverless),具备存算分离、计算集群分钟级扩缩容等特点,从数据采集上报、接入,到自定义万亿级实时数据分析,再到数据数据可视化,为企业提供全链路数据分析解决方案
新一代云原生敏捷分析解决方案
具备存算分离、计算集群分钟级扩缩容等特点
从数据采集上报、接入,到自定义万亿级实时数据分析
为企业提供全链路数据分析解决方案
预策科技数据治理分析解决方案,⽬标追踪到每天、利润追踪到单品,绩效考核到人、绩效考核到利润 ,全链路供应链监控、销售计划准确率,到/发货及时率、库存周转率。360度全渠道分析、跨类目运营,sku策划管理、新品上市测试。
利润追踪
全链路供应
推广ROI
sku策划