搜索
大数据中国 首页 热点综合 热点科技 查看内容
化繁为简,数字化推动企业数据库升级焕新 | 爱分析报告
2023-1-13 19:54 | 查看: 1129| 评论: 0


同时,外表联邦查询功能支持包括MySQL、Elasticsearch、Hive、Iceberg在内的多个第三方数据源,并且可以满足用户对不同维度、不同层面聚合或明细查询的多样需求。

案例1:某国有商业银行构建实时交互式数据分析平台,高效助力普惠金融业务

在银行数字化转型的过程中,客户分析和精细化管理至关重要。在普惠金融业务中,如何对下沉的海量客户建立数字普惠全景视图,实现经营状况及资产质量分析、客户分析、产品分析、营销分析等交互式数据分析能力,对于银行普惠金融业务的开展起到了关键支撑作用。

某国有大型商业银行充分利用征信、工商、纳税、电力、司法、结算、供应链、政务、采购平台、贷款信息等行内外数据,将风险指标融入客户多维画像信息,建立普惠金融营销、准入、信用评价、授信、定价、贷后监测预警、催收等分析模型,实现关键业务指标实时报送,提供交互式数据分析。该平台对底层数据基础设施的实时性、高并发、稳定性和可用性等能力都提出了更高的要求。具体而言,需要解决以下需求:

1)海量异构数据的实时查询。面对多样复杂的客户画像数据,数据库作为支撑业务用户日常在线使用的系统,需要能够执行行内超过200个以上标签动态组合以及5张表以上任意条件筛选和组合的复杂查询,达到秒级响应时间;

2)支撑高并发业务查询场景。该银行总共有5万多位客户经理提供日常对公和对私的业务服务,会不免出现同时间下的多点数据查询需求。因此,数据库要能够在高并发场景下及时响应来满足精准营销和信贷风控的业务需要;

3)能够稳定可靠地对外提供数据服务,满足系统可用性级别要求。金融行业对数据一致性、系统的RPO和RTO指标、多数据中心等方面有严苛的要求,要保证数据不错不漏、故障无损快速切换,提供多数据中心备灾措施等。

基于分布式全内存数据库RapidsDB构建数据分析平台

为了满足以上性能及业务需求,该银行将借助分布式内存计算技术提升数据库分析性能,作为重点考察方向。柏睿数据分布式全内存数据库RapidsDB在快速部署、集群弹性、性能线性扩展、广泛兼容、异构数据支持、海量数据计算等多方面获得行方的高度肯定,从而在行方同类数据库产品选型中脱颖而出。

柏睿数据成立于 2014 年,是一家以数据库为核心的“Data+AI〞数据智能基础软件公司,国内首家因突破数据库核心技术而获得国家级专精特新“小巨人”称号的民营企业。柏睿数据作为国内掌握全内存数据库引擎关键专利的企业,基于完全自主研发的全内存分布式数据库产品体系和人工智能产品体系,打造软硬一体化智能数据处理平台,其产品在算力性能、智能化、安全性、标准化等关键技术指标上均业界领先,已为金融、政务、能源、通信、医疗等众多行业标杆客户提供原创性数字化转型技术产品服务。

图4: 基于分布式全内存数据库RapidsDB构建的实时交互式数据分析平台

柏睿分布式全内存数据库RapidsDB在该行的普惠金融业务场景中代替了原有的“Oracle + ElasticSearch”复杂技术栈,实现极速性能提升,而且保证了金融级别的稳定可靠和高可用性。

为了解决海量用户数据实时查询的性能问题,RapidsDB采用全内存架构避开了磁盘访问I/O,达到更快的查询速度;在多表关联场景下,柏睿通过动态查询优化、索引使用优化、join连接优化实现了多表关联场景中更强的性能表现,达到复杂查询的即时响应能力。

为了支撑上万名业务经理高并发的查询需求。RapidsDB采用分布式架构,通过动态扩展应对任务执行量的增长,并且配合查询优化器均衡分配节点负载。同时,RapidsDB通过数据结构无锁化实现了最大程度的并发能力。

针对金融级数据可靠性和可用性的要求,首先,RapidsDB在内存存储之外还通过事务日志和定期快照不断地将数据备份到磁盘,实现数据库内存与持久化存储,如Flash、SSD、HD等,协同工作来确保数据无丢失风险。其次,在集群内部可用性方面,数据节点通过成对的配置在彼此之间共享数据副本,保持数据实时同步。主备节点均可对外提供服务,如果出现任何叶的故障,RapidsDB将自动切换副本分区。在节点出现故障的情况下,RapidsDB通过将适当的副本分区升级为主分区来转移节点故障,以便数据库保持在线。在满足集群内高可用的基础上,RapidsDB还实现了跨机房数据和系统服务的高可用,支持“同城双中心”、“两地三中心”、“三地五中心”等金融级别的灾备方案,在系统本身发生故障、应用层报错、网络错误、人为错误等情形下,数据库系统均能保障良好的高可用性。

基于RapidsDB数据库的数据分析平台落地后的价值与效果

第一,通过RapidsDB在大规模异构数据场景下的高性能表现,满足了该银行对多表关联复杂查询的需求。实现了1100亿行数据、40TB大数据量下的实时查询,支持前端SQL条件灵活组合、最多15个表join的多表复杂查询。

第二,RapidsDB支撑了全银行5万名客户经理的日常查询服务,具备典型情况下上百个并发查询和极端情况下4000多个并发查询的能力,能够充分应对业务多点并发的读取请求,达到平均3.6秒的响应时间。

第三,RapidsDB能够稳定可靠地运行,提供99.999%高可用的数据服务,满足金融行业对数据库的严苛要求,有效支撑了该银行普惠金融业务的快速发展。

项目经验总结

该银行的数据分析平台成功上线以来,柏睿数据RapidsDB分布式全内存数据库展现了出色的性能和稳定性来支撑该银行普惠金融业务的转型升级。该项目的成功落地为同类型业务或者相似规模的企业提供了以下分析型数据库的使用建议:

1)在类似普惠金融拥有海量多元化数据沉淀,并且要求高实时性查询的业务场景中,全内存数据库因为运行时不需要将数据同步到物理磁盘,从而避免了磁盘I/O限制对系统性能的影响并且减少了系统维护的工作量,所以被该类型业务场景所青睐。因此,对于数据存取效率要求较高的系统,全内存数据库可以比主要利用磁盘存取的数据库发挥更大的性能作用。

2)在类似国有银行员工数量众多、内部组织架构复杂的大型企业中,通常有大量业务人员同时进行日常查询操作来保证业务正常运转。因此,分析型数据库需要具备分布式相关技术,通过动态扩展和平衡分配任务量支持多点并发的任务请求,保证同一时间下查询的及时响应。

案例2:中信建投基于分析型数据库构建统一查询服务平台,满足企业大规模用数需求

中信建投证券(简称“中信建投”)是经中国证监会批准设立的全国性大型综合证券公司,其在企业融资、收购兼并、证券经纪、资产管理、股票及衍生品交易等领域形成了自身特色和核心业务优势,并搭建了研究咨询、信息技术、运营管理、风险管理、合规管理等专业高效的业务支持体系。目前,中信建投拥有超过1,000万证券经纪业务客户,托管证券市值超过5.5万亿元,位居行业第2名。

近年来,在证券服务逐渐互联网化,以及券商牌照红利逐渐消退的行业背景下,中信建投不断加大对数字化的投入,尤其重视数据基础设施的建设,期望在客户服务、经营管理等多方面由经验依赖向数据驱动转变,从而提高服务水平和决策效率。因此,在公司总部和各分支机构,包括经纪、资管、投行等业务部门,以及稽核、审计、财务、法务等职能部门,对自助分析、多维分析、固定报表和API数据服务等形式的用数需求一直在不断增长。

为了推动整体数字化建设和数据治理工作,中信建投已经在2019年搭建了基于Hadoop体系的数据湖,将大量历史数据迁移到Hadoop上,用Hive对数据进行加工处理,所有的查询计算都通过Presto执行。但是,该方案在最近两年数据量快速增长、业务场景多样化发展的趋势下逐渐无法适用。具体而言,中信建投目前在数据查询分析中主要存在以下痛点和需求:

1)数据加工链路复杂。在数据分析的流程上,数据部门通常是首先用presto做即席查询,再通过Hive进行数据加工,最后将加工过后的数据下发到各部门的Oracle或MySQL事务型数据库,业务人员在事务数据库里对下发数据进行查询和分析。整个过程需要在三套系统之间进行数据交换,且三套系统使用的SQL语法也不一致,需要不同人员进行开发维护,从而产生了多种问题:

  • 数据开发和维护成本高;

  • 数据口径可能不一致,导致数据应用结果不准确;

  • 用数需求难以得到及时满足,通常要“T+1”才能给到数据报表。

2)大数据量下性能不足,查询响应慢。中信建投目前大部分的数据都存储在Hive中,业务部门在进行自助分析时通常涉及的相关数据量较大,而Presto在大数据量、多表关联查询时会出现响应比较慢,甚至无法获得查询结果的问题,无法满足单表及多表复杂查询场景下响应的及时性。此外,Presto因为资源隔离不足会出现应用抢占资源的情况,不能很好支持高并发的查询请求。

3)大量实时数据分散在各个业务系统,无法进行联合分析。由于中信建投内部存在非常多的业务系统,各业务系统相互独立且数据会不断更新,而这些实时数据无法更新到Hive中,导致业务数据之间不能及时打通进行联合分析。

4)缺少预计算能力加速固定查询。固定报表和API数据服务为各业务提供包括数据汇总结果、明细查询、数据接口在内的多项能力,而基于固定数据查询的可视化报表通常数据查询量大、计算维度较多,一个看板页面涉及大约一两百个SQL语句,整体运算效率低下。针对这种情况,中信建投希望通过预计算实现查询加速,并且要求开发工作轻量化且资源消耗较低。

引入StarRocks构建统一查询服务平台

通过综合对比数据库即席查询、实时分析性能、预计算能力、数据联邦技术,并且结合中信建投已经在Hadoop体系中有大量投入,不希望做大规模数据搬迁的具体情况,将Hive外表查询支持、SQL语法及函数的兼容性等方面纳入选型考虑,中信建投最终选择引入StarRocks来构建统一的查询服务平台,满足各部门的用数需求。

StarRocks是数据分析新范式的开创者、新标准的领导者。面世三年来,StarRocks 一直专注打造世界顶级的新一代极速全场景 MPP 数据库,帮助企业构建极速统一的湖仓新范式,是实现数字化转型和降本增效的关键基础设施。当前全球超过 200 家市值 70 亿元以上的头部企业都在基于 StarRocks 构建新一代数据分析能力,包括腾讯、携程、平安银行、中原银行、中信建投、招商证券、众安保险、大润发、百草味、顺丰、京东物流、TCL、OPPO 等,并与全球云计算领导者亚马逊云、阿里云、腾讯云等达成战略合作。项目在 GitHub 星数已超 3700 个,成为年度开源热力值增速第一的项目,市场渗透率跻身中国前十名。

图5:中信建投统一数据查询服务平台

作为一款高性能全场景的分析型数据库,StarRocks使用MPP 架构、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数据分析。StarRocks 既支持从各类实时和离线的外部数据源高效导入数据,也支持直接分析数据湖上各种格式的数据,统一的SQL交互将数据分析结果或物化视图预计算结果分发到各个数据应用,为中信建投实现了三套系统使用功能的整合以及数据应用流程的简化。

具体而言,针对中信建投的痛点问题,StarRocks具备如下优势:

1)在性能方面,针对大规模数据下自助BI敏捷高效的需求。StarRocks向量化执行引擎,全面实现了SIMD指令,保证查询和向量化导入可以充分利用单机单核CPU的处理能力;StarRocks自研的Pipeline协程引擎,使得StarRocks可以应对更高的并发查询,充分利用单机多核CPU的处理能力,与此同时可以更优雅的进行CPU时间分片调度从而实现资源隔离的功能;StarRocks采用大规模并行处理(MPP)架构,可以充分利用多机多核的集群资源,保证查询性能可以线性扩展;并用基于成本的优化器CBO、RuntimeFilter、延迟物化、全局低基数字典等多种⼿段实现极致查询性能。

2)在外部表联邦查询方面,StarRocks可通过创建外部表的⽅式,在 StarRocks 读取其他数据源,如MySQL、Elasticsearch、Hive等外部表中的数据,从⽽打破数据的隔离。以Hive外表功能为例,中信建投可以将其Hive中的离线数据导⼊ StarRocks 中进⾏⾼性能分析查询。同时,StarRocks 也可以扮演数据湖的⻆⾊,将离线数据与实时数据进⾏关联,打通不同数据存储间的壁垒,从⽽⽀撑业务分析时在数据湖中进⾏数据探查和极致分析的需求。

3)在预计算方面,为了实现固定报表的加速,StarRocks引入预计算的手段,通过创建多表、外表物化视图的方式对明细数据进行上卷和下钻,复用常见查询有效优化了复杂SQL计算效率,满足用户对固定维度聚合分析以及原始明细数据任意维度分析的多样需求。

中信建投统一查询服务平台落地后的效果与价值

第一,大数据查询性能得到显著提升。采用StarRocks内部表加速明细数据关联查询,实现了上亿级别数据量大表关联秒级响应,内表查询效率提升10倍以上,外表查询效率提升1倍以上,完全满足大数据量下查询分析及时响应的需求;

第二,预计算能力降低了固定报表加工成本。采用StarRocks预计算能力可以将固定报表和API数据服务响应速度提升1倍以上。多表物化视图、外表物化视图、QueryRewrite等高阶功能,可以有效降低数据建模成本,使得“直面分析,按需加速”成为可能。

第三,降低数据迁移成本,提升数据管理和使用效率。StarRocks基于Hive外表做查询,减少了元数据和底层数据的迁移成本,并实现了实时数据联通分析。同时,以StarRocks为统一数据服务入口,降低了整体数据查询和加工的复杂度,提升了数据管理和使用效率。

项目经验总结

中信建投进行数字化转型过程中已经部署了大部分的数据基础设施,但是已有的基于Hadoop构建数据湖的体系在近两年来暴露出众多问题,已经无法匹配业务的发展速度。中信建投基于自身业务需求和已有技术架构情况选择以StarRocks构建统一数据服务入口的实践,为同类型券商企业提供了以下经验建议:

1)分析型数据库的选型需要充分考虑企业自身的用数需求,以及现有数据平台的技术架构,选择符合自身实际情况的数据库是获得较好的落地效果的关键。例如,中信建投大部分的数据都存储在Hive中,StarRocks提供的类Presto的外表查询功能可以避免数据迁移增加的额外成本,同时也很好地满足了公司的用数需求。

2)随着企业数据库规模不断增长,以及分析场景更加复杂,分析型数据库需要不断提升数据查询分析的性能,以及针对固定报表、自助BI等各种应用场景,提供场景化解决方案、生态工具,才能满足用户在数据查询分析方面功能和性能的复杂需求。

3.图数据库

3.1传统数据库关系查询能力不足,图数据库及相关解决方案加速业务洞察

在各行各业中都存在着诸多依赖个体属性及其之间关联信息的场景,例如社交网络、金融风控、营销等,需要对单体之间的关系进行识别,并对其特点进行研究。然而,要在海量的数据中,发掘个体之间隐藏的联系,是项很复杂工作,这为企业带来了新的挑战。具体而言,企业在关联关系的探索上,存在以下难点或需求:

  •      传统的关系型数据库对数据关联关系查询的支持有限。对于一些简单的关联关系查询,企业通常可以采用传统的关系型数据库解决,但关系型数据库在进行关联信息检索时需要执行多个表的连接操作,在数据关系较复杂时,会出现操作繁琐,且性能严重不足,导致无法查询结果的问题。因此,关系型数据库在实际应用中只能执行一二度简单关系的查询,而不具备复杂关系查询的能力。

  •      企业缺少相关分析工具和解决方案来对关联数据进行挖掘分析。在具体应用场景中,关联关系的查询分析,除了需要底层数据库引擎的支撑,通常还需要结合领域知识,将关联关系转换为知识见解,帮助业务决策。此外,对于一些复杂的查询分析,还需要一些AI算法来加速获取结果。

为了解决企业在数据关系探索上的难题,针对数据关系进行高效存储和计算的图数据库获得了企业的青睐。作为典型的非结构化数据解决方案,图数据库将关联数据的实体作为顶点存储,关系作为边存储,突破了数据复杂关联存储查询造成的性能瓶颈。同时,知识图谱,以及图分析算法也为图数据的挖掘分析起到关键作用。图数据库及相关的解决方案具体包括如下三方面的内容:

图6:图分析解决方案赋能数据关系洞察

  •      高性能图数据存储与处理引擎。图数据库以图模型存储数据,最大能高效地存储万亿点边的数据,有效承载了企业沉淀的海量关系信息。借助优秀的关系传导能力,图数据库能够实现高效的多跳查询,以此发掘关系型数据库无法发现的深度关系;

  •      图算法支持高效的数据关系挖掘。借助图算法,用户能够实现海量数据挖掘和复杂关系分析,例如最短路径,社交网络中心性、社区检测、社群特征、相似性和分类等常用的图算法,能够帮助用户在纷繁复杂的数据中发现有价值的信息,辅助进行业务决策;

  •      知识图谱平台支持场景应用。为了赋能业务场景,企业在具备图数据库引擎的基础上,还需要构建知识图谱平台,将图的关联关系转化为知识,从而形成业务洞察。通常,知识图谱平台需要具备两大关键的能力:1)知识图谱构建,即利用图谱构建工具,实现知识抽取、知识表示和知识融合,从而构建知识图谱;2)知识推理计算,即通过推理计算引擎,结合行业知识,发现知识中的显性或隐性关系。


免责声明: 除非特别声明,文章均为投稿或网络转载,仅代表作者观点,与大数据中国网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。如果本文内容有侵犯你的权益,请发送信息至ab12-120@163.com,我们会及时删除
关闭

站长推荐上一条 /1 下一条

 
 
大数据行业交流
大数据行业交流
大数据求职招聘
大数据求职招聘
站长电话:
15010106923
微信联系:
hb-0310
站长邮箱:
ab12-120@163.com
大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-3-29 17:55 , Processed in 0.235925 second(s), 22 queries .

返回顶部