搜索
大数据中国 首页 热点综合 热点科技 查看内容
化繁为简,数字化推动企业数据库升级焕新 | 爱分析报告
2023-1-13 19:54 | 查看: 1263| 评论: 0


案例3:民生银行基于图数据库构建知识图谱应用平台,通过图分析盘活数据资产

作为头部股份制商业银行,民生银行始终坚定践行“民营企业的银行、敏捷开放的银行、用心服务的银行”的战略定位,高度重视数字化转型,主动融入数字中国建设,着力在“生态银行”和“智慧银行”两大领域实现突破和提升,致力于为客户提供专业特色的现代金融服务。

随着金融行业数智转型的进程加快,银行业务数据量出现爆炸式增长,对金融行业的数据处理能力提出了更高要求。同时,面向海量数据的充分沉淀,挖掘数据资产的潜在价值,释放蕴藏在数据要素中的生产力变得至关重要。对于民生银行而言,全行业务场景众多,由此积累了规模庞大的账户数据,也带来了丰富的用户关系信息。在此基础上,如何选择新的数据库进行技术革新,赋能业务实现数据驱动的决策,成为民生银行内部一项重要的发展课题。具体而言,民生银行需要采用新的数据技术解决以下难题:

1)对大规模的业务数据进行高效的关联关系分析与挖掘。风险控制和营销作为银行两大重要业务发展手段,需要对海量用户数据进行深度关联关系挖掘,以识别潜在风险、了解客户偏好。在传统的关系型数据库中,数据被存储在二维表中,使用关系模型检索需要执行多个表的连接操作,在深度关系挖掘能力与数据处理性能上表现严重不足;

2)对行内数据拉通整合,进行统一的查询分析。民生银行内部各个业务系统较为多元,但是未在数据层面打通,各个业务之间相对独立,并未建立关联关系。此外,业务人员缺少统一的应用平台对多元化的业务进行全局联通分析,数据管理分散,无法站在全局的视野分析业务变化,进行实时决策;

3)底层数据基础设施的研发难度和成本较大,需要在解决技术难题的基础上满足大型企业要求的高可用、多租户、权限管理等能力需求。此外,随着国家信创政策日益严格,金融业作为国家经济命脉,必须充分实现关键数据基础设施的国产化,具备数据库系统的安全可控性,保障信息安全。

基于Galaxybase图数据库构建知识图谱应用平台,赋能银行业务升级

数字化转型需求驱动下,民生银行需要挖掘数据关联关系,发挥数字资产价值,更好地提升风控、营销等核心业务能力。因此民生银行决定通过招标建设知识图谱应用平台,通过综合考虑大规模的关联关系查询、多元化数据拉通整合、底层技术自主可控以及厂商技术领先性和实践经验等因素,最终创邻科技从众多图数据库厂商中脱颖而出。

创邻科技是国内领先的商业化高性能分布式图数据库供应商,在分布式数据存储、大数据并行处理、图挖掘等领域有业界领先的技术储备。创邻科技聚焦金融板块,目前已成功服务五大行、头部股份制银行以及城商行、农商行等企业用户,核心产品Galaxybase国产高性能图平台已累计支持数万亿点边的大型金融图谱应用,性能国际领先。

图7:基于Galaxybase图数据库构建的“万象”知识图谱应用平台

在创邻科技的帮助下,民生银行以大数据、人工智能技术为基础,引入Galaxybase图数据库构建“万象”知识图谱应用平台,提供信息展示和交互式分析,具备本体建模、图谱构建、图谱挖掘、知识服务的一站式全流程应用能力,助力民生银行业务升级。具体而言,基于Galaxybase图数据库的“万象”知识图谱应用平台使民生银行具备了以下能力:

1)借助Galaxybase图数据库的图谱可视化和关系挖掘能力,民生银行能够基于图谱对各类信息拉通聚合,进行关联关系挖掘,提供信息展示和交互式分析功能。以构建企业全息图谱为例,通过引入行外的全量工商、司法、知识产权等复杂数据且对企业的多重关系进行分析和挖掘,能够实现关联信息的高效聚合,直观呈现复杂客户关系网络,简化业务分析难度。

2)图技术的形态识别和关系传导能力可以在反欺诈业务中发挥重要作用,依托Galaxybase图数据库所具备的实时数据处理与图构建能力,“万象”知识图谱平台能对信贷申请件数据进行实时组网,通过设备信息、地理位置信息、黑样本、转账等关联关系识别定位欺诈团伙,并且结合传统欺诈特征和网络特征进行机器学习对申请条件评分,有效识别欺诈申请,进行及时预警,实时拦截欺诈风险,避免欺诈损失。

3)基于图神经网络的知识推理,“万象”知识图谱平台能够提升银行的营销能力。通过对涵盖个人客户的银行客群建立经营分析图谱,“万象”知识图谱平台可以基于用户关系链进行社群关系推理,利用种子账户所在社群触达全新用户并实现拉新,由社群触达的新成员,还能够以不同的速度、方式和幅度进行裂变传播,有效解决传统客户管理系统获客难的问题,达成“快速实现账户增长,低成本轻松获客”的目标。

为了满足数据联通整合的需求,民生银行基于Galaxybase图数据库对行内外跨部门、跨产品、跨业务线中的实体及元数据信息进行了整合。同时,平台配备可视化图分析平台,业务人员无需编程技能即可通过可视化图形配置界面构建知识图谱、部署图算法、执行计算并展示结果。

此外,Galaxybase图数据库具备企业级特性,通过主备集群能力支持数据库高可用,并且提供企业级的运维管理和安全监控能力,支持点边类型和属性的细粒度权限管理。在信创方面,Galaxybase图数据库为国产自研产品,能够满足金融行业对数据技术安全自主可控的要求。

“万象”知识图谱平台落地后的效果与价值

第一,打破数据孤岛,支撑海量数据的实时分析与关联价值挖掘。通过构建“万象”知识图谱应用平台,民生银行能对行内外跨部门、跨产品、跨业务线中的实体及元数据信息进行整合,构建多触点、全维度的可视化关联信息图谱,提供360°全景可视化视图,破除数据孤岛。同时,“万象”知识图谱平台底层采用的分布式架构支持动态在线扩容,新进的业务数据也能够实时入网,业务人员能够结合不同的场景利用知识图谱进行实时决策。

第二,图谱可视化技术为用户提供业务全流程数据关系展现。“万象”知识图谱平台能够为业务系统输出图查询、关联和计算能力,同时为业务分析人员提供全息图谱,提升内外数据关联分析能力;针对研发人员,则提供数据关联关系分析平台,分析挖掘环境更加便利,可实现便捷的可视化建模。最后,“万象”知识图谱平台能够为业务沉淀出一系列可视化数据产品,实现全流程业务能力升级。

第三,强劲的多跳查询性能帮助银行实现实时深挖隐藏关联关系。依托于Galaxybase原生分布式并行图数据库可以极快地处理复杂的多跳关联关系,“万象”知识图谱应用平台能够对于银行的海量业务数据进行多跳查询,挖掘查找数据间的异常关联关系,因此能够快速对传统方法不能找到的风险进行预判和警报,完美契合银行的反洗钱、反欺诈、对公信贷等业务。

项目经验总结

在数字经济时代,为了实现数据价值的充分释放,就需要将数据进行关联,从单纯的数据管理转变为数据关系的挖掘、分析和利用。民生银行引入创邻科技Galaxybase图平台建设知识图谱应用平台的实践,为同类型的业务场景提供了以下图数据库及相关应用的选型和使用经验:

1)关注图数据库底层技术支撑能力。银行业务数字化的快速发展一定会造成行内数据量爆发式增长,银行企业在选择图数据库时一定要考虑在超大数据规模下的底层数据库支撑能力,要能够在不降低查询和计算性能的情况下高效实现知识图谱的构建;同时,对于关联关系的深度挖掘,银行企业需要关注图数据库的多跳查询性能,能够实时挖掘复杂关系是关键。

2)重视信创政策,推进底层国产化替代。对于金融机构而言,实现底层数据基础设施的国产化有助于保证整体系统安全稳定地运行,而且数据库及其配套应用需要不断迭代和适配来满足未来业务场景的拓展,建议各银行在招标过程中将图数据库的国产技术和图应用解决方案综合实力纳入考虑,旨在减少后续更换底层数据库的潜在风险和成本。

4.超融合数据库

4.1企业多元化快速发展,超融合数据库在单一技术栈上满足各业务需求

在数字化转型的驱动下,中大型企业在复杂多样的业务场景下沉淀了海量多源异构的数据,而且由于业务持续扩张增长的趋势,部分企业需要不断加强数字化建设的力度来匹配业务的发展速度。在这种情况下,中大型企业现有的数据库解决方案在企业需求的增长下变得愈发难以为继。具体而言,业务的极速发展和数字化带来数据规模膨胀、数据类型多样化使得现有的数据库设施遇到了以下方面的难题:

图8:大数据量、多数据类型带来的数据库使用问题

1. 承载数据类型有限。业务场景的拓展带来了更加复杂的数据类型,企业需要对异构的数据进行高效存储以便后续查询分析,而传统的关系型数据对非结构化数据的承载能力有限。通过引入专用的非结构化数据库,企业虽然可以存储与之相对应的非结构化数据,但是却造成数据库系统分散独立的情况,难以统一维护管理,从而带来额外的运维成本。

2. 海量数据查询遇到数据库性能的瓶颈。随着大型企业快速发展带来的数据规模膨胀以及查询复杂度的提升,原有数据库在响应速度上难以满足企业实时查询分析的需求,从而导致业务运转停顿或无法进行数据决策。

为了解决企业在业务快速发展过程中遇到的多数据类型和性能方面的难题,超融合数据库是在内核层面采用模块化和插件化的架构,通过插拔不同类型的数据引擎,实现对不同模型数据进行处理能力的数据库。超融合数据库能够支持用户在一套系统中统一处理关系、图、时序、文档等多种模型的数据,简易的架构不会为企业增加过多的运维管理成本。同时,超融合数据库具备与常见的专用数据库或大数据引擎同等或更好的性能表现。具体而言,超融合数据库为企业带来了以下优势:

图9:超融合数据库支持多类型数据,单一架构简化运维

1. 支持多种类型数据。超融合数据库在单一架构上实现了多模态数据的融通管理,通过部署适用于不同数据类型的存储和计算引擎,超融合数据库实现了多种异构数据,例如结构化数据、时序数据、图数据等,的统一写入、存储和管理。

2. 简化运维。超融合数据库采用创新性架构,利用模块化的引擎来支持不同类型数据的存储和计算,避免了引入多种专用数据库造成系统冗余的情况。此外,超融合数据库使用统一的应用访问接口和优化器简化系统架构,在有效支撑业务发展的前提下,极大减少了数据库的运维成本。

3. 查询分析性能提升。超融合数据库相比常见的大数据引擎具备更强的性能表现,在单表查询、复杂SQL运算等能力上均有显著的提升。此外,超融合数据库还针对不同类型数据的处理需求进行优化,以获得比常见专用数据库更强的性能表现。总体而言,强劲的性能表现能够缩短数据库服务响应时间,能够使业务运行更加流畅,及时支撑实时决策。

案例4:某新能源头部制造企业基于超融合数据库打造“数据湖仓平台”,支撑企业高速发展

伴随近年来新能源汽车在全球范围内的销量剧增,处于新能源汽车产业链重要位置的国内某头部制造企业也迎来了业务的快速发展。为了提高产能,并降本增效,该企业需要不断加强数字化建设,以支撑全球产品溯源追踪、生产及售后运营分析、设备预测性维护等多项业务。

然而,随着该企业业务规模的迅速扩张,其需要处理的数据规模急剧膨胀,数据类型也比以往更加复杂,导致该企业原先基于MySQL、Greenplum构建的数据库系统面临显著的性能和功能瓶颈,也给该企业的业务开展带来以下挑战:

1)原有数仓集群遭遇性能瓶颈,维护扩容复杂,难以应对业务快速增长需求。

随着业务的快速扩展,带来数据规模的快速增长,以及查询复杂度快速提升,原有集群的 CPU 使用率长期维持高位运行,导致计算和查询作业长时间排队,致使业务间歇性卡顿,部分大型报表的等待时间甚至超过30 分钟,严重影响了业务的运行效率和使用体验。另一方面,原有数仓平台的扩容也需要伴随较长时间的停机等待,同时不支持数据的分层存储管理,这使得对原有平台进行不断扩容,在时间和成本上都不可持续。

2)智能制造亟待扩充复杂时序处理及分析能力。

该企业作为大型制造业集团,也在积极探索智能制造的转型创新,而首要的是对广大的生产装备进行数字化升级,这带来广泛的 IoT 场景需求。在其整体数据结构中,除了由常见的 MES、ERP 系统所产生的关系型数据,还有由数采单元面向设备、物料和流程采集到的时序、GIS 等类型数据,比如涵盖近百个指标的生产制造设备工况数据、已售出产品的运行数据以及历史维修数据等。目前架构中是通过 MySQL 和 Greenplum 来承载时序数据,但 MySQL 及 Greenplum 并不具备专门针对时序场景的强化特性及功能,数据承载力和查询能力都十分有限:

•写入性能:无法承载超大设备带来的海量数据写入负载;

•写入功能:无法支持动态、乱序、延迟写入,以应对复杂工况下的数据产生环境;

•查询能力:点查询性能有限,没有窗口查询、库内机器学习等。

3)数据量倍数增张,总部中心集群负载压力大

目前,该企业集团在全国拥有数十家分支生产基地,每个生产基地的产线系统都需要高性能及可靠稳定的数据管理系统。面向未来,预期整个集团将持续以倍数级扩充产能,产线数据量将翻倍增长,对数据管理的承载力、效率、成本和易用性都提出了更高标准。

目前所有数据直接进入总部,对总部集群造成很大负载压力。除了持续扩容外,在不增加太多运维复杂度的基础上,客户迫切希望建立一套总分结合的“总部(云)+工厂(边)”协同架构,在增强整体数据承载能力的同时,也优化各子公司的数据平台能力,实现对整体数据管理与治理能力的升级。

基于超融合数据库,实现一套系统满足企业多种类型数据存储与处理需求

为了满足对大规模、多源异构数据的存储与处理需求,该企业需要引入新的数据基座来替换原先的MySQL、Greenplum数据库。在此过程中,该企业考虑过Hadoop技术栈,但基于Hadoop技术栈满足业务需求,需要同时构建非常复杂的开发和运维体系,成本过高。

由于YMatrix超融合数据库具备高性能、支持多种数据类型、运维简单等优势,便成为了该企业的的最终选择。

YMatrix成立于 2020 年,是一家创新型基础软件公司,致力于物联网时代新一代数据基础设施软件的研发,并提供相关产品、解决方案及一站式商业服务。公司在业界率先提出超融合数据库理念,并发布了 YMatrix 超融合数据库,基于独创的多微内核开放架构,在单一数据库之上,实现多模态数据的融通管理,及全场景查询分析的统一支持。YMatrix超融合数据库可面向物联网应用、工业互联网、智能运维、智慧城市、智能家居、车联网等场景,提供架构简洁、功能丰富的数据基础设施,并已在多家行业头部公司成功实现商业化落地。

图10:某新能源头部制造企业基于超融合数据库打造的“数据湖仓平台”

YMatrix超融合数据库在该企业内替代了原先的MySQl、Greenplum等数据库,在支持多种类型数据的存储、汇集与管理的同时,通过全面的功能承接了各类业务需求。具体而言,YMatrix超融合数据库的以下功能特性解决了该企业此前存在的各种问题:

1)支持多种数据。由YMatrix超融合数据库承建数据湖仓平台,对接产线MES系统、ERP系统及给类型生产设备数采系统等,将TP业务数据、时序数据、GIS数据、JSON文本数据,以及过去的历史数据等等多种数据,统一进行写入、存储、管理,支持数据乱序、延迟写入,支持ACID以确保数据完整性;

2)提供统一的查询。YMatrix超融合数据库通过标准SQL提供多类型数据查询,在数据湖内实现数据的跨类型联合分析,而无需再并行建设专门的技术栈;

3)支持库内机器学习。YMatrix超融合数据库支持库内机器学习建模,可代替Flink + Spark,使算法建模及计算在YMatrix集群内实现,无需大规模的数据ETL过程,大幅简化系统架构,且性能大幅提升,算法分析工作效率提升10倍;

4)较高的查询性能。YMatrix超融合数据库针对写入和分析等重点领域进行了多达138项深度的指令级的优化,能够在单表查询、多表关联分析、时序数据查询等常用场景上获得比主流专用数据库更高的性能。

5)简化运维。YMatrix超融合数据库技术架构简化灵活,运维人员需要管理的技术栈变少,因此从根源上降低了其运维复杂度。同时,YMatrix超融合数据库提供大量图形化及自动化的运维能力,包括:在线扩容、自动数据平衡、数据生命周期管理、运维监控等,帮助用户降低操作门槛、获得更好的使用体验以及更加自动化的作业能力。

此外,为了降低总部中心集群负载压力,YMatrix为该企业建设了边缘数仓,即在分支工厂部署独立数仓平台,承载工厂的 MES、ERP、PLM 等各系统数据,完成这些生产数据在本级的数据归集,同时进行预处理查询分析,筛选出符合总部需要的数据后再上传总部集群。新构建的“总部(云)+ 工厂(边)”协同架构,在强化本地数据就近处理的能力之上,有效降低了集团集群的负载,为后期业务的长期稳定运行及良性扩展奠定架构基础。

超融合数据库落地后的价值与效果

第一,性能大幅提升,为应对业务量大规模扩张奠定基础。在使用YMatrix超融合数据库后,该企业解决了原有集群性能不足、扩容服务器耗时长、报表查询等待过久等各项问题,查询耗时最高缩短79%,为平台支撑的各项业务服务体验提供充沛的性能支持。

第二,为数智化创新提供新一代通用数据基座,并提供更友好的使用体验,大幅降低运维复杂度。通过 YMatrix超融合数据库,支持多模态数据的全场景查询分析需求,能够服务企业级用户未来 5-10 年可能存在的需求,帮助该企业避免了产品叠加或技术架构反复调整带来的技术风险和不必要成本。同时,YMatrix超融合数据库通过数据超融合能力大幅精简了系统架构,并供大量图形化及自动化的运维能力,从而降低了数据库的运维复杂度,让用户工作更加专注,作业更加高效。

第三,数据管理成本获得有效控制,同时降低总部集群的压力。YMatrix超融合数据库在为⼤数据平台带来了上述优化与新功能的同时,在保证性能满⾜需求的前提下,使得该企业每年在资源上的成本开销减少了⾄少30%。同时,通过搭建更科学经济的“总部(云)+ 工厂(边)”协同架构,减少数据传输成本的同时,降低因组织结构庞大、产能持续壮大给总部集群带来的压力。

项目经验总结

当前,中国正在从“制造大国”向“制造强国”转型,与此同时,一批代表着战略新兴行业方向的制造业企业在市场需求以及政策推动下,正处在高速发展过程中。为了实现这样的目标,数智化在其中将会起到关键支撑作用。我们认为,上述新能源头部制造企业与YMatrix合作的案例,可以为同样处于快速发展阶段的制造业企业带来以下借鉴意义:

第一,数据基座的选型需要超前考虑中长期的业务发展需求。随着企业业务的快速发展,企业内部数据量必然迅速增长,数据类型也将变得更加复杂。由于数据库等基础设施的迁移是项成本非常高昂的工作,企业在选型时需要充分评估未来5-10年的业务需求,选择能够应对中长期数据存储和处理需求的数据基座。

第二,为避免传统方案复杂的开发和运维,企业可以考虑创新性的超融合数据库。尽管市场上有一些大数据方案能够满足企业各类复杂的数据存储和处理需求,如Hadoop技术栈,但面对企业复杂的需求,其开发和运维也非常复杂。超融合数据库在简化系统架构的同时,具备支持多种数据类型、性能高、运维简单等优势,是处于快速发展阶段的企业非常理想的选择。

5.结语

从本报告所挑选的多个案例中,我们可以看到,看似已经非常成熟的数据库市场,在各个细分方向一直在适应企业不断变化的需求,往更强的性能、更丰富的功能,更简化的使用和运维的方向进化,并且这个趋势还在延续当中。

而对于每个企业而言,当它们在对数据基础设施进行规划,对数据库升级换代时,需要结合企业内部情况权衡多方面的问题。既要对业务需求进行全局思考,选择能够适应企业未来发展的技术架构,也要结合企业现阶段数据基础,满足在性能、功能、运维等各方面要求的同时,选择成本更低、使用更简单的数据库方案。

免责声明: 除非特别声明,文章均为投稿或网络转载,仅代表作者观点,与大数据中国网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。如果本文内容有侵犯你的权益,请发送信息至ab12-120@163.com,我们会及时删除
123
关闭

站长推荐上一条 /1 下一条

 
 
大数据行业交流
大数据行业交流
大数据求职招聘
大数据求职招聘
站长电话:
15010106923
微信联系:
hb-0310
站长邮箱:
ab12-120@163.com
大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-4-20 22:55 , Processed in 0.084645 second(s), 22 queries .

返回顶部