搜索
大数据中国 首页 行业资讯 业界动态 查看内容
数字化转型时代的企业数据新基建 | 爱分析报告
2022-7-22 17:59 | 查看: 1361| 评论: 0


2.2.3 以云数据平台为核心的企业数字化转型方案

近些年来,随着企业数字化深度、广度的全面升级,国内外分别崛起了一系列典型的“云数据平台”提供商。

国外较为领先的云数据平台提供商Snowflake,在2020年9月17日于纽交所上市当天,市值突破700亿美元。截止2020年11月底,Snowflake的市值更是已高达830亿美元。

国内较为领先的云数据平台提供商偶数科技,核心创始团队来自EMC数据库团队,其核心产品为新一代云原生数据仓库Oushu Database。

偶数科技基于云数据平台的企业数字化方案

偶数科技除了具备核心产品新一代云原生数据仓库Oushu Database,还提供了包括数据管理平台Oushu Lava、自动化机器学习平台Oushu LittleBoy等一系列配套产品,共同构成一套完整的云数据平台解决方案,从而有效支撑金融、能源、制造等行业的大中型企业客户的全面数字化转型。

图 18: 偶数科技云数据平台解决方案

数字化转型时代的企业数据新基建 | 爱分析报告

  • 新一代云原生数据仓库Oushu Database:Oushu Database(简称OushuDB)是由新一代云原生数据仓库,具备ANSI-SQL标准兼容、ACID特性支持、Hadoop原生支持等特性,兼容Oracle、Greenplum Database、PostgreSQL和Hadoop原生技术体系,采用了存储与计算分离和虚拟计算集群技术架构,实现弹性伸缩、秒级扩容和超大规模集群(几千节点级别)的支持。OushuDB在业界首次解决了大数据量下跨数据中心的数据存储和分析问题,并设计了新一代SIMD执行器,性能比传统数仓快大约5-10倍,提供PB级数据交互式查询能力,提供对主要BI工具的描述性分析和AI支持,对于金融等行业的吸引力进一步增强。
  • 数据管理平台Oushu Lava:Oushu Lava是一款定位于帮助企业构建云数据平台的工具集,包括数据接入工具、数据开发工具、数据资产管理工具、数据服务管理工具等部分,支持客户进行敏捷数据应用开发,助力企业实现数字化转型。
  • 自动化机器学习平台Oushu LittleBoy:Oushu LittleBoy是一个通用的自动化机器学习平台,可以帮助企业级用户轻松实现人工智能落地。Oushu LittleBoy可通过内置的AutoML从上亿个模型中自动挑选出优化的模型,让用户在不了解算法原理的情况下自动选出最优配置,提升业务效率。

爱分析认为,“云数据平台”未来将成为以集团型、多分支企业为代表的大中型企业数字化的坚实底座。

3. 以云数据平台为中心的企业数字化落地方法论

正如章节2.2.2所述,云数据平台在数据基础设施的基础上,实现了对云、AI能力的无缝融合,是企业数字化落地的一种更先进的技术形式。

但是,以云数据平台为中心的企业数字化转型,需要更加完善和体系化的落地方法论。一般来讲,数字化方法论包括战略规划与落地实施两个维度。

按照章节1.1中的描述,企业数字化的战略规划应当包括数字化战略、数字化场景、数字化技术、数字化组织等四个层次。

从落地实施维度上看,企业数字化实施过程包括:路径规划、需求分析、方案设计、方案实现、方案支持与迭代等五个步骤。

图 19: 企业数字化实施过程

数字化转型时代的企业数据新基建 | 爱分析报告

3.1 路径规划

路径规划阶段的主要目标是确立数字化转型路径。为此,企业首先需要确立数字化愿景与整体目标,梳理业务场景、数字化现状,并构建数字化实施团队,最终交付现状调研报告与数字化转型路线图。

图 20: 路径规划

数字化转型时代的企业数据新基建 | 爱分析报告

数字化愿景与整体目标确立

确立企业数字化愿景与整体目标的主要价值,在于使得企业上下达成对数字化的同一认知,从而有助于协调资源,降低数字化推行阻力。为此,企业高层领导需要对数字化转型进行统筹规划,提出宏观层面的方针与指示。

应用场景梳理

梳理数字化场景的主要价值,在于使企业能够正确认识数字化带来的潜在价值,明确数字化转型项目的波及范围及投入规模。为此,企业需要对应用系统现状进行梳理,并对现有的痛点及业务价值进行判断。

  • 应用系统现状梳理:各应用系统的产品名称、版本、开发商、使用者、运维方,应用系统的对接方式(接口类型、模板、语言、工具)及数据库对接方式;
  • 痛点及业务价值判断:对用户在使用各应用系统过程中存在的痛点进行调研与收集,对潜在的数字化价值进行初步判断。

数字化现状梳理

梳理数字化现状的主要价值在于帮助企业判断业务场景数字化的当前阶段。为此,企业需要对源系统数据存储、现有大数据平台、BI平台、人工智能、基础设施及架构的现状进行系统性梳理。

  • 源系统数据存储现状:交易型数据库产品名称、版本、应用情况、使用者、运维方;对外数据接口方式、负载现状、元数据信息;
  • 数据基础设施现状:分析型数据库产品名称、版本、使用者、运维方、应用场景、数据存量;用户规划、权限分配等情况;运维、监控、预警平台现状;schema数量、名称、作用;主题域、逻辑模型和物理模型;表、视图、函数数量;
  • 比如,数据基础设施往往存在多种负面现状,如集群数量过多、不利于数据共享与维护,计算存储耦合、弹性能力受限,数据跑批与即席查询性能不足、数据报表与查询结果产出时效性差等;在云数据平台的实施过程中,企业对这些现状应当予以重点解决;
  • BI平台现状:BI产品名称、版本、使用者、运维方;BI报表数量、BI是否支持自助式报表;
  • 人工智能现状:AI平台产品名称、版本、使用者、运维方;AI模型的应用场景;AI模型的名称、数量及算法;建模任务现有运行时间;特征工程建立方式;
  • 比如,企业往往以使用规则引擎、传统机器学习算法来实现AI预测,且仅面向少量应用系统,无法实现对深度学习AI模型的敏捷开发;在云数据平台的实施过程中,企业对该现状应对予以重点解决;
  • 基础设施及架构现状:现有系统架构图、现有系统组件构成、现有集群数量及系统部署情况、现有服务器单节点硬件配置。

数字化转型实施团队构建

构建数字化转型实施团队主要价值在于为企业数字化战略提供人才支撑,因为缺乏人才支撑的数字化转型,在启动阶段就会遇到重重障碍。数字化转型实施团队主要包括以下三类人才。

  • 数据战略和数据治理类:数据战略顾问、数据治理专家、数据项目经理;
  • 数据科学和数据工程类:数据科学家、人工智能机器学习算法工程师、大数据工程师、数据测试工程师、数据运维工程师;
  • 数据管理和数据应用类:数据建模顾问、数据分析顾问。

在一系列现状梳理工作过程中,数字化转型实施团队可通过交付《现状调研报告》来作为中间成果,从而帮助企业高层明确企业现状,并为未来的需求分析工作积累文档素材。

在战略规划阶段结束时,数字化转型实施团队需要交付《数字化转型路线图》作为阶段性成果,以确定企业数字化转型阶段划分,从而帮助企业高层合理安排资源投入,并确定项目排期。

3.2 需求分析

需求分析阶段的主要目标,是将路径规划阶段制定的整体目标拆解到具体业务场景中,以制定更加具体的数字化实施排期方案。为此,企业需要首先对应用场景进行定义与分析,并对数字化需求进行分析,从而进行初步的系统演示,并交付数字化需求分析报告。

从这一阶段开始,企业可与有大量成功实施经验的数字化厂商(如偶数科技)展开密切合作,从而有效降低学习成本,提升实施效率,降低失败风险。

图 21: 需求分析

数字化转型时代的企业数据新基建 | 爱分析报告

应用场景定义与分析

应用场景定义与分析的主要价值,在于使得企业更加明确各个场景内数字化的潜在价值、所需投入,并有效指导数字化需求分析过程的分析范围与最终目标。为此,企业需要确定应用场景对应的业务目标,并对场景内的流程与需求功能进行分析。

数字化需求分析

数字化需求分析的主要价值,在于对数字化解决方案架构中的各个系统、模块与组件应达成的目标与效果进行确认,包括对数据存储与计算、数据资产、数据服务、数据平台、硬件部署、人工智能等各个模块的需求分析。

  • 数据存储与计算需求:未来数年数据量增长、存储需求、灾备需求及批处理、实时查询性能需求;数据存储和计算需求功能列表;
  • 比如,业务部门需要在T+1完成跑批结果,同时希望进一步扩大跑批所分析的数据量,从PB级到十PB级以上;业务部门希望将长达数分钟的即席查询周期,提升到秒级获取查询结果;
  • 数据资产管理需求:数据治理的目标分析,元数据管理、数据标准、数据质量规则需求,数据治理需求功能列表;数据资产目录需求,数据资产管理需求功能列表;
  • 数据服务管理需求:数据服务接口需求,数据服务部署需求;数据集市需求,数据可视化需求,数据报表需求;
  • 现有数据平台需求:现有大数据平台存在的优势,以及与源数据系统、外围应用系统的适配性分析;数字化转型对大数据平台的新需求,现有大数据平台对业务需求及数据需求的不满足之处,以及所需的需求功能列表;
  • 硬件部署需求:业务增长及数字化转型对新型平台硬件的变更需求,平台硬件部署拓扑结构变化需求分析,平台硬件部署需求功能列表;
  • 人工智能需求:AI模型最终用户确认;AI模型需求分析,如业务应用准确率与召回率,样本库数据,模型指标库,AI模型更新频率等;AI工具需求分析,如AI模型生命周期管理,应用系统调用AI模型方式;AI模型开发运维团队分配;现有AI模型问题汇总。

在需求分析阶段结束时,数字化厂商可基于测试环境,对数字化转型方案进行系统安装演示,并与企业客户密切配合,共同交付《业务及数据需求分析报告》。

3.3 方案设计&方案实现

方案设计阶段的主要任务,是对数字化转型方案中的各个系统、模块与组件的技术实现方式进行设计,提前发现实施中可能存在的难点,指导各个实施小组的具体分工协作方式,以保证方案实现阶段的工作能够合理、有序进行。

方案实现阶段的主要任务,是按照方案设计阶段输出的交付物,通过实际的编码、实施,将设计方案进行落地交付。

在理想状态下,方案设计与方案实现的内容能够完全一一对应,而且不会交替进行。但是,在许多情况下,由于设计阶段考虑的不周,或者项目排期的客观原因,这两个阶段可能是交替进行的,即在方案实现过程中或阶段完成后,方案设计仍需要重复进行。

在方案设计与实现阶段,企业需要对应用场景、数字化技术方案进行设计与实现。

图 22: 方案设计&方案实现

数字化转型时代的企业数据新基建 | 爱分析报告

应用场景设计与实现

应用场景设计与实现的主要价值,在于保证云数据平台与企业业务场景的良好适配,从而实现其最大化的业务价值。

  • 业务架构设计与实现:对应用场景下,企业自有的业务流程体系、业务运营模式、组织结构及其对应IT应用系统架构进行设计与实现,该工作一般需要企业或相应的外部服务商来完成;
  • 平台功能设计与实现:对应用场景下,云数据平台自身的交互流程、功能界面及接口进行设计与实现;
  • 数据流设计与实现:对应用场景下,数据在云数据平台、BI平台及外部系统的流动方式进行设计与实现。

数字化技术方案设计与实现

数字化技术方案的设计与实现,是整个数字化转型项目的核心内容,其时间与人力成本投入在整个项目中占据较高比重。

  • 数据模型设计与实现:数据模型的设计规范;逻辑数据模型的设计与实现,包括主题域分析,建立实体模型,建立实体间依赖关系;物理数据模型的设计与实现,包括转换逻辑数据模型为物理数据模型,对模型设计进行优化;
  • 数据处理设计与实现:通过ETL、任务调度等工具进行数据转换与加载,包括数据抽取、转换和加载策略的设计与实现,以及自动化调度依赖关系的设计与实现;
  • 比如,企业可应用Oushu Lava,以OushuDB高性能云数据仓库替代Hive引擎,基于同样的PB级数据和仅一半服务器节点数,跑批性能提升几十倍,复杂即席查询分析可在秒级完成;
  • 数据资产管理设计与实现:元数据管理的设计与实现,包括元数据功能、元数据提取规则及周期、元数据变更;数据标准的设计与实现;数据质量检查的设计与实现;错误数据处理的设计与实现;数据资产目录的设计与实现,包括数据权限分配等;
  • 数据服务管理的设计与实现:数据服务接口的设计与实现;数据服务部署的设计与实现;数据集市模型的设计与实现;数据可视化、数据报表、图形可视化的设计与实现;
  • AI模型设计与实现:AI模型特征工程设计与实现;AI模型算法/参数设计与实现;AI模型指标库设计与实现;AI模型服务设计与实现;AI应用场景数据宽表设计与实现;
  • 比如,应用LittleBoy自动化机器学习系统深度学习算法自动化完成关于客户画像、电信反欺诈等应用场景的模型训练、发布、生命周期管理,显著提升预测准确率、召回率。

基于企业与数字化厂商的密切配合,在方案设计阶段结束时,双方需要交付《数字化转型方案设计报告》,而在方案实现阶段结束时,双方需要交付《数字化转型方案交付报告》,并由企业对项目进行验收测试与试运行。

3.4 方案支持与迭代

在方案支持与迭代阶段的主要目的,是保持数字化转型方案的生命力,让其产生更加持久的业务价值。为此,企业需要与数字化厂商配合,对现有方案进行培训与推广,对已完成的数字化转型项目的业务价值进行复盘,对数字化技术方案进行持续迭代,对潜在业务场景进行持续探索。

图 23: 方案支持与迭代

数字化转型时代的企业数据新基建 | 爱分析报告

用户培训与应用推广:对业务场景、操作规范、云数据平台相关技术进行培训;制定应用推广计划,包括应用准备、应用推广启动、业务需求交流、专题应用开发、专题结果分析、应用评估总结、应用跟踪提升等环节;

业务收益复盘:通过业务部门的持续反馈以及对项目前后的业务指标的统计,通过定性判断、定量计算等多种方式,对数字化转型项目的业务价值与收益进行复盘,发现不足并寻找原因,从而指导未来的方案优化迭代;

数字化技术方案迭代:基于业务收益复盘的结果,对数据存储和计算进行性能调优,对数据资产管理、数据服务管理进行回顾与优化,对AI模型进行持续迭代与优化;

新应用场景探索:通过业务部门的持续反馈,确定企业新的业务场景、业务需求,并重复需求分析、方案设计、方案实现等环节,最终实现业务价值的验证。

4. 典型行业实践案例

4.1 银行行业案例

企业概况

某银行是12家全国性股份制商业银行之一,以四大业务板块(公司、小微、零售、同业)作为品牌支柱。该行于2016年在香港联交所上市,于2019年在上海证券交易所上市,系全国第13家“A+H”上市银行。

截至2019年末,在全国19个省(直辖市)及香港特别行政区设立了260家分支机构,实现了对长三角、环渤海、珠三角以及部分中西部地区的有效覆盖。

面对经济新常态,该行顺应互联网信息技术发展新趋势和客户价值创造新需求,确立了“两最”总目标和平台化服务战略,坚持“服务实体经济、创新转型、合规经营、防化风险、提质增效”五项经营原则,打造平台化服务银行,为客户提供开放、高效、灵活、共享、极致的综合金融服务。

数字化愿景与整体目标

为实现全行数字化转型,打造行业领先的零售银行、普惠金融,该行需要通过建立云数据平台满足业务创新应用敏捷开发、大数据数据资产价值最大化、人工智能深入应用的需求,从而不断提升客户体验,进一步加强在股份制银行中的地位。

应用场景梳理

该行现有应用系统包括管理会计系统、绩效考核系统、风险预警系统、客户画像系统、反电信诈骗系统、反欺诈系统、监管报送系统等几十个基于全行数据分析完成的应用。

数字化现状梳理

该银行已建设大数据智能平台来推动数字化转型,其基本现状如下:

  • Oracle、DB2传统数据仓库几百TB级数据,几万张表、上万个ETL作业任务,全行大数据在快速增长;
  • ODS区是采用文本文件的方式从源系统获取数据;标准数据集市区为统一交换平台,为分行大数据平台服务;总行大数据平台区实现数据粘帖、数据汇总、数据应用;分行大数据平台区实现数据粘帖、数据汇总、数据应用;沙盘演练区:开发测试环境区域,供开发测试以及各种演示使用
  • 只有少数场景使用规则引擎加手工修改脚本参数的方式实现人工智能预测。

数字化需求分析

该行现有的数据基础设施存在大量痛点,难以支撑数字化转型的进一步推进:

  • 由于传统数据仓库存储及计算性能接近上限:无法满足全行数据未来几年的增长;
  • 数据孤岛依然存在:没有沉淀数据资产,缺少数据治理系统工具及完备的数据标准;
  • 无法快速赋能业务应用创新;对于某个分析业务的需求,用户从准备数据,汇集数据,建立模型,生成报表整个过程需要的周期太长,效率低下;
  • 规则引擎预测准确率比较低、缺少自动化机器学习模型预测。

数字化技术方案设计与实现

偶数科技为了帮助该行应对数字化中存在的痛点,从数据战略、云数据平台整体架构、数据资产管理、数据治理、人工智能建模平台建设等方面为该行完成了详细的设计与实施方案:

图 24: 新一代云数据平台方案

数字化转型时代的企业数据新基建 | 爱分析报告

数据来源:偶数科技

  • 应用Oushu Lava,以基于HDFS的OushuDB高性能云数据仓库替代Oracle、DB2数据仓库,现有上百个节点可以支持PB级数据、可动态扩容,单一集群支持上千节点,满足行方未来十年数据高速增长,且跑批性能是之前传统数据仓库的数倍;
  • 应用Lava数据治理套件实现数据治理,完成数据标准管理、元数据管理、数据资产管理;
  • 应用LittleBoy自动化机器学习系统完成风险预警、反洗钱、反欺诈等应用场景的模型训练、发布、生命周期管理,显著提升预测准确率、召回率;
  • 应用Lava数据服务套件,将数据资产、AI模型发布为数据与AI Rest API服务实现上层共享。

业务收益复盘

在偶数科技的方案成功实施之后,该行获得了以下方面的业务收益:

  • Oushu Lava实现上层应用敏捷开发、数据资产价值最大化,使得数据及时赋能业务,提升用户体验 、提高业务部门效率;
  • OushuDB实现了传统数据仓库所无法处理的海量数据、且系统迁移时间短;其在秒级时间内给出交互式分析结果,为业务人员针对重点问题及时决策分析提供了强有力的工具保障;
  • LittleBoy自动化机器学习系统提供的模型预测增强了全行风险管控能力、智能获客能力。

4.2 保险行业案例

企业概况

某保险公司属国家大型金融保险企业。2018年,该保险公司的集团公司合并营业收入7684亿元;合并保费收入6463亿元;合并总资产近4万亿元。

该保险公司已连续17年入选《财富》世界500强企业,排名由2003年的290位跃升为2019年的51位;连续12年入选世界品牌500强。该保险公司所属股份有限公司继2003年12月在纽约、香港两地同步上市之后,又于2007年1月回归境内A股市场,成为全球第一家在纽约、香港和上海三地上市的保险公司。

目前,集团公司下设8家一级子公司、1家全国性股份制银行,业务范围全面涵盖寿险、财险、企业和职业年金、银行、基金、资产管理、财富管理、实业投资、海外业务等多个领域多家公司和机构;2016年开启保险、投资、银行三大板块协同发展新格局。

近年来,该保险公司坚持高质量发展,扎实推进保险主业价值和规模协调发展,努力提升投资板块贡献,积极做好银行金融服务,有序开展综合化经营、科技化创新、国际化布局,全面推进国际一流金融保险集团建设。

数字化愿景与整体目标

该保险公司在战略层面,确立数字化转型的“四大行动”:客户体验数字化、运营管理数字化、商业模式数字化和全面夯实数字化基础平台。

该保险公司通过科技化创新,持续深化业务与科技融合、数据融合、平台融合、线上线下融合、科研融合、生态融合,不断提升科技创新能力和赋能水平,提供企业级数据资产管理平台,统一数据标准,通过数据标准体系与数据指标系统建设,统一数据指标口径,统一数据服务,实现数字化平台、智能服务与运营服务。

应用场景梳理

该保险公司现有包括综合业务处理系统、个人渠道销售人员管理信息系统、团体销售人员管理信息系统、中介代理短险销售系统、客户主数据管理系统等几十个业务应用及分析系统。

数字化现状梳理

该保险公司已建设传统数据仓库来推动数字化转型,其基本现状如下:

  • 几十个SQL Server、Oracle传统数据仓库,累计近PB级数据,上万张表、几千个ETL作业任务,集团大数据在快速增长;
  • 数据庞杂而分散,前台和后台、内部与外部、全景汇聚数据、结构化与非结构化的数据,分散在不同大数据平台来分别进行加工处理;
  • 面向少数应用系统使用规则引擎、传统机器学习算法实现人工智能预测,但是无法实现对模型的敏捷开发,上层各应系统无法便捷获取模型/数据服务。

数字化需求分析

该保险公司现有的数据基础设施存在大量痛点,难以支撑数字化转型的进一步推进:

  • 集团与各省分公司业务指标一致性不理想,急需建立统一的数据模型与数据标准,提高数据一致性;
  • 公司系统的数据质量问题,而数据差错的溯源比较困难;急需建立数据治理的闭环和数据质量体系;
  • 数据孤岛依然存在,没有沉淀为全集团共享的统一的数据资产;
  • 无法快速赋能各省业务应用创新;对于某个业务创新的需求,从分析数据,汇集数据,建立AI模型,完成自动打标签,直至生成报表整个过程需要的周期太长,效率低下。

数字化技术方案设计与实现

偶数科技为了帮助该保险公司应对数字化中存在的痛点,从数据战略、云数据平台整体架构、数据治理、数据资产、数据标准、元数据管理等方面上为此保险公司完成详细的规划设计和实施方案:

图 25: 某保险公司方案

数字化转型时代的企业数据新基建 | 爱分析报告

数据来源:偶数科技

  • 应用Ouhshu Lava,以OushuDB高性能分析型云数据库替代SQL Server、Oracle传统数据仓库,现有近百个节点可以支持PB级数据、可动态扩容,满足未来数据高速增长需求,且跑批性能是之前传统数据仓库的数倍;
  • 应用Lava数据治理工具数据治理,完成数据标准管理、元数据管理、数据资产管理;
  • 应用Lava标签和指标管理套件,完成标签和指标体系的可视化定义、建模、自动化打标签、标签展示、上线、权限管理、访问监控、统计分析、全生命周期管理;
  • 应用Lava数据服务模块,将数据资产、AI模型发布为数据与AI Rest API服务实现上层共享。

业务收益复盘

在偶数科技的方案成功实施之后,该保险公司获得了以下业务收益:

  • Oushu Lava实现数据指标一致性管理、数据质量管理、标签和指标体系管理、数据资产价值最大化,为降本增效、实现精细化管理、赋能保险业务等起到重要支撑作用
  • OushuDB实现了传统数据仓库SQL Server、Oracle所无法处理的海量数据、且跑批任务所用时间大幅缩短近50%;并同时支持在秒级时间内为业务人员提供交互式即席分析结果。

4.3 电信行业案例

企业概况

某国内电信运营商在国内31个省(自治区、直辖市)和境外多个国家和地区设有分支机构,并在香港、北美、欧洲、日本和新加坡设有境外运营公司,是中国唯一一家在纽约、香港、上海三地同时上市的电信运营企业,连续多年入选“世界500强企业”。

该电信运营商提供电话业务、互联网接入及应用、数据通信、视讯服务、国际及港澳台通信等多种类业务,能够满足国际、国内客户的各种通信需求,主要经营GSM、WCDMA和FDD-LTE制式移动网络业务,固定通信业务,国内、国际通信设施服务业务,卫星国际专线业务、数据通信业务、网络接入业务和各类电信增值业务,与通信信息业务相关的系统集成业务等。

该电信运营商在英国《银行家》杂志“2019年全球银行1000强”榜单上,按一级资本位列第107位、按总资产位列第98位。

数字化愿景与整体目标

近年来,该电信运营商实施聚焦创新合作战略,开展“一型两化”布局,聚焦非传统链接、平台型、应用集成型创新领域,快速提升自主研发、自主集成、自主运营、自主维护能力。

该电信运营商通过云数据平台建设实现“1+2”大数据管理模式,即“数据运营方+管理方+审计方”,在加强数据隐私保护的基础上,增强大数据数据资产价值及业务创新应用,扩展运营商大数据在客户画像、智能推荐等人工智能应用领域的深入发展。

应用场景梳理

该电信运营商现有包括话务流量分析系统、通讯费用管理系统、银行对账系统、综合维修系统、客户服务管理系统、反电信诈骗系统、客户画像系统等几十个基于全集团数据分析的应用。

数字化现状梳理

该电信运营商已建设大数据智能平台来推动数字化转型,其基本现状如下:

  • 现有大数据平台基于Hadoop Hive 集群近2000个节点,存储全国几十PB级数据,上万张表、上万个ETL作业任务,全集团大数据随着5G的发展增长迅猛,日均数据增长量几百TB;
  • Hadoop Hive通过读取大量文本文件每日多次定时从源系统批量获取源端导出的数据;Hive集群每天几乎不间断的基于PB级数据为几十个应用分析系统的上万个作业任务进行跑批运算分析,目前一般在T+3得到跑批结果,随着数据量的增加,跑批时间在不断延长;业务部门基于大数据分析的即席分析时间长达数分钟;
  • 大数据平台中的数据资产尚未实现服务化管理为业务人员其他应用系统提供数据服务;
  • 只有少数场景使用规则引擎和传统机器学习算法实现人工智能预测。

数字化需求分析

该电信运营商现有的数据基础设施存在大量痛点,难以支撑数字化转型的进一步推进:

  • 各业务部门需要在T+1完成跑批结果,同时希望进一步扩大跑批所分析的数据量--从现在的PB级到十PB级以上;
  • 业务部门需要基于大数据分析秒级获取查询即席分析结果,但是目前即席分析时间长达数分钟;
  • 缺少数据治理系统工具及完备的数据标准,没有沉淀为统一的数据资产;
  • 规则引擎预测准确率比较低、新模型开发周期长,缺少自动化机器学习模型预测系统和自动打标签系统。

数字化技术方案设计与实现

偶数科技为了帮助该电信公司应对数字化中存在的痛点,从数据战略、云数据平台整体架构、数据仓库及维度模型建设、数据治理和数据标准建设、自动化机器学习平台建设、标签和指标平台建设等方面,分别为集团本部及省分机构完成详细的规划设计和实施方案:

图 26: 某电信运营商方案

数字化转型时代的企业数据新基建 | 爱分析报告

数据来源:偶数科技

  • 应用Oushu Lava,以基于HDFS与Hive共享数据的OushuDB高性能云数据仓库替代Hive 引擎,基于同样的PB级数据和仅一半服务器节点数(几百个节点),跑批性能较Hive提升几十倍,复杂即席查询分析可在秒级完成;
  • 应用Lava数据治理套件实现数据治理,完成数据标准管理、数据资产管理,与AI Rest API服务实现上层共享;
  • 应用LittleBoy自动化机器学习系统深度学习算法自动化完成关于客户画像、电信反欺诈等应用场景的模型训练、发布、生命周期管理,显著提升预测准确率、召回率;
  • 应用Lava标签和指标管理系统,便捷实现标签定义、标签引擎计算、自动打标签、标签展示 、标签统计等。

业务收益复盘

在偶数科技的方案成功实施之后,该电信运营商获得了以下业务收益:

  • OushuDB对比原有Hive数据分析实现了几十倍的性能提升,可以满足业务部门T+1获得跑批结果的及秒级获得即席查询结果的需求,为业务人员针对重点问题及时决策分析提供了强有力的工具保障;
  • LittleBoy自动化机器学习系统提供的模型预测增强了集团客户画像、客户挖潜的能力;
  • Oushu Lava实现数据治理、数据资产管理和数据服务化全生命周期管理,实现数据价值最大化,使得数据及时赋能业务部门和数据科学家团队,提高了业务部门基于集团大数据开发智能推荐的效益。

报告编委

报告执笔

黄勇 爱分析 合伙人&首席分析师

冯伟 爱分析 分析师

免责声明: 除非特别声明,文章均为投稿或网络转载,仅代表作者观点,与大数据中国网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。如果本文内容有侵犯你的权益,请发送信息至ab12-120@163.com,我们会及时删除
1234

最新评论

关闭

站长推荐上一条 /1 下一条

 
 
大数据行业交流
大数据行业交流
大数据求职招聘
大数据求职招聘
站长电话:
15010106923
微信联系:
hb-0310
站长邮箱:
ab12-120@163.com
大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-4-26 09:14 , Processed in 0.076981 second(s), 23 queries .

返回顶部