平安银行廖晓格金融大数据平台的构建和应用
5月21日,由北京金融科技产业联盟、移动支付网联合主办的“金融科技大讲堂”第二期准时开播,平安银行大数据资深专家廖晓格为大家分享了平安银行在金融大数据平台的实践经验。
金融大数据平台总体架构
银行拥有大量具有及高价值的数据,但是这些数据往往存在于不同的业务线上,由于收集标准不统一、统计标准不统一和部门权限问题等问题,造成了有数不能用。
在廖晓格看来,大数据平台就是通过整合全域数据,统一标准、口径和加工模式,打造便捷共享的中台数据支撑体系。将复杂的大数据处理技术封装起来,将数据以服务API的方式提供给前台应用,提升开发效率,降低开发难度,提升业务运行效率。
大数据平台分为数据中台和数据后台。数据后台分为基础平台和基础数据。基础平台包括大数据平台能力、AI基础平台和核心组件。
数据后台往上是数据中台,包括数据应用和数据产品,赋能给相应的场景和业务。数据产品包括知识图谱、银行统一知识库、用户行为系统和时空分析等等。数据应用则包括智能营销、智能风控以及智能体验和服务。
数据流总体架构是大数据平台总结架构中非常重要的一部分。廖晓格表示,目前银行有多个数据源,包括行内数据、集团数据、外联数据和互联网数据,平安通过不同的方式进行数据采集,包括Sqoop、Filebeat、Timeline等等。采集到的数据将会被传输进大数据平台进行处理、储存。
基础平台建设
廖晓格介绍,平安银行大数据基础平台建设是基于开源大数据组件,支持PB级别大数据海量存储和计算,支持大数据KV存储,Document存储及查询,支持海量大数据实时计算。
该大数据基础平台总容量50PB,日新增数据100T,包括金融数据、非金融数据、用户行为、网站爬虫数据等等,日计算Job 50万+,日服务800+用户。
廖晓格表示,由于金融数据是强敏感数据,因此平安银行建立了统一的脱敏平台,将数据进行脱敏之后,再通过可视化界面进行展示。在平台建设及扩容过程中,需要组建平台核心团队,深入理解组件功能,对平台能力进行快速优化。
在HDFS优化中,平安银行团队降低NameNode RPC压力,独立日志节点,balancer请求到namenode standby节点,未来将引进NameNode Federation联邦,并吧hive临时文件写到日志集群。
在Elasticsearch优化中,平安银行团队通过Spark离线构建Elasticsearch索引,再导入ES集群,解决Elasticsearch导入慢,写压力过大影响集群性能,未来将会跟Z+数据调度平台整合,并开放给用户使用。
安全是大数据平台的基础,廖晓格表示,金融大数据平台要处理海量的敏感数据,如何做到数据安全,保证敏感数据得到安全的使用?如何判断作业权限?如何报警查询作业?等问题都是需要解决的。
为了解决这些问题,平安银行做了很多工作。在安全架构方面,平安银行团队通过在SQL/作业埋点用户帐号,分析SQL/Job对应的元数据字段,判断用户权限,返回用户对应的脱敏数据。
在执行流程上,首先判断是否具有权限,其次判断是否需要脱敏,采集团队会在原始层标注敏感字段,根据原始标注的脱敏字段进行字段血缘分析,将下游依赖原始脱敏字段的敏感字段添加到元数据脱敏库里面。
这样将会有效减少人工标注的工作,也将提高标注的准确率。
核心服务架构
廖晓格接下来对金融大数据平台的核心平台进行了介绍。其中包括三个部分:Z+调度平台、E+决策引擎和AI Cloud算法平台。
Z+调度平台是数据离线计算平台,支持多租户,数据的搬运工;E+决策引擎是数据实时计算平台,支持多租户,构建业务系统的变量中心及规则引擎;AI Cloud算法平台是数据模型训练平台,通过模型开发,训练,部署,并提供算法API服务。
廖晓格首先介绍了大数据开发平台,他表示,在大数据平台上每天会有大量的作业同时进行,因为必须要对平台上的作业进行管理。
该平台可以提供作业增删改查、作业上线流程、作业数据自动化测试、作业元数据信息管理、历史变更记录、作业资源管理等等能力。平台可以自动识别上下游作业依赖关系,实时刷新依赖关系,支持作业失败自动重试,设置作业生命周期,设置作业执行引擎。
整个平台支持将数据库(Mysql,Oracle),Elasticsearch,Hive,File,Redis等存储之间数据互相转换,支持数据应用研发。
四大类型数据中台服务
一个大数据平台是否好用,还是要看其数据中台服务能力。平安银行团队将数据中台的服务定义成四种类型:明细查询、标签服务、事件中心、图谱查询。四大类型的服务包括多个功能。
廖晓格对四大类型服务都做了详细的介绍。其中标签服务是通过标签系统完成,该系统通过整合行内外用户数据,建立银行生态中用户标签体系,为多种营销场景提供高价值,高可用的客群精准定向服务。
事件中心则是通过对用户行为来定义用户的断点。比如用户在App上购买某产品失败,系统就会将该事件定义为断点,并反馈给客服,由客服向用户提供沟通服务,帮助用户完成业务。
图谱查询目前已经做到服务实体100+,关系类型300+,全网数据量达到800亿+,单次分析达到500个种子节点。
其中基于知识图谱的大数据可视化分析平台,可应用于金融场景下的反欺诈、贷后监控、群体案件排查和失联查找等。基于逻辑图库(Elasticsearch,关系数据库)等存储,支持海量图数据查询,支持基于图关系快速建模。
廖晓格表示,在未来团队将会对大数据平台进行升级,完成hadoop3.0升级,引入新组件,提高计算和存储性能,进行扩容,灾备机房建设。
在数据治理方面,将打造数据安全、高质量、数据标准化平台,让数据转化成知识和智慧,让数据成为生产力。在数据决策方面,要提炼数据知识,让大数据发挥智能决策能力打造公司数据知识大脑,利用实时流式计算,快速业务决策及营销。
讨论环节
在讨论环节,针对观众提出的部分问题,廖晓格进行了互动回答。
有观众提问,在金融大数据平台建设的周期和成本问题。廖晓格表示,金融大数据平台建设成本主要是来自于机房建设成本。他所在团队主要是业务团队,建设标签系统、千人千面查询系统,在这个过程当中建设成本是比较低的。
另外有观众针对金融大数据平台建设技术进行了提问,廖晓格都进行了详细的回答。比如平安大数据平台是基于Hadoop还是CDH之类的建设的?平安数据服务类的客户交易查询是基于ES,有没有使用Hbase的?
ES一个索引存储多少数据?关系图谱使用的是什么数据库存储?如何解决超级节点问题?平安银行利用大数据进行反洗钱监测的成效如何?监测结果能及时反馈吗?等问题引发了热议。
具体精彩内容欢迎关注查看直播回看: