银行大数据风控体系创新价值

2021-11-12 本文已影响 111人

　　摘要：本文主要研究了关联图谱在银行信贷业务风控中的应用，并设计系统落地实施方案。具体使用了包含实体抽取、关系抽取、图谱构建和数据存储等关键技术，发现信贷业务中的欺诈团体，其模型结果和可行的实施方案构筑了大数据风控体系，弥补了个体反欺诈的局限性，解决识别个体正常但属于欺诈团伙的反欺诈防范痛点，大幅提升反欺诈调查的效率。自系统上线以来，稳健运行，识别欺诈团伙逾期率约为正常客户的5倍。

　　关键词：关联图谱；大数据风控；反欺诈

　　大数据风控模型近几年在信贷业务中被广泛应用。传统的风控模型基本是对借款人个人情况的评估，而较少去评价不同申请人之间的关联关系。而信贷业务中的欺诈团伙经常体现出较强的关联关系，并伴随着较强的伪装手段，使得无法通过简单的一度关系识别不同客户是否来自同一群体。关联图谱是一种非常适合信贷业务反欺诈领域的方法，其识别欺诈客户的效果较优，同时又具有技术上的可行性。

　　1研究内容

　　本文基于关联图谱的理论和技术，根据信贷业务的数据特征和业务要求，研究其在信贷业务大数据风控领域中的实际落地应用方案，包括关联图谱的实体与关系抽取、图谱构建、数据存储等技术，以及基于关联图谱构建大数据风控提示的具体实践。

　　2关联图谱的理论基础及关键技术

　　2.1关联图谱理论

　　关联图谱的本质是语义网络的一种，是一种基于图的数据结构。关联图谱一般由实体-关系-实体的三元组构成，这种三元组可以将互相独立的贷款申请之间关联起来，形成复杂而连通的网络。图1即是关联图谱的一个示例，申请人1、申请人2、申请人4与公司1是工作关系，申请人1和申请人3是配偶关系。虽然申请人2和申请人3并无直接的关联关系，但是通过关联图谱可以将两人联系起来。后续可以通过机器学习的算法识别两人是否属于同一群体。

　　2.2关键技术

　　2.2.1实体抽取技术关联图谱中的实体可以被定义为任何事物。在信贷业务中，一般可以认为实体是人、设备、IP地址、公司、地址等，而关系包括从属关系、联系人关系。由于信贷业务中的实体都较为明确，例如身份号、手机号均可以唯一地识别实体，故信贷业务中实体抽取较为简单，可以采用常用的结构化数据来提取和标识实体。在实际应用中，选择身份证号、手机号、地址、公司名来构建关联图谱。值得注意的是在实际应用中，诸如地址、公司名这样的实体存在数据标准化的问题。数据标准化问题主要来源于客户填写时的方式千奇百怪，如新疆和新疆维吾尔自治区实际是同一省份。数据标准化的问题主要采用基于N-gram和基于HMM的分词方法对原始数据进行分词后与已有的行政地址划分库和公司库进行比对，可将非标准化的地址和公司映射至标准化的地址和公司名。对于已知的词汇，假设随机变量S是一个文字序列，随机变量W是S可能的切分路径。分词实际上就是求解使条件概率P（W|S）最大的切分路径W*，即由于对W来说S为已知序列，故P(S|W)为1，P(S)为常数，因此只需要求解P(W)。P(W)使用N-gram语言模型建模，假设一个词出现的概率，只与其前n-1个词相关。常用的Bi-gram取n=2，即一个词出现的概率只与其前一个词相关：可以用全切分有向无环图（DAG）来画出简单句子的所有区分，并寻找出一条概率最大的路径。对于未知的词汇，使用HMM(隐马尔克夫模型)模型，用Viterbi算法找出最可能出现的隐状态序列。2.2.2关系抽取技术信贷业务中实体之间的关系也较为明确，如联系人之间的关系可以是配偶、朋友、亲戚等，对于此类关系，可以直接进行提取。实际应用中，对于地址、公司的关系提取存在一定的集中性问题。如较多客户填写同一个工作单位，就不能简单地把其处理为同事关系，一是因为客户之间的关系较弱，他们本身认识或者成为同一群体的概率较小；二是图谱中如有少数实体有较多关系相连，则群体发现算法会在这样的大实体上集中，而忽视小实体之间关联关系。信贷反欺诈中实际更关注小实体之间的关联关系。故抽取关系的时候必须对集中性关系进行处理。针对集中性问题，可以结合实际情况采用删除和降低权重处理。2.2.3图谱构建技术在抽取完实体与关系后，可以将所有信息放入连通图。此时需要使用机器学习模型去将实体切割成不同的子群体，观察群体内部有无明显的欺诈行为。切分群体的方法主要包括标签传播算法、Louvain算法。标签传播算法为基于图的半监督学习算法，基本思路是从已标记的节点的标签信息来预测未标记节点标签的信息，经过多次迭代使整张图达到稳定，建立完全图模型。Louvain算法是基于模块度来衡量一个社群的划分是不是相对比较好的结果，最终以最大化模块度为目标，得出最优的群体划分方法。2.2.4数据存储技术关联图谱可以使用传统的结构化数据库来存储数据，也可以选择图数据库。传统的结构化数据可以采用实体-关系-实体的结构来存储数据，可以将其拼接后进行指标计算，最后对每一个实体进行标注。结构化数据的优势是逻辑清晰，编码简单，劣势是计算速度较慢。为了实现社群发现算法，解决计算量大、计算复杂的问题，采用了Spark技术。Spark技术是基于内存计算的大数据并行计算框架，其速度显著快于需要大量I/O和CPU计算的Hadoop的Mapreduce。本项目采用了Spark的GraphX组件进行图数据处理和图运算；采用了SparkMlib库可以加速机器学习模型的运算速度。同时，为了在建立网络后分析所发现群体关联情况和欺诈情况，采用了Neo4j图数据库做可视化，使用声明式图形查询语言Cypher，它允许用户不必编写图形结构的遍历代码，就可以对图形数据进行高效的查询。

　　3基于关联图谱构建大数据风控体系

　　3.1大数据风控应用体系搭建

　　3.1.1风控平台搭建大数据风控平台是一个应用数据挖掘、机器学习等算法实现信贷审批、风险管控的集成式系统工具，它由多系统模块联合交互构成，核心组成包括信贷审批系统、决策引擎、模型平台、实验平台以及监控平台。信贷审批系统:主要实现三大功能，业务调度、流程引擎及审批工作台。业务调度功能实现前端业务的接入，执行不同业务对应的风控流程，并且对执行过程汇总的异常进行监控和处理；流程引擎则可实现具体信贷流程的配置管理，例如全自动审批还是人工审批与机器审批相结合；审批工作台则是提供给信贷审批人员的操作界面，提供信息展示与审批结果记录的功能。决策引擎:自动化审批测略的部署平台，承载的是风控业务的专家知识，基于客户特征和模型的输出，对客户进行分层、风险判断以及风险定价等操作。模型平台:模型实时部署运行平台，关联图谱的应用均在模型平台中完成，它可以在实时审批中整合信贷申请信息，提取关键特征，完成关联图谱与机器学习模型的结果预测，是整个在线风控平台的一大核心。实验平台:可实现离线策略仿真测算、模型搭建的功能。基于Hbase数据库的大量离线数据及算法服务器，进行风控模型挖掘、验证、策略测算。监控平台:分为实时运营监控及离线定时监控两部分。实时运营监控可计算当日实时业务审批情况，包括进件量、审批结果、异常申请件情况等，可进行实时的异常情况预警；离线监控可按设计，定时生成按日、按周、按月的监控报表，监控报表基于Tableau的报表平台服务框架，底层数据管理采用Hive数据仓库工具。3.1.2关联图谱模型挖掘构建关联图谱时，首先需要确定关系有哪些，关系的选取主要根据专家经验，确定哪些关系可以表现出申请人在行为上的趋同性，同时这些行为上的趋同性对于信贷风险有一定影响，选择的关系主要包括公司、地址、联系人、手机号归属地等。确定关系后，将申请人与申请人之间通过不同的关系相连接形成网络，若采用相同特征构建关联网络则称为同构网络，若采用不同的关联特征构建网络则称为异构网络。构建完网络后，选择可以将其中的节点划分为社群的算法，社群发现的相关算法各有优劣，需根据建模需求、样本情况、开发时限等因素综合判断后选择。通过社群发现算法可将具有关联关系的不同申请人标记为同一个群体，随后需从百万级的群体中挖掘出欺诈群体。欺诈是一个较为主观的定义，业务较为广泛的定义包括首逾客户、从未还款客户、通过人工欺诈调查得出的欺诈客户等，定义完欺诈客户后，需借由欺诈客户挖掘出欺诈群体，欺诈群体的定义也没有唯一标准，一般会要求群体中欺诈客户的样本点不低于N人（N>=2）且群体的欺诈率为整体均值的M倍以上（M>=2）。至此，就完成了基于关联图谱的欺诈团伙发现模型，后续可进一步应用图数据库，可视化欺诈团伙，进一步进行分析及模型优化。3.1.3关联图谱应用场景实践根据3.1.2的关联图谱模型的挖掘方法，项目组采用异构网络构建关联图谱，应用标签传播的社群发现算法进行群体识别，成功发现1,179个3人及以上的高风险欺诈团伙，欺诈率为均值的4-5倍。

　　3.2落地实施方案

　　3.2.1系统架构审批系统作为线上实时审批的流程管控系统，串联起决策引擎、模型平台及人工审批平台；离线实验平台则是模型挖掘、规则分析的主要平台，复杂的算法模型策略在实验平台开发、验证，随后部署至模型平台或决策引擎平台；监控平台担实时业务、报表统计的功能。主体系统架构可详见图2。3.2.2系统关键技术特点整体风控平台有三大关键技术特点。一是能够应对大量数据处理，实验平台采用了Spark技术，Spark技术是基于内存计算的大数据并行计算框架，其速度显著快于需要大量I/O的CPU计算的Hadoop的Mapreduce，同时配置GPU算法服务器，进一步加快计算效率。关联图谱的运算采用了Spark的GraphX组件进行图数据处理和图运算；采用了SparkMlib库可以加速机器学习模型的计算速度。二是能够对模型策略进行灵活高效的迭代，决策引擎平台及模型平台可以支持策略规则的高效更新上线。决策引擎为可视化操作，支持判断逻辑的多种组合，流程链路的个性化配置，可优化策略部署速度；模型平台可支持更复杂的模型计算，弥补决策引擎的短板。三是离线及在线系统的交互，可以支持风控策略的对抗升级。信贷申请的攻击者会不停地进行内部规则的猜测，原本有效的在线策略会随着这些攻击出现有效性下降的问题。在线系统可以及时发现实时的异常情况，反馈业务人员排查风险；离线数据虽然有滞后性，但可以支持大批量的数据运算，挖掘出在线系统无法捕捉的异常攻击，反哺在线策略。

　　4研究成果的创新价值及影响

　　传统的机器学习模型更关注申请人自身的信贷风险。但在信贷业务中，人和人之间并不是独立的，往往存在一定的集中性风险。欺诈中有较大比例的模式为团伙欺诈，需要能够将不同类别的特征整合起来，提取它们之间关联特征与团伙特征，以识别不同申请人之间的关联风险。关联图谱（复杂网络）是解决上述问题的一种常用且有效的方法。充分发挥其直观化、效率化的图技术优势，在反欺诈方面成效显著。本项目的研究成果一是弥补了个体反欺诈的局限性，解决识别个体正常但属于欺诈团伙的反欺诈防范痛点；二是可以充分整合个体反欺诈模型较难运用的弱特征变量，如手机号归属地、居住地等，将多源异构的数据整合成机器可以理解的知识，将单点信息转化为平面的相互关联的图谱；三是大幅提升了欺诈调查的效率，传统的关系型数据库，需要技术人员执行一系列的复杂连接才能将关联信息提取出来，图数据库在这方面具有天然的优势，可将欺诈团伙的网络直接展现。

　　5总结与展望

　　关联图谱在风控领域的应用是一个复杂的问题，对数据来源、系统性能、应用方案有着较高的要求。本文对关联图谱在银行大数据风控体系内的应用进行初探，模型效果经测算在历史样本上效果较好。基于具有可行性的落地方案，成功上线，搭建起基于关联图谱的大数据风控体系，完成初版关联图谱模型上线。并持续运行稳健，识别欺诈团伙逾期率约为正常客户的5倍。当然，本文在这一领域的研究还有很大的上升空间，未来将持续对算法效果、运行效率进行研究与改进。

　　参考文献

　　[1]尹亮,袁飞,谢文波,等.关联图谱的研究进展及面临的挑战[J].计算机科学,2018,45(6A):1-10.

　　[2]黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19.

　　[3]田思虑,李德华,潘莹.一种改进的基于二元统计的HMM分词算法[J].计算机与数字工程,2011,39(1):14-16.

　　[4]HuB,ZhangZ,ZhouJ,etal.LoanDefaultAnalysiswithMultiplexGraphLearning[C]//Proceedingsofthe29thACMInternationalConferenceonInformation&KnowledgeManagement.2020:2525-2532.

　　[5]WangD,LinJ,CuiP,etal.Asemi-supervisedgraphattentivenetworkforfinancialfrauddetection[C]//2019IEEEInternationalConferenceonDataMining(ICDM).IEEE,2019:598-607.

　　[6]张俊丽,常艳丽,师文.标签传播算法理论及其应用研究综述[J].计算机应用研究,2013,30(1):21-25.

　　作者：张素子单位：兴业消费金融股份公司

返回银行论文列表

展开剩余（

）

银行大数据风控体系创新价值

继续阅读

热门标签