[摘要]小微企业是国民经济和社会发展的重要基础,是创业富民的重要渠道,但由于中小微企业数据的可获取性与可靠性较低,银行及其他金融机构如何有效地为小微企业提供信贷融资服务是一个富有挑战性且具有重要意义的课题。文章通过三种分类算法对中小企业的信贷评级和违约情况进行预测,运用经典判别分析和机器学习算法进行模型构建和比较,寻找信誉评级预测的最优模型,对数据相对缺少的中小企业信誉评估有一定借鉴价值。
[关键词]信誉评级;信贷策略;中小企业;分类算法
1引言
在疫情期间,中小企业受到了巨大的冲击,清华大学和北京大学于2020年2月关于995家中小企业联合调研显示,85%的企业撑不过三个月,67%撑不过两个月,34%撑不过一个月。[1]市场避险情绪的加剧以及疫情对中小企业的影响会使信贷需求大幅增加。在此情形下,对企业数据不够充足的中小企业资质和信誉评估就成了一大难题。关于企业信誉评级的建模方法,目前国内外学者主要使用Logistic回归分析、[2]AHP模糊综合评价法、[2]神经网络算法等,[3]但仍存在精度较弱、程序复杂等问题。Hajek和Michalak(2013)综合分析了世界范围内的企业信用评级预测的建模算法,[4]包括经典统计方法和机器学习算法。Hajek和Michalak提到,经典统计模型的结果相对容易解释,但是需要各种假设在理论上成立,而机器学习算法的预测能力更强。然而,在上述提及的研究中,模型的变量设置较为全面,包括流动比率、市净率、总资产收益率、负债比率等公司金融数据,而对于本文提供的中小企业数据,变量类型存在局限性,且数据量较少。在这类问题上,文章优先使用经典统计方法进行建模分析,在此基础上引入机器学习算法进行模型比较。
2数据来源与变量说明
文章在123家有贷款记录和302家没有贷款记录的中小微企业数据的基础上(包含2016年10月—2020年2月全部的进项发票和销项发票信息),定义了四个变量以评估企业的信誉评级。
2.1盈利能力
盈利能力代表一家企业获得利润的能力。文章的盈利能力定义为销项发票价税总额减去进项发票价税总额,并按季度取平均值,当企业的盈利能力取值为负数时,说明企业平均运营亏损。
2.2发展能力
发展能力代表一家扩大规模的潜在能力,文章的发展能力定义为企业每个季度的盈利环比增长率均值。
2.3还款潜力
还款潜力指企业偿还债务的能力。文章使用每季度企业的平均盈利与企业的平均进项发票价税合计之比代表企业的还款能力。2.4发票作废率发票作废率在一定程度上体现出企业是否健康合法运营,是银行需重点关注的指标。文章中发票作废率定义为企业每个季度的作废发票占每个季度发票总和的平均比例。表1给出了上述变量的数据结构,前两列为变量名和对应的字母代号。
3模型构建与分析
根据已有部分带标签的数据,需要对无信贷记录标签的企业进行是否放贷和信誉评级的两步判断。在处理二分类问题上,许多学者会优先考虑使用二元Logistic回归模型。然而,James(2013)发现在处理分类结果很确定的问题时,Logistic回归的估计结果可能不稳定。[5]他指出,当数据类较为离散时,线性判别分析不存在这一问题。因此,文章引入线性判别分析(LinearDiscriminantAnal-ysis,LDA),这也是一项?分常用的分类技术。Fisher判别法是常用的一种线性判别法,该方法借鉴了方差分析的思想,将K组p维向量投影到某一个方向,使得它们投影后组与组之间尽可能地分开。该方法假定K个总体的协差阵矩阵满秩且相等。
3.1是否放贷的判断
对123家有信贷评级和违约记录的企业按7∶3的比例进行训练和测试。测试结果与测试集的原有标签构建混淆矩阵,用于检验模型的预测效果。训练得到的判别函数为:y1=-3.1989×10-09×PRO-1.1766×10-03×SOL+1.7192×10-03×POT+13.2854×INV(1)判别规则为:x∈Gl,若|y1-y—1≤i≤2i1|=min|y1-y—i1|l=1,2(2)当l=1时,G1代表给予贷款;当l=2时,G2代表不予贷款。模型效果如表2所示。准确率(Accuracy)=96.97%,真负利率(Speci?city)=100%。对于测试集模型检验的结果,其准确度(Accuracy)高达96.97%,模型效果很好。然而,需要着重关注误判的部分,因为错误地将不予贷款的企业识别为给予贷款与错误地将给予贷款的企业识别为不予贷款,两种行为所造成的影响是不对等的,前者可能让银行因企业违约而面临巨大损失。因此,对于此种不平衡的问题,借助一个新的指标———真负利率(Speci?city)对模型结果进行判断。由数据可知,真负利率为100%,说明该模型能很好地识别不予贷款的企业。即使在本模型中将一家本应该贷款的企业错判为不该贷款,可能减少了相应的业务和利息收入,但却准确地识别了不该贷款的企业,尽可能地避免了银行面临企业违约的风险。
3.2信誉评级预测
文章首先使用Fisher判别模型来进行预测,但该模型准确率只有50%,为进一步提升分类模型的性能,考虑放宽K个总体具有相同协差阵的前提假设,引入二次判别分析(QuadraticDiscriminantAnalysis,QDA),模型准确率提升为66.7%。在此基础上,建立朴素贝叶斯分类器(NaiveBayesClassi?er,NBC),与现有的模型进行比较。朴素贝叶斯的一个重要假设条件是样本属性之间相互独立。由图1可知,变量之间的相关系数绝对值均低于0.3,呈现低度相关,基本满足该假设条件。朴素贝叶斯分类器的原理是对于给定的待分类项,求解在此项出现的情况下其他各个类别出现的概率,哪个最大,就认为待分类项属于哪一类别,概率计算公式为:最终朴素贝叶斯分类模型的准确度为72.2%,超过了Fisher判别和二次判别分析的50%和66.7%,因此推荐采用朴素贝叶斯分类器模型。
4结论与建议
商业银行有着调节经济的职能,面对中小企业的资金需求变化要提前掌握并早做准备,完成良好的风险预估。文章提供的模型能依靠银行可收集有限的数据,在分类器得到良好训练的情况下,进行初步的信誉评估,并建议银行及时加入更多维的数据进行分析。在面对增加的资金需求和紧缩的信贷供给下,银行也需要审慎地决定并及时地根据市场情况调整信贷策略,可加入专家的分析和判断,发挥主观能动性并综合多角度对中小企业的信誉进行辨别。
作者:李文浩 付文强 吴易达 单位:华侨大学
返回信贷论文列表