基于K―均值聚类的工业小企业信用评级研究

来源：长理培训发布时间：2018-11-11 12:41:35

摘要] 本文通�^对小企业的贷款数据进行实证分析，建立基于K-均值聚类的工业小企业信用风险评价模型，通过信用等级越高、违约损失率越低的标准划分信用等级。本文的特色是建立基于K-均值聚类的信用风险评价模型，以聚类分析拟合信用风险指标的实际分布。通过K-均值聚类分析信用风险评价指标体系，根据需要划分的等级个数直接进行等级划分，确定各等级聚类中心，依据样本与各聚类中心聚类远近确定其所属信用风险等级。

　　[关键词] 工业小企业；信用风险；信用等级；K-均值聚类
doi ： 10 . 3969 / j . issn . 1673 - 0194 . 2018. 13. 012
[中图分类号] F276.3 [文献标识码] A [文章编号] 1673 - 0194（2018）13- 0026- 02
1 前言
信用风险评价的本质是对企业违约风险评价，衡量客户或一笔贷款违约的可能性。信用风险评价基于信用等级越高、违约损失率越低的标准。近年来，我国小企业迅速发展，已经成为社会主义市场经济的重要组成部分。目前，制约小企业发展的主要因素是融资难，即缺乏行之有效的信用风险评价模型。
国内外对信用风险评价模型的研究已取得一定进展，大致可分为三大类。
1.1 基于统计方法的信用风险评价模型
张玲等（2004）建立基于Z值的多元判别模型对我国上市公司进行信用评级，并研究发现我国上市公司资信品质的一些特点[1]。Malik等（2010）使用马尔科夫转移矩阵建立信用评价模型[2]。Cipollini等（2012）基于面板Probit回归方法建立信用风险评价模型[3]。
1.2 基于神经网络的信用评价模型。
Abdou（2012）使用神经网络方法对信用风险进行测算。Chen（2003）等应用神经网络对信用风险进行评价。Tsai等（2008）利用神经网络对复合分类器和多元复合分类器在信用风险评估的应用进行了实证研究。
1.3 基于遗传规划的信用评级模型
Huang等（2006）建立基于两阶段遗传规划的信用评价模型。Chi等（2012）使用智能遗传算法建立信用风险测算模型。柯孔林等（2008）建立基于粗糙集和遗传算法的企业贷款违约判别模型，提出的该模型较多元判别分析、logistic、BP神经网络等违约判别模型更为有效和实用。
2 K-均值聚类划分级别原理
K-均值聚类算法的核心思想是把数据集划分成使目标函数达到最小值的K个类。首先利用随机抽样法从数据集样本中抽取K个对象作为初始聚类中心；其次计算剩余数据对象与各个聚类中心的欧几里得距离，按照距离最小原则来划分类别；第一轮聚类结束；最后计算每一类的平均值，用第二次的K个平均值作为新的K个聚类中心，循环上述步骤重复迭代，直到目标函数最小化，即其变化相对上一次的改变量小于阈值ξ，即满足式（3），迭代停止，此时的聚类中心即为所求。
设X={X1，X2，…，Xn}为已知样本数据集， X1，X2，…，Xn是n个样本数据对象，n是样本个数，每个数据对象都是N维的，即Xi={xi1，xi2，…，xiN}，N是信用风险评价指标的个数。K均值聚类算法就是找到K个聚类中心C={C1，C2，…，Ck}={{c11，c12，…，c1N}，{c21，c22，…，c2N}，…，{ck1，ck2，…，ckN}}，使目标函数J最小化。
3 基于K-均值聚类的工业小企业信用风险评级体系的建立
3.1 样本选取
中国某区域性商业银行在全国28个城市分支行的工业行业小企业贷款数据，数据时间跨度是1994年5月至2012年9月，共有1 814笔借据，其中违约样本15笔，非违约样本1 799笔。
3.2 工业小企业信用风险评价指标体系的建立
本文从企业内部财务因素、企业外部宏观环境、抵质押担保等七个准则层海选小企业信用风险评价指标，根据指标能否显著区分违约与非违约状态进行似然比检验第一次筛选指标，保证遴选出的指标都能对企业是否违约进行显著区分；根据准则内相关分析进行第二次筛选，避免遴选出的指标反映信息重复，建立基于资产负债率、行业景气指数等的26个指标的工业小企业信用风险评价指标体系。如表1第3列所示。
3.3 K-均值聚类
根据《中国人民银行信用评级管理指导意见》中对企业信用等级的划分，设9个信用等级，则本研究聚类中心数目K=9，样本数n=1 814，指标数N=26，阈值ξ=10-10，聚类结果可以看出，样本13次迭代后，达到了聚类目标要求稳定状态。并且九个聚类中心间距离较远，说明该方法能够较好地对小企业信用风险进行分类。
3.4 工业小企业信用风险评价
本文根据《中国人民银行信用评级管理指导意见（银发[2006]95号）》，把企业信用等级划分为9个信用等级，即：AAA、AA、A、BBB、BB、B、CCC、CC、C。依据上文中隶属于9个聚类中违约样本的比率，即违约比率，违约比率越低，信用等级越高进行工业小企业信用风险等级划分。
由表2可知，违约比率越大，违约风险排序越大，AAA、AA、A违约可能性很小，样本中违约比率0%，根据相对非违约样本比例排序，非违约样本越多，信用风险越低，信用等级越高。建立聚类类别与信用等级的对应关系，即有：类4-AAA、类8-AA、类9-A、类1-BBB、类6-BB、类7-B、类3-CCC、类2-CC、类5-C。
4 结语
（1）建立基于K-均值聚类的信用风险评价模型，以聚类分析拟合信用风险指标的实际分布，K-均值聚类不要求样本数据服从具体分布，避免主观确定指标分布的弊端。尤其对于大样本信用风险分析，K-均值算法避免了对于分布的假设分析的大量工作，具有高效的性能。
（2）通过K-均值聚类分析信用风险评价指标体系，根据需要划分的等级个数直接进行等级划分，确定各等级聚类中心，依据样本与各聚类中心聚类远近确定其所属信用风险等级，进行信用风险评价。避免主观确定赋权方法及等级划分标准的弊端。
主要参考文献
[1]张玲，曾维火. 基于Z值模型的上市公司信用等级转移矩阵实证研究[J].中国管理科学，2004，12（z1）：242-247.
[2]Malik M， Thomas L C. Transition matrix models of consumer credit ratings[J]. International Journal of Forecasting，2010，28（1）：261-272.
[3]Cipollini A， Fiordelisi F. Economic value， competition and financial distress in the European banking system[J]. Journal of Banking & Finance，2012，36（11）：3101-3109.