摘要:大数据、人工智能技术的运用为企业信用风险预测提供了新的视角。本文通过爬虫程序抓取全市场约9000家企业的司法诉讼信息、招聘信息、法人和核心团队工商崔玉征
变更记录等无法粉饰的刚性数据,并采用机器学习等人工智能方法,开发出违约概率预测模型,可对企业违约概率做出前瞻性预测,从而实现对企业信用风险更早的预警。关键词:信用风险 刚性数据 机器学习方法 神经网络在当今大数据、人工智能的时代,很多企业的日常经营行为在互联网上都有迹可循,这为企业信用风险预测提供了新的视角。我们通过互联网爬虫技术抓取与企业经营相关且无法粉饰的刚性数据,并从这些非结构化的数据中提取结构化的入模指标,采用由监督机器学习技术开发的企业违约概率预测模型,对企业违约情况进行预测。经过检验,该预测模型达到了很好的效果。本文将对基于刚性数据的违约概率预测模型的基本原理进行阐述,从一个全新的视角力求对债券市场信用风险进行分析。
企业的财务异常信号。因此,很多企业在其违约前的利润和现金流状况都体现为“良好”。那么在实务中如何对企业信用风险进行预测?
我们通过研究发现,根据企业的刚性数据往往能够发现其违约前的信号。这些刚性数据包括司法被诉信息,每季度发布招聘职位数量的变化趋势,法人变更情况,董事、监事、高级管理人员(以下简称“董监高”)及财务人员变更情况,股权出质和动产抵押融资等数据。由于企业对这些数据很难粉饰,因此我们把它们统称为刚性数据。
这样,我们评估企业信用风险的思路就非常清晰了。那就是首先从获取的大量信息中剔除“噪声”、保留“信号”,然后再用保留的有价值信号对企业信用风险作出判断。所谓噪声,是指假象,是无价值的信息;所谓信号,是指真相,是有价值的信息。
违约预测的刚性数据和弹性数据
传统的企业信用风险评估方法主要基于企业财务报表数据。同时,企业的会计核算以权责发生制为基本原则,企业收入和利润的核算、确认有一定的调节空间。因此,我们通常把企业的财务数据称为弹性数据。通过研究已经违约主体在违约前三年的财务数据,我们发现很难从这些弹性数据中获取
使用刚性数据评估企业信用风险及检验
使用刚性数据评估企业信用风险,主要包括刚
CHINABOND2019. January73
债 券
债券实务
性数据的获取、刚性指标的提取、机器学习方法计算企业违约概率等三个步骤。
(一)刚性数据的获取
我们获取企业刚性数据的数据源主要有三个,分别是获取司法诉讼信息的中国裁判文书网,获取企业发布招聘职位信息的各大招聘网站、地方人才网和行业招聘网站,获取法人变更、董监高变更和企业场外融资信息的地方工商局网站。
在数据源确定后,我们使用Python编程语言开发许多爬虫程序,可以做到每天批量抓取全市场约9000家主体的上述刚性数据。
(二)刚性指标的提取
从抓取的司法裁判文书中,我们可根据司法涉诉性质和严重程度分别提取定量型指标,如每家公司因合同纠纷被诉次数、劳动争议被诉次数、拖欠货款被诉次数、企业与股东间的诉讼次数、被银行起诉的次数、被小贷公司起诉的次数、被法院执行的次数、是否被法院纳入失信名单等司法涉诉性质指标。而且,这些指标所反映企业经营异常的严重程度在逐渐增加。比如:拖欠货款被诉在一定程度上说明企业的现金流紧张,与股东间的诉讼表明企业跟股东之间有矛盾,被银行起诉说明拖欠了银行的贷款(属于比较严重的信号),被小贷公司起诉说明企业现金流非常紧张、已经借高利贷且逾期了(属于极其严重的信号),等等。
图1 从工商变更记录中提取的指标74债券2019.1
除此之外,我们还可提取比率型的指标和被诉且需要赔款的金额等量化型指标,这些指标在更大程度上反映了企业经营困难的严重程度,如被诉次数最近两年占比、被诉且需要赔款的金额最近两年占比等指标。
通过研究已经违约的公司在违约前的征兆,我们发现一些公司在违约前一年内存在频繁变更公司法人、董监高和财务人员的情况,也存在一些股权出质、动产抵押等场外融资行为。因此,通过工商注册变更记录,我们可提取公司法人名下有多少家公司、最近两年工商变更次数、场外融资情况等量化指标,如图1所示。
(三)用机器学习方法计算企业违约概率从上述非结构化数据中提取结构化指标的长清单,只是采用非财务数据进行违约概率预测的第一步。接下来,还需要从这些长清单中筛选对违约状态影响比较显著的拟入模指标,并在拟入模指标中剔除相关性较强的指标,避免出现模型的过拟合现象,最终生成入模指标清单。之后,将这些入模指标送入神经网络(机器学习方法之一)作为输入,并不断训练得到神经网络每个节点的激活函数,最终就可计算得到每家公司的违约概率,如图2所示。
(四)全市场检验结果
通过上述方法计算得到每家公司的违约概率,并根据全市场样本违约与正常的标记,可绘制如图
图2 生物神经元与人工神经网络模型Њˀ̠Փ͛уѫЙ̯͛ѢуҪѥͳʶ˓̠Њ3所示用于检验分类模型的ROC曲线,并得到AUC的值为0.939。这条曲线表明,将正常样本和违约样本区分开来的违约概率临界点是0.028,正常样本中90.7%的预测准确,违约样本中85.0%的预测准确。
典型违约事件浅析
(一)A公司
A公司债券上市日期为2010年10月20日,违
图3 全市场检验的ROC曲线表1 2014—2015年A公司主要负面事件时间负面事件2014.10.13中国银行申请冻结存款2.54亿元2015.5.26中信银行申请冻结存款和诉前资产保全2015.6.23工商银行起诉还本付息图4 A公司违约前两年多的历史违约概率图5 B公司违约前两年多的历史违约概率债 券债券实务约日期为2015年10月19日。在违约前约两年时间里,A公司未公布任何财务报表信息。但在2014—2015年间,A公司存在如表1所示的严重负面事件。
我们运用前文介绍的方法,计算A公司每月的违约概率,绘制了如图4所示的违约概率曲线。曲线显示,从2014年10月开始,A公司违约概率大幅上升,在实际发生违约的2015年10月,其违约概率达到61.95%。
(二)B公司
B公司债券违约发生时间为2018年9月25日,在其违约前的一年多时间里,我们先后抓取到B公司被银行起诉3次、民间借贷被诉1次、与股东之间的诉讼1次,并绘制了如图5所示的违约概率曲线。曲线显示,从2017年5月开始,B公司违约概率显著上升,2018年后违约概率稳定在16.74%,明显高于历史均值。
总结
目前,中国资本市场评估企业信用风险主要依靠财务数据,而从违约前的财务数据中难以获取企业异常信号,要识别企业信用风险是一个庞大的系统工程。为此,我们率先做了一些尝试,使用以非财务数据为主、财务数据为辅的大数据评级方法,并回测计算每家企业违约发生前两年多的违约概率并绘制违约概率曲线,力求通过概率统计的创新方法,对信用风险进行更早的预警。
作者单位:深圳市云信誉科技有限公司责任编辑:刘铁峰 罗邦敏参考文献
[1]云信誉官网:www.yun-rating.com.
CHINABOND2019. January75
因篇幅问题不能全部显示,请点此查看更多更全内容