在信贷风控的决策流程中,我们必然会在某些节点放入模型来使用,例如A卡(申请)、B卡(行为)、C卡(催收)、F卡(反欺诈)等。当我们线下建立好一个模型之后,只有通过样本内外的多次测试,以及模型性能指标达到标准后,才会将模型部署到线上来实施应用。但是,在这个工作环节中,如何评估模型的性能效果,且合理解读每个评价指标的含义,是我们从事风控模型岗位必须掌握的能力。对于模型类别的划分,从算法原理角度理解,包含分类、回归、聚类、降维共4类,在金融领域的风控或营销等场景中,分类与回归模型的应用相对较多。针对每个类别模型的评估方法,由于模型拟合训练的机制不同,相关评价指标也有很大区别。本文将选取常用到的回归算法模型,来介绍模型的评估维度与分析思路,具体内容将会通过信贷额度定价的实际业务场景来展开描述。

1、业务场景介绍某商业银行根据存量数据拟开发一个额度授信模型,对于申请进件用户,首先会预设一个相同的初始额度amount,然后通过分析用户的资质与风险情况,得到每个用户的具体额度系数n,则用户最终的授信额度为amount*n。案例数据包含10000条样本与20个特征,样例如图2所示,其中ID为样本主键,Y为目标变量(额度系数),X01~X20为特征变量。由于目标变量为连续型特征,因此模型类型为回归问题,可以通过回归模型算法实现,常见的例如线性回归、随机森林、XGBoost、KNN等。

编辑

添加图片注释,不超过 140 字(可选)

图1 建模样本数据

针对建模样本数据,简单描述性统计分析结果如图2所示,可知样本各变量字段均为数值型特征,且不存在缺失值情况。其中,目标变量Y字段为float型,取值范围为[0.0303931, 0.62798),符合回归模型目标变量的取值类型要求。

编辑

添加图片注释,不超过 140 字(可选)

图2 特征取值分布

2、模型训练拟合

我们选取回归算法中最常用的线性回归LinearRegression来训练模型,为了避免各特征的取值量纲对模型拟合的影响,现将建模数据进行z-score标准化处理,实现代码与结果输出分别如图3、图4所示。

sse误差平方和公式_均方根误差计算公式_泰勒公式 误差

编辑

添加图片注释,不超过 140 字(可选)

图3 特征标准化代码

sse误差平方和公式_泰勒公式 误差_均方根误差计算公式

编辑

添加图片注释,不超过 140 字(可选)

图4 特征标准化结果

根据标准化处理后的数据,采用线性回归算法LinearRegression来实现模型的拟合训练,具体代码如图5所示。

泰勒公式 误差_sse误差平方和公式_均方根误差计算公式

编辑

添加图片注释,不超过 140 字(可选)

图5 模型拟合训练

模型最终线性函数关系的变量系数结果如图6所示,依次对应特征X01~X10的函数系数以及常数项,这里可以很直观的了解到各模型变量对目标变量的正负影响关系以及相应的权重大小。

编辑切换为居中

添加图片注释,不超过 140 字(可选)

图6 模型变量系数

3、回归模型评估

当模型训练成功后,接下来需重点评估模型的性能,具体根据相关指标进行分析,包括R_Square、MAE、MAPE、MSE、RMSE等指标。

(1)MAE

MAE(Mean Absolute Error):平均绝对误差,是绝对误差的平均值,可以更好地反映预测值误差的实际情况。MAE取值越小,说明模型的准确度越高。MAE原理计算公式如下,Python代码实现如图7所示。

均方根误差计算公式_sse误差平方和公式_泰勒公式 误差

编辑

添加图片注释,不超过 140 字(可选)

图7 平均绝对误差MAE

(2)MAPE

MAPE(Mean Absolute Percentage Error):平均绝对百分比误差,相比MAE指标多了分母yi。MAPE取值越小,说明模型的准确度越高。MAPE原理计算公式如下,Python代码实现如图8所示。

编辑

添加图片注释均方根误差计算公式,不超过 140 字(可选)

图8 平均绝对百分比误差MAPE

(3)MSE

MSE(Mean Square Error):均方误差,是真实值与预测值的差值的平方,然后求和的平均,一般用来检测模型的预测值和真实值之间的偏差。MSE取值越小,说明模型的准确度越高。MSE原理计算公式如下,Python代码实现如图9所示。

sse误差平方和公式_泰勒公式 误差_均方根误差计算公式

编辑

添加图片注释,不超过 140 字(可选)

图9 均方误差MSE

(4)RMSE

RMSE(Root Mean Square Error):均方根误差,又称标准误差,是均方误差的算术平方根。RMSE取值越小,说明模型的准确度越高。RMSE原理计算公式如下,Python代码实现如图10所示。

泰勒公式 误差_sse误差平方和公式_均方根误差计算公式

编辑

添加图片注释,不超过 140 字(可选)

图10 均方根误差RMSE

(5)R_Square

R_Square(Coefficientof determination):R方,决定系数,反映的是模型拟合数据的准确程度。一般R_Square取值范围为0~1,值越接近1,说明方程X变量对目标Y的解释能力越强,模型训练拟合程度也较好,在实际业务中,R_Square>0.4时说明模型性能较好。R_Square原理计算公式如下,Python代码实现如图11所示。

编辑

添加图片注释,不超过 140 字(可选)

图11 决定系数R_Square

根据以上各指标的原理逻辑与实现代码,将本文案例场景的回归模型指标进行输出,结果如图12所示,可知模型决定系数R_Square>0.4,模型拟合效果较好,且其余误差类指标均较小,模型的准确度较高。

sse误差平方和公式_泰勒公式 误差_均方根误差计算公式

编辑

添加图片注释,不超过 140 字(可选)

图12 回归模型指标

以上内容,是回归算法在信贷产品额度定价场景的简单的建模过程,以及回归模型拟合训练后的主要评价指标维度,更详细的内容我们更会在后续的内容中继续为大家详细介绍。为了便于大家熟悉回归模型在实际业务场景中的应用,并掌握回归模型的评价方法,我们准备了与本文内容同步的样本数据与Python代码均方根误差计算公式,供大家参考学习,详情请移至知识星球查看相关内容。

编辑切换为居中

添加图片注释,不超过 140 字(可选)

~原创文章

限 时 特 惠: 本站每日持续更新海量各大内部创业教程,一年会员只需98元,全站资源免费下载 点击查看详情
站 长 微 信: muyang-0410