评分卡模型原理及应用


  • 关注新蜂数字金融,ID:gh_c5ca7eb11df4

  • 这是新蜂数字金融的第145篇原创首发文章



信用评分卡模型,作为金融业一项重要的风险控制手段,在行业中有着广泛的应用。只有对模型进行科学认知,理解模型的原理及应用限制条件,才能更好地应用模型。


本文中,笔者将对模型发展、推导过程进行简单的梳理,期望对模型应用者、模型开发者能有所启发。


01. 什么是评分卡模型





信用评分卡模型一种常用的风险控制模型,它是根据被评价主体的各种属性和行为数据,利用规则及评分模型,对被评价主体进行评判,从而对未来一段时间内的被评价主体进行预测的一种方法。


利用这种方法可以降低或减少风险事件发生的各种可能性,规避风险事件发生时造成的损失。


在实际业务中,我们有时会遇到对一类申请车贷的客户进行评分的场景。


结合业务理解及往常的业务经验,我们通常会认为:是否有过购车行为(或车贷行为)、申请人年龄、性别、婚姻状况、学历、月收入等因素会对申请按期归还产生影响。


其中,是否有过购车行为(或车贷行为)对是否违约的影响远大于其他指标。可以设置为基础分,其他变量根据变量属性,打分如下(见表1):


表 1  简单评分卡示例


这样,我们就构建了一个简单的评分卡。该评分卡基础分223分,最高分275分,最低分208分。例如,客户年龄为27岁、性别为男、婚姻状况为已婚、学历为本科、月收入为10000,那么他的评分为264分。


从上面的案例可以看出,其业务逻辑类似专家打分模型。但对于大批量的数据或需要统一管理的模型,该方式就不适用了。需要引入统一的统计预测模型,进行评分卡模型建模。


02. 评分模型推导过程





按照笔者个人理解,评分卡模式是以线性回归为基础,采用tobit模型、logistic模型,通过logit变换得到的。模型构建过程如下:



(一)线性回归模型


线性回归是最常见的预测模型。例如,预测收入和支出间的关系、湿度和降雨量的关系等。线性回归模型可以描述因变量Y和自变量X之间的因果关系。


简单的线性回归模型可以表示为



其中,Y轴上的截距,斜率,为误差项。


采用线性回归模型,必须满足以下假设:



条件(1)为线性假设,即自变量X每增加一个单位对Y的影响都是一样的(的值增加)。


条件(2)-(5)均和误差项有关。假设(2)表示对任意的取值,误差项是一个期望为零的随机变量(即和X不相关)。这就意味着,在式中,由于都是常数,因此对于一个给定的的值的期望值为:



假设(3)表示对任意的值,误差项的方差都相同。


假设(4)和(5)说明误差项是一个服从正态分布的随机变量(),且相互独立(即不相关)。


下图展示了线性回归模型对约束条件的要求,如满足以上约束条件,我们就可以采用最小二乘法完成参数估计,并进行建模分析了。


图1 线性回归模型参数约束条件


(二)Tobit模型


对于评分卡模型,模型因变量多为分类问题,如是否违约、患病与否。显然,直接套用线性回归模型,是无法约束条件的,结果也会出现偏差。那么,对于这类问题能否进行建模尝试呢?


表2 二分类变量取值情况


根据线性回归模型变换公式,在式中,由于都是常数,因此对于一个给定的的值的期望值为



将上述二分类变量的代入上式,有:



即:



针对一般的线性回归模型,如:



回归方程曲线为:


图2 一般线性回归模型


显然对于pi来讲,pi为(0,1)之间的数值。对于在给定范围内的[4,24]范围内Xi,每增加1单位x,pi增加0.05,如果落出区间,即Xi<4或者Xi>25时,则Y<0或者Y>1,则模型出现问题。针对此问题,需要将进行变换:



即:



此模型即能满足实际需求。此模型由James Tobin于1958年提出,因此被称作Tobit模型。


图3 Tobit模型


该模型的特点是模型包含两部分,一是表示约束条件的选择方程模型,二是满足约束条件下的某连续变量的方程模型。假设预测某个事件发生的概率等于1,但是实际该事件可能不会发生。


反之,预测某个事件发生的概率等于0,但是是集中该事件却可能发生了。虽然过程是无偏的,但是实际中该事件却可能发生了。虽然估计过程是无偏的,但是由估计过程得出的预测结果却是有偏的。


针对此类模型的缺陷,需要对Pi进行模型变换,变化后的Pi应满足以下需求:


(1)自变量所对应的所有预测值(概率值)都落在(0,1)之间;


(2)对于所有的Xi,当Xi增加时,因变量Yi也随之单调增加或减少。显然,累积概率分布函数能满足这样的需求。


(三)累计分布函数


累积分布函数,又叫分布函数,是概率密度函数的积分,能完整描述一个随机变量x的分布。


图4 累计分布函数


对于所有的实数x,累积分布函数的定义如下:



累积分布函数的基本特征为:对于离散变量,分布函数表示所有小于等于x的值出现的概率之和。具体涵盖以下特征:


  • 有界性:

  • 单调性:如果x1<x2,即有:

  • 右连续性:

  • 区间性:有x且,x落在该区间的概率:


常用的累积概率模型有正态分布模型logistic模型


(四)logistic模型


1. 没有约束的logistic模型


logistic分析模型源于人口分析及病毒研究。在某种初始状态下,没有天敌的情况下,应该呈指数增长


图5 没有天敌状态下的细菌增长


设N(t)这个函数表示t时刻的细菌总数,我们可以得到下面这个方程(其中:r为常数,表示N(t)的变化率):



求解这这个常微分方程:



其中:N0是积分常数,也可以理解为系统的初始值。如果r>0,系统即会呈指数增长。在没有外界约束的条件下,生态系统将被塞满。


6 无约束logistic增长模型


2. 有约束的logistic模型


自然界的增长不会遵循无约束logistic模型,否则世界将被种群塞满。为了克服这一问题,对增长模型进行限制,即引入空间增长限制模型。


为了克服数目无限增长的问题,模型必须做出修改才行,这个修改最早由 Pierre-Fran?ois Verhulst 在1838年提出:



其中:K给定的空间系统的总容量(capacity),给定系统空间总容量后,人口或者细菌的增长,将不能无限制的增长了。随着时间的增长并不断接近系统的容量,增长率是逐渐减小的。


Logistic 方程描述的系统中人口的增长率除了和当时的人口数目成正比以外还要受到系统容量的限制。或者你可以理解为人口的增长速度除了和当时的人口数目成正比以外还和系统中的空位成正比。


3. 有约束的logistic模型求解


对上述方程进行方程变换,设:



则:



此即为logistic方程的一般形式,f(t)即表示人口容量在确定系统的比例。


为方便求解,对方程做一下变换:



对上述方程积分求解,即可得:



其中f(t)又称生命函数,其分布图如下:


 图7 logistic累积函数


(五logit变换


针对二分类变量模型,代入logistic累积函数,即得信用评分卡建模模型:



对上述公式的Y采用logistic函数进行替代:



由上式可知,回归方程的因变量是对数的某个具体选择的机会比。


logit的一个优点是把[0,1]这个区间上预测概率的问题转化为在实数范围内预测一个事件发生的机会比问题。


logit累积概率分布函数斜率在pi=0.5附近最大,在累积分布两个尾端的斜率逐渐变小。这说明相对与Pi=0.5附近的变量xi的变化对概率的变化影响比较大,而相对与pi接近于0和1的范围影响比较小。


其中,又称为ODDS, 指的是事件发生的概率与事件不发生的概率之比。


03.模型应用





成是因变量,则logit线性回归模型多元线性回归模型的形式是一致的,且有很多共性,因此自变量需要遵循线性回归模型的变量要求。


与线性回归模型不同的是:


1、logistic回归模型中因变量是二分类的,而且非连续,其误差的分布不再是正态分布,而是二项分布,且所有的分析均建立在二项分布的基础上。


2、由于上述原因,logit回归系数的估计不能再用最小二乘法,而要用极大似然估计法。回归模型和回归系数的检验也不是F检验和t检验,而要用Wald检验、似然比检验等。


此外,评分卡模型是一种统计推断的方法,必须遵循其模型使用的约束要求。


此外,该模型通常是采用历史或当前数据预测未来。但如果今年企业的经营环境较去年已发生很大的变化,应及时对模型进行重检。否则,预测就变成了预言,无法进行证伪。




延伸阅读:

原创:房地产自动评估之大数据与风险

原创:动态行为数据从这里开始

原创:万人如海一身藏

原创:沉默的那些数

原创:图何以嵌入





   微信扫一扫,关注我



  觉得好  

 点击“在看”

文章转载自微信公众号:新蜂数字金融

类似文章