你当前的位置 主页 > 产品案例 >
产品案例
评分卡都看不懂怎么能说自己是做风控的?
来源:http://www.fjweihao.com 编辑:环亚ag88 2019-03-18 19:37

  随着互联网在传统金融和电子商务领域的不断渗透,风控+互联网的融合也对传统的风控提出了新的要求和挑战。以评分卡为例,互联网形态下的评分卡需要面临更多维数据、更实时数据、更异常数据的挑战。因此,懂得互联网业务下的风控评分卡已经成为互联网风控从业人员的新要求。

  在之前的文章中,有好几位业内朋友沟通说要有一篇关于风控评分卡的教程类的文章,于是趁着周末赶紧完成了这篇似是而非的working paper。

  这两年随着互联网电商业务和互联网金融业务的兴起,原本着力于银行、证券、信托等传统金融领域的风控职能的HC,在这两大块也越来越多,而互联网自身独特属性的加入又给这个已经存在了近一百年的岗位赋予了新的外延与生命。

  无论是风控职能中的什么岗位,产品、策略、数据分析、模型等等,最终都是要跟业务挂钩,而孕育风控岗位的金融业务又是一个天生以数据驱动的行业,这也就决定了风控天生的“数字”属性。

  这个属性无论是在传统金融领域、新兴的互联网金融乃至更为广泛的电商领域,都无法磨灭其数学的印迹。

  “数据驱动业务”是风控的核心,无论是金融风控还是电商风控!数学是定量解决复杂问题最有效的工具,在做风控的过程中你会发现你遗失多年的概率论、矩阵都开始有了新的用武之地。

  在当前的互联网环境下,互联网风控已经成为了一项数学、金融学、信息安全、管理科学、行为心理学等多学科交叉的复杂业务,以定量/定性分析的思维,使用传统的经济学分析范式:

  而作为风控最重要的工具之一“评分卡”自然而然就是这种套路的产物,所以作为风控从业者,看懂评分卡已经成为了风控从业人员的基本素质之一。

  本文所使用数据来源于某平台某年度数十万信贷样本数据,为保证业务隐私业务指标与关键变量已做脱敏处理,仅用于展示评分卡构建过程。

  选取一定时间周期内该平台上的信贷样本数据(以人为维度),按照会员号尾号(0-9)切分的方式做随机样本集,最终选取训练集17万,测试集11万,验证集11万。

  为了更好表述样本特征,其中以逾期超过X天为bad样本(label为1),逾期小于y天为good样本(lable为0),中间模糊样本暂不进入模型训练。

  具体以0-1样本的划分标准以实际业务为准,信贷业务中重点还是看贷后的迁移情况。

  基于选中的数十万样本,结合业务的经验,选择数百描述性变量,并对变量做进一步衍生工作。

  基于不同的业务形式有不同的变量选择,每一个模型会有不同的样式,具体需要结合对业务的理解进行模型构建。此处读者可针对性的学习“特征选择”相关知识。

  数据处理是模型构建之前最核心的也是最费工时的步骤,你想要的小米6有了最新消息尊龙!需要数据处理人员对于数据的来源、特点、字段本质有着较为深入的理解,才能有效处理好数据,失去了意义的数据仅仅是数字而已。

  异常数据指的是因为多种不可预知的原因(数据原因、样本原因、技术原因、历史原因)导致的不能建模数据,常见的主要指的是缺失值和极端值。

  这种情况在现实问题中非常普遍,尤其线上征信数据因为征信渠道覆盖不全、超时、前期未取数等多原因经常会出现大批量的数据确实问题,这会导致一些不能处理缺失值的分析方法无法应用。

  因此,在评分卡模型开发的第一步我们就要进行缺失值处理。缺失值处理的方法,包括如下几种:直接删除含有缺失值的样本;根据样本之间的相似性填补缺失值;根据变量之间的相关关系填补缺失值。

  缺失值处理完毕后,我们还需要进行异常值处理。异常值是指明显偏离大多数抽样数据的数值,比如个人客户的年龄为0时,通常认为该值为异常值。找出样本总体中的异常值,通常采用离群值检测的方法。

  探索性分析有助于帮助我们对数据结构有较为直观的认知,通过对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,常用的探索性数据分析方法有:直方图、散点图和箱线 变量处理

  完成了数据异常处理之后并不是直接可以进模型的,需要对特定变量进行处理,如对定性变量进行量化(如婚姻状态,并不能简单的用枚举值1、2、3、4代替)。我个人常用的方法主要有:

  我们会用经过清洗后的数据看一下变量间的相关性。注意,这里的相关性分析只是初步的检查,进一步检查模型的IV(证据权重)作为变量筛选的依据。此处较简单,在此不赘述。

  p代表一个样本是bad样本的概率,P越大bad概率越大,x指的是进入模型的各个变量,β为该变量的系数,通过上述表达式,我们知道如果某个变量的β为正值,那么x越大则p越大,代表这个变量越大越坏。

  评分卡设定的分值刻度可以通过将分值表示为比率对数的线性表达式来定义,即可表示为下式:

  其中,A和B是常数。式中的负号可以使得违约概率越低,得分越高。通常情况下,这是分值的理想变动方向,即高分值代表低风险,低分值代表高风险。

  假设我们期望x=(bad/good)=5%时的分值为50分,PDO为10分(即每增加10分bad/good比例就会缩减一半),代入式中求得:B=14.43,A=6.78,这个时候bad/good=10%时score=40

  评分卡刻度参数A和B确定以后,就可以计算比率和违约概率,以及对应的分值了。通常将常数A称为补偿,常数B称为刻度。则评分卡的分值可表达为:

  式中:变量x1…xn是出现在最终模型中的自变量,即为入模指标。由于此时所有变量都用WOE转换进行了转换,可以将这些自变量中的每一个都写(βiωij)δij的形式:

  式中ωij 为第i行第j个变量的WOE,为已知变量;βi为逻辑回归方程中的系数,为已知变量;δij为二元变量,表示变量i是否取第j个值。上式可重新表示为:

  此式即为最终评分卡公式。如果x1…xn变量取不同行并计算其WOE值,式中表示的标准评分卡格式,基础分值等于(A−Bβ0);由于分值分配公式中的负号,模型参数β0,β1,…,βn也应该是负值;变量xi的第j行的分值取决于以下三个数值:

  总的来说整体的思想就是根据每个变量的系数进行评分转换,好的变量我们给与高的评分,坏的变量给与低分或者负分。

  从上表来看,评分卡的表达形式是很简单的,如学历是硕士加几分这样。但是很多人就以为评分卡是拍脑袋出来的,这是个非常错误的想法,每一个变量的评分多少都是基于模型的结果,所以在此也给部分风控从业者小小的提示一下:评分卡是一个科学的度量工具,不是拍脑袋盲人摸象就能出来的,只知其一不知其二是很可怕的事情。

  X轴代表不同的评分区间,柱状图代表验证集下该评分区间的人数,折线图代表该评分区间的bad比例,我们发现柱状人数在整体评分区间下基本呈现正态分布,整体bad占比随着评分上升违约率不断下降,证明这是一个较为行之有效的评分卡,可以利用评分卡的结果做更多的策略应用(为保护业务数据隐私,已隐藏)。

  本文以经典的逻辑回归模型为主,结合实际业务数据构建一套评分卡模型,以此来帮助更好的理解评分卡模型的构建流程,以期能够帮助风控从业者更好的理解评分卡的本质、目的和应用。

  更进一步的,我们在实际的风控业务应用中,评分卡模型的思路除了传统的申请信用平分之外,已经拓展到更多的业务场景,关键是在于定义好寻求的目标target,如是否团伙、是否羊毛党、是否DDOS攻击等等,并结合对目标的理解寻觅适合的变量。

  人人都是产品经理(是以产品经理、运营为核心的学习、交流、分享平台,集媒体、培训、社群为一体,全方位服务产品人和运营人,成立8年举办在线+期,线+场,产品经理大会、运营大会20+场,覆盖北上广深杭成都等15个城市,在行业有较高的影响力和知名度。平台聚集了众多BAT美团京东滴滴360小米网易等知名互联网公司产品总监和运营总监,他们在这里与你一起成长。