免费咨询热线
13621929115对于从事模型开发与应用工作的小伙伴来讲,当我们完成模型的拟合训练后,往往会思考如何对模型的结果进行解释,这里的模型解释性主要包含两种含义:前一种解释性场景是针对模型的输出响应给出合理性的业务解读,例如贷前风控环节的违约预测模型(目标变量是二分类且违约状态定义为正例),对于模型输出的概率值
p,取值越大场景展示模型说明用户的违约风险越高;再例如存量用户群体的聚类模型,对于模型输出的标签值cluster(取值0/1/2等),代表样本用户所属的分类群体标识,并无具体数值大小的比较含义模型的后一种解释性场景是分析模型选入变量的重要程度,这也是我们经常理解的模型解释性,日常最典型的应用实例便是决策树模型的特征重要度系场景展示模型数。
importance,可以很好量化出特征对当前模型的贡献程度,指标系数的取值越大说明变量对模型的重要度越强针对以上模型解释性的前种情况,也就是对模型预测结果的解读,务必要结合模型应用的背景需求,业务场景的理解始终是重要且必要的前提条件,此外还包括模型类型、目标定义、正例设置等多个维度条件,都会直场景展示模型接影响模型的最终结论或数值含义。
对于模型解释性的后种情况,也就是对变量重要程度的理解,重点则在于特征系数之间的比较分析,由指标数值的具体大小转换为变量重要程度的高低,从逻辑理解层面上简单且有效围绕模型解释性的分析背景,本文将从多个模型角度来重点分析下特征参数分布的解释性,也就是上文提到模型解释性的后场景展示模型者。
在详细内容的介绍过程中,我们不再局限于常见决策树(decision tree)模型的重要度系数importance,还会扩展实践中应用度较高的集成学习树模型,例如随机森林、GBDT、AdaBoost、XGBoost
、LightGBM等此外,对于特征参数的评估解读,还会包括逻辑回归LR、线性回归L场景展示模型inR、岭回归Ridge、套索回归Lasso等多元化回归模型的变量系数w所以本文有两部分内容:第一部分会介绍每个模型下的特征系数的可解释应用;。
第二部分会介绍一个具体的实例建模场景,包括详细代码+数据集;第一部分:经典模型下的特征系数的可解释应用为了便于理解特征系数在不同模型反映出的信息权重,本文将场景展示模型结合具体的实例样本数据,通过python代码依次实现各个模型的特征重要度评估。
由于待介绍的模型种类共包含10多个,且处理问题有回归与分类的差异,因此相应的样本数据会存在2个目标变量,取值类型分别为二分类型与连续型实例数据的样本数量为10000条,字段数量为9个,部分数据样例如图1
所示,其中id为样本场景展示模型主键,代表客户订单号;label1、label2为目标变量,标签含义依次为用户好坏状态、营销价值系数,对应解决二分类与回归问题;其余6个字段均为特征自变量,具体释义为income_type
(收入类型)、city_level(城市等级)、consume_index(消费系数)、bankcard_cou场景展示模型nt(银行卡数量)、travel_count(航旅次数)、loan_count(借贷次数)。
图1 样本数据样例由于字段income_type(收入类型)、city_level(城市等级)的取值类型为字符型,为了满足模型训练输入数据类型的要求,现采用label编码将其转换为数值型,同时保持数据的有序性场景展示模型,具体实现过程如图2所示。
图2 特征label编码当样本数据经过简单分析处理后,接下来将依次介绍各个模型的特征重要度分析,模型类型包含决策树Tree、随机森林RF、GBDT、AdaBoost、XGBoost、LightGBM、逻辑回归
LR、支持向量机SVM、线性回归LinR、岭回归Ridge等其中,场景展示模型逻辑回归、支持向量机、所有树模型将以分类场景实现,线性回归LinR、岭回归Ridge模型以回归场景实现,样本相应的目标变量分别为label1、label2。
1、决策树(DT)决策树模型的特征重要度系数,具体实现过程如图3所示,输出结果通过条形图展示如图4所示,可以看出特征重要程度从高到低的排序结果为场景展示模型consume_index、bankcard_count、travel_count、city_level、loan_count、income_type。
图3 决策树模型的特征重要度实现
图4 决策树模型的特征重要度分布2、随机森林(RF)随机森林模型的特征重要度系数,具体实现过程如图5所示,输出结果通场景展示模型过条形图展示如图6所示,特征重要性强弱的排列顺序为bankcard_count、consume_index、travel_count、city_level、loan_count、income_type,与上文决策树模型的结果稍有差异,具体表现在前2个特征bankcard_count与consume_场景展示模型index的排序位置发生变化,说明同一特征在不同模型的重要性程度并非绝对的,而是由模型类型、数据质量等情况综合决定。
图5 随机森林模型的特征重要度实现
图6 随机森林模型的特征重要度分布3、GBDTGBDT模型的特征重要度系数,具体实现过程如图7所示,输出结果通过条形图展示如图8所示这里将快速生成特征场景展示模型重要性的分布情况,暂不与以上模型对比说明(以下模型同理),最后以汇总形式统一进行分析。
图7 GBDT模型的特征重要度实现
图8 GBDT模型的特征重要度分布4、AdaBoostAdaBoost模型的特征重要度系数,具体实现过程如图9所示,输出结果通过条形图展示如图10所示。
图9 AdaBoost模型的场景展示模型特征重要度实现
图10 AdaBoost模型的特征重要度分布5、XGBoostXGBoost模型的特征重要度系数,具体实现过程如图11所示,输出结果通过条形图展示如图12所示。
图11 XGBoost模型的特征重要度实现
图12 XGBoost模型的特征重要度分布6、LightGBMLightGBM模型的场景展示模型特征重要度系数,具体实现过程如图13所示,输出结果通过条形图展示如图14所示。
图13 LightGBM模型的特征重要度实现
图14 LightGBM模型的特征重要度分布7、逻辑回归(LR)逻辑回归模型的特征重要度系数,具体实现过程如图15所示,输出结果通过条形图展示如图16所示。
图15 逻辑回归模型的场景展示模型特征重要度实现
图16 逻辑回归模型的特征重要度分布8、支持向量机(SVM)支持向量机模型的特征重要度系数,是通过特征系数w的绝对值来量化的,具体实现过程如图17所示,输出结果通过条形图展示如图18所示。
图17 支持向量机模型的特征重要度实现
图18 支持向量机模型的特征重要度分布9、线性回归(Linr场景展示模型)线性回归模型的特征重要度系数,具体实现过程如图19所示,输出结果通过条形图展示如图20所示,此处建模任务的目标变量为label2,下文介绍的Ridge回归、Lasso回归与之同理。
图19 线性回归模型的特征重要度实现
图20 线性回归模型的特征重要度分布10、岭回归(Ridge)岭回归模型的特征重要场景展示模型度系数,具体实现过程如图21所示,输出结果通过条形图展示如图22所示。
图21 岭回归模型的特征重要度实现
图22 线性回归模型的特征重要度分布综合以上10个模型示例可以看到,特征重要性的分布情况并不是固定的,不同类型模型的输出结果都会有一定差异由于各模型训练的原理逻辑不同,我们不必分析特征系数的具体取场景展示模型值含义,而重点是通过特征重要性系数的大小,来判断特征变量的贡献程度或应用价值。
这里我们将以上各模型生成的特征重要性顺序进行汇总,具体情况如图23所示
图23 不同模型的特征重要性顺序分布通过上表信息可知,在分类模型场景中,除了LR与SVM模型,其余模型得到的特征重要性顺序都是不同的,因此在实践过程中,场景展示模型若通过特征重要性系数来评定特征的信息价值时,前提条件是针对当前某个模型,而不能将某个模型展现的分布结果扩大至其余模型。
假设采用特征重要性系数来评估特征性能,可以通过多个模型得到的结果进行汇总分析,例如本文介绍的10种方法,我们可以认定排名靠前次数较多的字段为重要特征虽然以上各实例模型的特征重要性排名场景展示模型存在较大差异,但可以看到排名前3出现次数较多的特征为bankcard_count、consume_index、travel_count,我们有理由认为这3个特征相比剩余3个特征更有信息价值,在特征筛选、数据测试等场景中可以借鉴并应用,会有较好的分析效果。
为了便于大家对特征重要性的进一步理解与分析,本场景展示模型文额外附带了与以上内容同步的详细python代码与样本数据,供大家学习参考,详情请移至知识星球获取相关资料第二部分:建模场景应用下面我们仍以本文样本数据作为参考,部分样例如图。
24所示,通过一个具体的实例建模场景来简单介绍下特征系数的利用价值。假设围绕样本用户的多个维度信息,来构建一个营销价值评估模场景展示模型型,在实际业务中可以根据模型预测结果,对各类用户群体制定不同的营销策略。
图24 建模数据样例建模数据的目标变量为label2(营销价值系数),由于字段类型为连续型,因此模型的具体算法为回归问题;特征变量池共包含6个字段,分别为income_type(收入类型)、city_level
(城市等级)、co场景展示模型nsume_index(消费系数)、bankcard_count(银行卡数量)、travel_count(航旅次数)、loan_count(借贷次数)我们选择最常见的线性回归LinearRegression。
算法来训练模型,并将6个特征字段转换为标准化数据,作为模型变量拟合的选择对象,具体实现过程详场景展示模型见知识星球中代码详情通过以上步骤可以输出模型各个变量的重要性系数coef,具体分布如图26所示,从中可以很直观了解到各个特征对当前模型的贡献度大小。
其中,特征loan_count(借贷次数)与city_level(城市等级)的系数值明显绝对偏低,说明这2个字段对模型的价值表现很低,可以考虑将其删除重场景展示模型新训练拟合模型,这样新模型的拟合字段保留4个(income_type
、consume_index、bankcard_count、travel_count)。
图26 特征系数分布为了验证删除后的特征为非重要字段,我们采用回归模型常见的评估指标,来观察对比新旧模型的性能差异若新老模型的评估指标结果较为接场景展示模型近,便能够支持所删除字段对模型效果提升作用较小的结论其中,旧模型性能评估的实现过程如图。
27所示,而对于新模型的拟合训练与效果评估,与图25、图27同理,区别仅在于特征数据df_X的特征数量不同(具体代码详情参见详见知识星球中代码详情)按照以上分析思路,我们根据模型训练与评估的完整过程,分别输出非重场景展示模型要字段删除前后的模型性能对比,具体指标分布结果如图。
28所示通过模型结果可知,结合特征重要性系数的大小关系对变量进行筛选,最终模型的对比效果差异很小,说明删除的2个变量对模型的价值度很低在模型综合性能稳定的情况下,特征数量越少有利于模型的精简与维护,若数据是从外部机构引入,很多情况下还可以节省数据的场景展示模型支出费用。
因此,特征重要性系数的分析处理,在实际建模场景中具有很高的利用价值
图28 新旧模型效果对比关于以上所提到特征系数在多元化模型场景的可解释应用,教研组的童鞋已经同步相关的内容至知识星球后台,查看完整版本,欢迎星球同学移步到知识星球查收完整内容:
为了便于大家对特征重要性的进一步理解与分析,本文场景展示模型额外附带了与以上内容同步且更详细的python代码与样本数据,供大家学习参考,详情请移至知识星球获取相关资料:
还想学习更多信贷风控中更多的干货知识,来报名番茄风控的会员社区吧.全面的会员社区内容,点击以下内容即可报名和学习:
本月已经上线的内容有:
赶紧来加入我们的会员社区学习本次内容啦,教研组用心磨课场景展示模型,现在报名我们的畅听卡,还可以跟大家一起拼团学习,赶紧来学习吧。点击左下角【阅读原文】即可来一起拼团学习。
往期的会员直播课程查看如下:往期回顾 第1期 信用卡风控的基础知识介绍 第2期 催收场景与目标变量定义 第3期 第三方外部征信数据和各家拳头产品 第4期 场景展示模型 汽车风控介绍与GPS经验分享
第5期 信用卡分期利率与利息介绍 第6期 税务类数据在小微风控的基本应用 第7期 纯线上审批流程进行资产组合分配 第8期 场景金融介绍与风险节点部署分析
第9期 风控数据分析指标全接触 第10期 信贷政策大数据安场景展示模型全与供应商选择 第11期 信用卡套现的整治 第12期 商业银行小微企业风控实务 第13期 设备欺诈风险防范-黑产欺诈工具
第14期 设备反欺诈供应商选择及应用策略 第15期 微众联邦学习 第16期 Applist特征工程介绍 第1场景展示模型7期 Applist特征工程模型挖掘 第18期 贷前策略-风控策略部署与调优
第19期 贷前策略风控策略数据埋点与采集 第20期 贷中管理-电销外拨优先级策略 第21期 贷中风险管理-额度调整策略模型 第22期 贷中提降额方法与策略
第23期 场景展示模型 东南亚现金贷产品及相关风险策略 第24期 信贷业务中的风险定价—基础端 第25期 信贷机构的智能语音应用实践 第26期 信贷机构智能语音供应商选择指标
第27期 贷后催收策略-M1名单催收管理 第28期 信贷风控模型——中小企业的额度模型探索场景展示模型 第29期 人行征信报名数字分解读 第30期 银行卡失联修复与清收手段介绍
第31期 信贷风险经营 第32期 信贷风控系统 第33期 反欺诈讲解之设备指纹实操与演练 第34期 决策引擎的决策流层次及策略架构 第35期 ECL场景展示模型模型与评级简介
第36期 设备关联数据在金融风控的应用 第37期 ECL系列之评级模型及财报解析 第38期 数据清洗与特征选择 第39期 小微风控之 策略方向与风险管理体系搭建
第40期 小白入职大数据工程师之银行金融大数据系统实战 第41期 小微风场景展示模型控策略体系的优化与调整 第42期 巴塞尔协议银行零售及资产分池上 第43期 巴塞尔协议下篇资本管理风险价值
第44期 二代征信报告与规则构建 第45期 征信规则的衍生技巧与避坑指南 第46期 实战篇|风控策略效率的测试、调优与评估第47期 数场景展示模型据生命周期管理— 数据的引入、监控与管理
第48期 贷中反欺诈之 商户欺诈防范 第49期 策略分析之 数据监控与用户画像 第50期 银行中后台数据的建设——基于信用卡进件系统需求与扩展 第51期 模型训练/机器学习平台
第52期 精细化运营探索——运营着手场景展示模型点及响应模型场景化应用 第53期 基于SAS的三方数据风控产品测试评估 第54期 SAS的策略&模型之决策矩阵分析 第55期 基于二代征信的信用评分模型开发
第56期 基于二代征信的信用模型与策略的使用与监控 第57期 金融机构风险与预算评估 场景展示模型 第58期 催收板块:逾期账款催收管理 第59期 二代人行征信的深度解读(上):二代征信异议和接入及发展历程
第60期 二代人行征信的深度解读(下)——循环贷与非循环贷与衍生变量加工 第61期 风控人必学资产分析课—坏账预估 第62期 商户端风险定价——场景展示模型 基于成本收益模型的风险定价
第63期 差异化的贷前进阶策略讲解━━拒绝捞回策略制定 第64期 拒绝捞回的效果评估与策略二次调用 第65期 风控人应该懂的金融知识 第66期 风控人必备的风险知识——贷款利率、还款方式与常用风险指标
第67期 金融人必知--市场景展示模型场风险入门:金融衍生品 第68期 拒绝演绎实战--拒绝推论描述、方法介绍与案例分享 第69期 银行信用卡拒绝推论的场景实操 第70期 逾期催收管理流程优化与催收系统配置——汽车金融逾期案件催收实操
第71期 海外现金贷产品形态及风控措施 第72期 海场景展示模型外现金贷提降额原理及思路 第73期 巴塞尔协议—发展历程、资本充足率、拔备率、杠杆率、流动性 第74期 巴赛尔协议—市场风险及信用风险度量
第75期 金融小伙伴必备知识—信用卡损益 第76期 风控授信额度策略调优第77期 额度策略调优实战第78期 场景展示模型 信贷场景多维特征交叉策略实战分析第79期 信贷风控策略体系效果评估与全面调优
第80期 海外与国内评分卡对比与应用场景介绍第81期 智能推荐系统应用第82期 风控策略中的模型须知-逻辑回归评分卡分箱与模型评估第83期 多规则决策策略的搭建与实操第84期 多规则决策策略实操场景展示模型与练习讲解
第85期 模型开发之特征选择 第86期 风控模型与策略探索发现 第87期 场景风控的贷中客户生命周期监控—基于商户的Tableau实 操第88期 风控场景数据监控第89期 财税票等企业数据在小微企业贷款中的应用
第90期 中小微企业风控中财税票的数据使用与模型开场景展示模型发上下滑动可查看更多在我们会员社区上,目前我们的知识星球上也有上百篇干货文档与公众号付费文档,现在加入知识星球可以一次性学习提升:往期的文章有(包括但不限于):
①风控模型中的交叉验证全方位解析(除了调参外的,其它妙用)②深度剖析电商贷款风控相关细节(电商贷模型)③纯享版|信贷场景中的营销管理和模型设场景展示模型计(营销响应)④纯享版|信贷风控中的额度管理和额度模型设计⑤FPD模型、首逾模型、欺诈模型,这些风控干货值得实操了解(上)
⑥Python框架下的B卡(实时)特征开发及上线⑦OV|用户分群在贷前风控中的应用......以上课程将免费开放,给所有番茄风控大数据的会员同学学习,加入社区点击左下角【阅读原文场景展示模型】进行了解课程将免费开放给所有番茄风控大数据的会员同学学习,加入。
Copyright © 2002-2020 上海润之模型设计有限公司 版权所有 展示模型,展品模型,展厅模型,展示道具,展厅展品,展品道具,模型定制,模型公司,上海模型公司 备案号:沪ICP备20018260号