金融风控大厂面试25题(含解析)

发布时间:2022-07-05 发布网站:脚本宝典
脚本宝典收集整理的这篇文章主要介绍了金融风控大厂面试25题(含解析)脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。

金九银十,面试你准备好了吗?金融方向的兄弟们看过来,近期本条会持续更新,不赘述,直接看题:

题目来:七月在线 - 领先的ai与智能网联汽车职业教育平台

文末送书福利!

1、芝麻信用分的主要计算维度?

解析:

主要维度1)个人属性:职业类型、学历学籍等2)稳定性:手机稳定性、地址稳定性、账户活跃时长等3)资产状况:账户资产、有无住房、有无车辆4)消费能力:消费金额、消费层次、消费场景丰富度5)社交情况:人脉圈信用度、社交广度、社交深度6)信用历史情况:信用历史时长、信用履约记录数、信用履约场景、公共事业缴费记录7)违约历史情况:违约场景数

【金融风控实战特训】限时1分秒杀>>>金融风控实战 特训[金融就业小班 预习课之一] - 七月在线

金融风控大厂面试25题(含解析)

2、由于幸存者偏差,导致强变量在后续迭代中逐渐削弱甚至相反,该怎么解决?

解析:

幸存者偏差(SurvivorshipBias)与样本不均衡(Imbalance Learning)问题都是由于风控模型的拒绝属性导致的。但表现形式略有不同。幸存者偏差是指,每次模型迭代时,使用的样本都是被前一个模型筛选过的,从而导致的样本空间不完备。其实主要是添加负样本的问题。简单一些可以直接用增量学习,效果更好的是迁移学习和监督学习。比如用GAN网络产生新样本,对齐现有样本和旧的历史样本的分布,然后进行建模。解析2

什么是幸存者偏差效应?幸存者偏差(Survivorship bias),另译为“生存者偏差”或“存活者偏差”,是一种常见的逻辑谬误,意思是只能看到经过某种筛选而产生的结果,而没有意识到筛选的过程,因此忽略了被筛选掉的关键信息。通俗地说,当我们取得资讯的渠道仅来自于幸存者时(因为死人不会说话),资讯可能与实际情况存在一定的偏差。这一规律也适用于金融和商业领域。存活下来的企业往往被视为“传奇”,它们的做法被争相效仿,而其实有些企业也许只是因为偶然原因而幸存了下来。幸存者偏差在日常生活也中十分常见,比如:很多人得出“读书无用”的结论,是因为看到有些人“没有好好上学却仍然当老板、赚大钱”,却忽略了非常多的因为没有好好上学而默默无闻,甚至失魂落魄的人;又比如你可能听到朋友推荐某个“偏方”说他的亲戚用这个偏方治好了重疾,但实际上这个偏方到底治好了多少比例的人,有多少人用了这个偏方没有痊愈却没有人知道……02金融风控中的幸存者偏差效应广义的幸存者偏差用统计学的专业语来解释是——“选择偏倚”,即我们在进行统计的时候忽略了样本的随机性和全面性,用局部样本代替了总体随机样本,从而对总体的描述出现偏倚。在金融信贷场景中,放款机构会通过模型评分筛选用户,评分较好的用户可以获得放款,评分较差的用户直接被拒绝,机构只能获得放款用户样本的好坏标签,对于大量拒绝用户的还款情况无法获得。随着时间的推移,机构手中的训练样本都是“评分较好”的通过用户,而没有“评分较差”的拒绝用户,由此训练的模型在“评分较好”用户中表现越来越好,在“评分较差”用户中却无法得到任何验证。但是,金融风控模型真实面对的客群却包括了“评分较差”的用户,模型在“评分较差”用户中无法得到验证,导致训练的模型越来越偏离实际情况,甚至通过了大量应该被拒绝的坏用户,致使大量坏账出现,直接带来巨大经济损失。用下图示意的话,在客户全集为A的情况下,放款机构仅能通过分析子集幸存者A1的还款与行为数据寻找区分客户好坏的标签,但却不得不把这种标签推广应用在包括子集沉默者A2在内的全集上,而从A1取得的好坏标签在A2中可能并不成立。

金融风控大厂面试25题(含解析)

因此,当只能获得优质放款用户的好坏标签的情况下,如何保证建模对所有放款用户和拒绝用户都有良好的排序能力,是金融风控模型需要解决的重要问题。03使用“拒绝推断”解决幸存者偏差拒绝推断(Reject Inference),即推断建模总体中被拒绝的客户样本可能出现的结果。拒绝推断是建立申请评分模型时的特有问题。如果我们能够顺利运用某些方法成功地推断出被拒绝的客户的信用表现(即是好客户还是坏客户),那么我们就得到一个较完整的建模总体和建模样本。拒绝推断的方法● 接受部分坏客户解决样本选择偏差的最直接有效的方法就是随机抽取未被授信的客户,对其进行授信,观察未来表现。对于这部分客户加以一定的权重与那些原本被授信的客户合起来作为模型开发的样本。但是这种方法在现实中很难被风险管理部门所接受,因为未被授信的客户一般被认为存在拖欠行为的可能性较大,对这部分客户进行授信,风险也往往较高,易带来损失。● 两阶段加权的方法(核心基于诺贝尔奖获得者Heckman的两阶段模型)这里先解释下Heckman的两阶段模型。Heckman 在1974年发表的《Shadow PRice, Market Wages and Labor Supply》(影子价格、市场工资与劳动供给)中研究了工资与教育程度的关系。很显然,研究者只可能从有工作的人们那儿获得有关工资的数据。根据这些数据,研究者可以绘制成下图这样的分布图。图1中W表示工资,X表示受教育程度,可获得工资数据是图中的实心点。这样,我们研究所得到的两者的关系就如虚线所示。

金融风控大厂面试25题(含解析)

但是,这个关系是有偏差的。因为有不小比例的人没有参加工作,对这些人,我们可以了解他的教育程度,却不知道他一小时可以挣多少钱。一般地,人们是否参加工作取决于实际可得的工资与意愿工资,当工资低于意愿工资时,人们就会选择不工作。把不工作这部分人也搬到我们的图上,其分布就是图中的空心点。这时,工资与教育程度的关系就是图中的实线。可以发现,如果只拿实心点研究,得出的结论实际上低估了受教育程度对工资的影响。在Heckman 1979年发表的另一篇论文《Sample selection bias as a sPEcification error》(样本选择偏差导致的设定误差)中给出了这一问题的具体解决方法。首先,算出不同教育水平的人,参加工作的概率各有多大,这可以通过经验数据模型得到。然后,删去不工作之人的样本,将余留的样本点依其工作概率的不同,垂直往下位移。工作概率愈小,向下位移愈大;工作概率愈大,向下位移愈小。工作概率百分之百的,不作位移。(下图,实心点下移到由空心点标示的新位置。)

金融风控大厂面试25题(含解析)

然后,对位移后的样本点,求出其回归线。理论上可以证明,这条回归线,与第一个图中标出的真实关系线,应当是一致的(参见图3)。

金融风控大厂面试25题(含解析)

回到我们的问题当中,假设被拒绝的申请者行为模式与被授信的申请者行为模式相似,其基本思想是加权被授信的申请者,使得被授信的申请者能够代表被拒绝的申请者的行为。该方法分为两个阶段。第一阶段,建立一个拒绝/批准模型,用来预测一个申请者被拒绝/批准的概率。然后假设拒绝/批准概率相近的客户具有近似的风险特征, 因此考虑将拒绝/批准概率分成若干段,每段的好坏账户能代表该段内的被拒客户的特征,因此利用这些好坏账户可以推测被拒帐户中的好坏。第二阶段,为每一个样本计算出用于修正样本选择偏差的权重修正因子,从而建立有权重修正因子的违约预测模型。具体操作如下:1对所有样本账户先构建一个粗略的拒绝/批准模型,其中批准账户包括“好账户”、“坏账户”,据此得到对所有账户的预测的拒绝概率。该拒绝/批准模型仅用于加权调整,采用的变量可以放。2将预测的拒绝概率分成0—0.1, 0.1—0.2,……,0.9—1.0共10段,计算每段的好坏账户、拒绝账户的个数,计算每段的权重修正因子:(好账户数+坏账户数+被拒账户数)/(好账户数+坏账户数)。3将每段的帐户的原有权重和该段的权重修正因子相乘,得到新的权重变量,这个新的权重变量用于模型拟合与调整。下面进行模型的初步拟合——拒绝/批准模型。拒绝/批准模型的目标变量定义为是否批准申请的二元变量,对开发集中的所有记录采用逐步LOGistic 回归方法,根据回归的结果,对所有开发集帐户进行评估,按照评分值大小排序分成10组,组内每个帐户的权重设为该组所有帐户数与组内所有被授信申请者数的比值,获得加权权重。利用权重修正因子,对所有被授信申请者采用有加权的逐步回归方法,经过显著性检验、方向性检验、共线性检验、稳定性检验等步骤,获得最终的评分模型。使用拒绝推断模型后,测试集的模型性能从之前的KS=32.67%提高到了KS=35.89%。04总 结在信贷风险管理中,作为信用评分的一类,申请评分具有其特殊性,容易出现幸存者偏差效应。通过拒绝推断的方法,可以提高风控模型性能。但是如果采用接受部分坏客户的方式会给机构带来潜在的损失,成本高,在操作上也存在难度;而两阶段加权的应用基于统计假设,实践也证明了其修正样本选择偏差的效果,可以有效地提高申请评分模型的预测能力。解析参考链接:http://sohu.COM/a/286657141_100224338

3、为什么我们做评分卡的时候要用woe编码,而不是用别的编码方式呢?比如onehot之类的,仅仅是因为woe可以把特征从非线性变成线性的吗?

解析:

因为onehot后高维稀疏,模型学习是有困难的。一般模型会做embedding,但是做了embedding就不可解释了。 所以用woe来代替。使用woe编码通常有以下优点:1、更好的解释性,变量离散化之后可将每个箱体映射到woe值,而不是通常做one-hot转换。2、woe化之后可以计算每个变量的IV值,可用来筛选变量。3、对离散型变量,woe可以观察各个level间的跳转对odds的提升是否呈线性。4、对连续型变量,woe和IV值为分箱的合理性提供了一定的依据,也可分析变量在业务上的可解释性。5、用woe编码可以处理缺失值问题。

4、过采样怎么做效果才会好?

解析:

数据集清洗了嘛,还有特征呈线性了嘛,这两个不满足过采样很难保证效果的,通常xgboost不保证线性也行,但是要用smote最好做一下。

5、深度学习的风控模型,从经验上看,样本量大概要多少条啊

解析:

不同的模型不一样,而且也不光要注意样本量,比如RNN其实希望序列长度至少在12个月以上,粗略的说,样本量五十万以上效果比较好

6、5万正样本,200负样本,B卡,不只是提高额度,会拒绝一部分客户,怎么建模?

解析:

5万负样本是没有做下采样的必要的,200正样本无论用什么方法做过采样说实话由于自身携带的信息量比较少,学习的应该也不是完全的。所以这时候建议先略作改动,评价函数加一项,负样本的召回率,也就是说这时候不是主要关注KS,而是对负样本究竟能抓到多少。然后负样本学习的时候一定要加权,权重就按照sklearn中逻辑回归默认的balanced方法就ok,而且如果是我可能生成一个决策树,把坏账从0.4%下降到0.12%左右我觉得就蛮好的了

7、对短信打标签,也就是判断出短信属于的标签是哪一类,这样一个任务是提取文本关键词的任务吧?解析:

我建议先确定每个词对每个类别的贡献度。简单来做就是每种类别找几个词,手动划分一下有这个词,就属于这个类别。复杂一点来做,就训练个模型,确定每个词对每种类别的贡献度,然后对每条记录做个预测,排名前几的标签都给他。

8、为什么说准入规则,pre-A, 反欺诈规则反欺诈引擎,还有风控模型,一般都不会选用相同的特征?因为客户群体会越来越少么解析:

基本上每个机器学习模型或多或少都会遇到我们这种问题。我们一般是不会用相同的特征做重复筛选的。这样会导致样本偏移更严重。就是说,被拒绝的人,是由于某些特征表现差,被拒绝的,那随着时间推移,下次建模的样本里面,就没有这些人了...这些这些特征上的样本分布就变了。

9、在ks上训练集和测试集相差不大,但在auc上却相差较大,这是为啥?

金融风控大厂面试25题(含解析)

解析:

下图中两条红线分别表示训练集和测试集KS的差距,看起来两者是差不多的,曲线下的面积表示的是两者的AUC值,很明显两者的AUC差的就很多了,由于ks值能找出模型中差异最大的一个分段,因此适合用于cut_off,像评分卡这种就很适合用ks值来评估。但是ks值只能反映出哪个分段是区分最大的,而不能总体反映出所有分段的效果,因此AUC值更能看出总体的效果。

金融风控大厂面试25题(含解析)

解析2下面详细说明下AIC和KS的关系

金融风控大厂面试25题(含解析)

左图是KS曲线,红色的是TPR曲线(累计正样本占比),蓝色的是FPR曲线(累计负样本占比)。由于按照正样本预测概率降序排列,所以排在前面的样本为正的概率更大,但为正的概率是递减的;相反排在前面的样本为负的概率更小,但为负的概率递增。所以KS图中,TPR曲线在FPR曲线上方,并且TPR曲线的导数递减,FPR曲线的导数递增,而KS曲线先上升到达峰值P点(导数为0)后下降,P点对应的C值就是KS值。ROC图中,ROC曲线的导数是递减的,且刚开始导数大于1,逐渐递减到导数为1的T点(T点对应P点),然后导数继续降低。另外,A值对应X值,B值对应Y值,且C=B-A=Y-X在用KS评估模型时,除了看P点对应的KS值C,还要看P点的横坐标F值的大小,F值表示的是将分数从低到高排序后的累计样本占比,F值越小,说明模型对正样本的预测越精确,也就是说在识别出正样本的同时也能保证对负样本更小的误杀率。假设F值不变,C值增大,即P点沿着垂直方向向上移动,那么A值应该减小,B值应该增大;对应地,X值减小,Y值增大,T点会向左上角移动;所以ROC曲线下方的面积会增大,也就是AUC值增大。假设C值不变,F值减小,即P点沿着水平方向向左移动,因为C=B-A,所以A和B减小相同的幅度,也是就说X和Y减小相同的幅度,即T点沿着斜率为1的切线方向向下移动,此时ROC曲线下方的面积也会增大,即AUC值增大。所以P点的位置决定了T点的位置,C值和F值均会影响AUC值。AUC值看上去更像一个综合评估指标,但缺乏对模型细节的评估。而KS值结合F值,可以评估每一段评分的效果,还可以找出评分切分的阈值等。参考解析链接:https://zhuanlan.zhihu.com/p/56175215

10、 在xgboost或者lightgbm建模之前是否进行相关性处理,去掉相关性较高的变量?

解析:

需要lr中我们是为了对向量空间描述的最好。在xgb主要是想去掉相互替代性较强的特征。比如一个特征给他找相关性特别强的9个特征放在模型里面,存成不同的名字,你会发现他本来重要性是10,每划分一次,一个特征就比另一个好用那么一点,这么弄了之后十个特征的重要性都变成了1,然后被我们用feature_importance>5给筛掉了......这多尴尬。太多共线性特征的存在确实会使得模型的泛化性能下降,当然,这里指的是“过多”,如果是很少量共线性特征存在其实对于模型影响很轻微,但是如果存在大量共线性特征,尤其是比赛的时候暴力的特征衍生,会产生相当多相关性很高的特征,从而导致gbdt在训练的过程中重复采样相关性很高的特征,使得模型的效果变差,具体可见kaggle_ieee的kris分享的方案,通过删除大量冗余的V特征,local cv上升了千五,b榜上涨千4(事后分别测试的)。参考:https://zhuanlan.zhihu.com/p/105094131

11、请简单说下金融风控的架构知识?

解析:

思维导图。

金融风控大厂面试25题(含解析)

12、xgb变量重要性用哪一个指标?

解析:

1、通常我会直接用weight,他们筛选出的变量略有区别,但是使用下来区别主要在于重要性最低的那几个可以互相替代的特征,具体用谁其实并不重要。经验告诉我们total_gain效果可能会略好。2、是的,xgb筛选特征,然后用新的特征建模,但是通常不建议筛选后还用xgb建模,这不符合模型融合的策略。3、xgb其实是没法解释的,如果希望有逻辑回归的可解释度,建议相同数据、相同变量,带入lr建立一个陪跑的模型,寻求解释的时候去lr中找原因。特征相同的前提下,不会有太大出入的。4、xgb筛选特征可以理解为用均方差最小来做特征筛选,和IV、WOE属于同一种筛选方式,,描述的都是特征对分类任务的贡献度,一般用一个就行了,每个人的方法都不一样,见仁见智。

13、做风控模型时用到了哪些数据源?

解析:

征信数据运营商数据埋点数据平台自有数据用户手填数据数据有很多,每家都各有不同,小心点也可能问你数据来自哪家平台哦。ps:见过很多小型公司都喜欢用运营商数据,因为便宜,很多都是免费的。下面举个详细的例子:1、反欺诈模型:身份信息四要素验证(准入要求:一致) 手机在网时长验证(准入要求:长于一年) 家庭地址核验(准入要求:一致)学历信息核验(准入要求:一致)社保信息核验(准入要求:一致)夫妻核验(准入要求:一致)紧密联系人核验(准入要求:联系人无失信等黑名单信息)通话类 :通话活跃天数、短信活跃天数、充值次数、通话次数、通话号码数目、通话号码归属地总数、主叫次数、被叫次数、主叫号码数、被叫号码数、短信次数、通话时长、主叫时长、被叫时长、流量套餐、流量套餐使用量、平均时长、无呼出天数、无呼出天数占比、无通话天数、无通话天数占比、最大连续开机天数、关机天数、关机天数占比、连续n天以上关机次数、单次通话最长时长、单次通话最短时长、时长在1分钟内的通话次数、时长在1分-5分内的通话次数、时长在5分-10分内的通话次数、时长在10分以上的通话次数、白天(7:00-0:00)通话次数、夜晚(0:00-7:00)通话次数、白天(7:00-0:00)通话时长、夜晚(0:00-7:00)通话时长、本机号码归属地通话次数、本机号码归属地以外通话次数、本机号码归属地通话时长、本机号码归属地以外通话时长。黑名单( 黑名单命中数量、黑名单机构汇报数量、手机号击中黑名单、身份证号码击中黑名单、黑名单种类、直接联系人黑名单数量、身份证与其他姓名组合个数、身份证与其他手机号组合个数、灰度值、主动联系黑名单个数、被动联系黑名单个数、引起黑名单一级联系人个数、一级联系人引起黑名单百分比)设备指纹:7天内(以及1个月、3个月)同设备关联较多注册(IP注册、手机号)。具体根据产品设定准入标准。(7天、1个月、3个月)同手机号关联较多出现(设备出现、IP出现) 。具体根据产品设定准入标准。10分钟(及1小时内、1天内、7天内)同设备操作极多、10分钟(及1小时内、1天内、7天内)同手机号操作极多、10分钟(及1小时内、1天内、7天内)同IP操作次数。具体根据产品设定准入标准。多头借贷:查询机构数量、查询总次数、一周内查询次数、两周内查询次数、1个月内查询次数、2个月内查询次数、3个月内查询次数、4个月内查询次数、5个月内查询次数、6个月内查询次数、注册贷款机构数量、贷款申请和拒绝次数、贷款放款总次数、贷款逾期次数、贷款逾期欠款金额区间。2、信用评分模型变量策略:年龄、学历、性别、地域、职业收入区间、工作时间、婚姻情况、贷款用途、工作地经济水平、家庭地经济水平、工作稳定性、是否有房(房产价值)、是否有车(车辆价值)、社保金额、公积金金额征信查询次数:近一个月、三个月、六个月。人行征信贷款类变量 信用卡变量等5000多个变量。银联卡(390个维度):工资卡、信用卡的390个维度数据。芝麻信用分。多头借贷:近三个月内多头查询次数、最长三笔的注册时间与申请时间差、最长三笔的申请时间与放款时间差、申请总金额与放款总金额差、放款总金额、放款笔数、驳回笔数、驳回比率、逾期笔数、逾期总金额平均每月还款能力计算(利润-每期还款额)资产总额减去负债总额异地漫游指数、夜间活跃度、职业画像、手机一周浏览偏好(金融理财类APP操作指数、贷款类APP操作指数、新闻数、直播短视频类操作指数、视频网站操作指数、外卖类操作指数、地图类操作指数、微信类操作指数、淘宝天猫操作指数、其它社交类操作指数、京东操作指数、其它电商操作指数、地图类操作指数、招聘类操作指数、市内出行类操作指数、旅行类操作指数、炒股类操作指数、游戏类操作指数、教育类操作指数、育儿类操作指数)、实时多头借贷指数、特殊画像(赌和毒等)参考:https://zhuanlan.zhihu.com/p/95803900

14、金融风控中如何标记客户好坏的?

解析:

可以说迁徙率,也可以说逾期天数作为标记好坏的依据,因为本身样本不均衡,会偏向扩充坏人的数量(比如以pd1来标记好坏,坏人肯定比pd15会多很多),注意很多公司建模的时候,去除一部分灰色客户(比如去掉pd1~pd5的客户)

15、连续型特征的badrate呈U型,怎么转化为单调?

解析:

将特征值转化成中值差值的绝对值,这样就可以使该特征的badrate呈现单调递减的趋势。

16、金融风控领域中的biVAR图是怎样的?

解析:

横轴为特征升序,纵轴为badrate的变化趋势。

金融风控大厂面试25题(含解析)

17、分箱后,各箱badrate单调递增从业务上怎么理解呀?

解析:

我们有个先验知识,多头越多badrate越大,历史逾期越多badrate越大...等等,如果变量分箱后不符合这个先验,可能就把他剃掉了。Bad Rate:坏样本率,指的是将特征进行分箱之后,每个bin下的样本所统计得到的坏样本率bad rate 单调性与不同的特征场景:在评分卡模型中,对于比较严格的评分模型,会要求连续性变量和有序性的变量在经过分箱后需要保证bad rate的单调性。1. 连续性变量:在严格的评分卡模型中,对于连续型变量就需要满足分箱后 所有的bin的 bad rate 要满足单调性,只有满足单调新的情况下,才能进行后续的WOE编码2. 离散型变量:离散化程度高,且无序的变量:比如省份,职业等,我们会根据每个省份信息统计得到bad rate 数值对原始省份信息进行编码,这样就转化为了连续性变 量,进行后续的分箱操作,对于经过bad rate编码后的特征数据,天然单调。只有当分箱后的所有的bin的bad rate 呈现单调性,才可以进行下一步的WOE编码离散化程度低,且无序的变量:比如婚姻状况,只有四五个状态值,因此就不需要专门进行bad rate数值编码,只要求出每个离散值对应的bin的bad rate比例是否出现0或者1的情况,若出现说明正负样本的分布存在极端情况,需要对该bin与其他bin进行合并, 合并过程完了之后 就可以直接进行后续的WOE编码有序的离散变量:对于学历这种情况,存在着小学,初中,高中,本科,硕士,博士等几种情况,而且从业务角度来说 这些离散值是有序的, 因此我们在分箱的时候,必须保证bin之间的有序性,再根据bad rate 是否为0 或者1的情况 决定是否进行合并,最终将合并的结果进行WOE编码因此bad rate单调性只在连续性数值变量和有序性离散变量分箱的过程中会考虑。bad rate要求单调性的原因分析:1. 逻辑回归模型本身不要求特征对目标变量的单调性。之所以要求分箱后单调,主要是从业务角度考虑,解释、使用起来方便一点。如果有某个(分箱后的)特征对目标变量不单调,会加剧模型解释型的复杂化2. 对于像年龄这种特征,其对目标变量往往是一个U型或倒U型的分布,有些公司/部门/团队是允许变量的bad rate呈(倒)U型的。原文链接:https://blog.csdn.net/shenxiaoming77/article/details/79548807

18、请问回归决策树针对离散变量使用,是否先转成one-hot?否则1)如果是没转码的字符变量,直接报错;2)如果转成数值,就会把我们的编码,当做连续变量进行回归处理?

解析:

正常是要做onehot,但是特征高纬稀疏,还需要做embedding,这样就没有解释性了,所以个人建议可以做WOE,或者按照每个取值的badrate做一个排序然后labelencoder

19、在进行特征筛选时,A和B相关性强,B和C相关性强,这种情况去除哪个变量?

解析:

去掉VIF最大的或者重要性最低的。

20、实际分箱过程中如果用等频分箱,怎么使得每箱都有好坏样本,保证后面计算WOE有意义?

解析:

等频分箱之后,每一箱坏样本占比不同才有趋势呀,主要还是看趋势,也就是说等频分箱后,要在根据好坏样本占比来合并初始的分箱,手动合并的话一般保持单调趋势就行了,自动的话,可以考虑把相邻两箱IV值的差,小于某个阈值则合并为一箱

21、分箱法的主要目的?

解析:

由于分箱方法考虑相邻的值,因此是一种局部平滑方法。分箱的主要目的是去噪,将连续数据离散化后,特征会更稳定。一般在建立分类模型时,需要对连续变量离散化,特征离散化后,模型会更稳定,降低了模型过拟合的风险。比如在建立申请评分卡模型时用logsITic作为基模型就需要对连续变量进行离散化,离散化通常采用分箱法。离散特征的增加和减少都很容易,易于模型的快速迭代;稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展;离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。如果特征没有离散化,一个异常数据“年龄300岁”会给模型造成很大的干扰;逻辑回归属于广义线性模型,表达能力受限;单变量离散化为N个后,每个变量有单独的权重,相当于为模型引入了非线性,能够提升模型表达能力,加大拟合;离散化后可以进行特征交叉,由M+N个变量变为M*N个变量,进一步引入非线性,提升表达能力;特征离散化后,模型会更稳定,比如如果对用户年龄离散化,20-30作为一个区间,不会因为一个用户年龄长了一岁就变成一个完全不同的人。当然处于区间相邻处的样本会刚好相反,所以怎么划分区间是门学问;特征离散化以后,起到了简化了逻辑回归模型的作用,降低了模型过拟合的风险。可以将缺失作为独立的一类带入模型。将所有变量变换到相似的尺度上。参考:https://blog.csdn.net/mydear_11000/article/details/82081088

22、模型的ks和auc有多少可以上线了?一般训练集和测试集之间的ks和auc相差多少算是比较合理的呢?

解析:

KS至少20%,不然和瞎猜没啥区别。业内都认为训练集和测试集之间的KS相差5个百分点以内才算没有明显过拟合。

23、如何评估外部第三方数据?

解析:

对于一个放款机构来说,当自有数据不足以满足风控需求时,会引入外部的第三方数据来提升自己的风控水平,所以该如何评估新的数据源是否可用呢?本篇文章会围绕这个问题进行详细讲解,主要分为线下数据评估,线上数据测试,线上数据监控三个部分。一. 线下数据评估这里我会按线下数据评估的流程,结合自己平时的工作经验来写。接入外部数据的目的首先,外部的数据源可以大致分为四类:黑名单类,评分类,变量类,原始数据类外部数据的接入一开始主要由商务跟第三方进行接洽沟通,所以风控人员应该把接入数据的目的传达给商务,商务才能根据目的找到合适的第三方数据公司。一般有以下几个目的:- 用于优化现有的模型,一般会考虑接入变量类和原始数据类- 用来设计策略,一般会接入黑名单类,评分类的数据- 丰富用户画像的维度,这种数据能反映用户的某些属性,一般考虑原始数据类2.提供线下测试样本根据接入目的的不同,测试样本也会稍有差异,比如为了优化现有模型,就最好提供建模时所用的数据样本。但大致上测试样本需满足以下几点:- 连续一段时间内的样本,可以评估数据的稳定性- 最好是近段时间的样本,这样线下评估结果与线上实际效果差距不会太大- 其他特殊条件,如覆盖不同的产品和客群- 另外考虑到第三方那测试的成本,样本能测试的数量,能测试几次,这点需要商务那边去沟通好。3. 了解数据含义和构成一般第三方会返回数据的详细产品报告,风控人员从中需要了解数据的底层逻辑和构成,了解数据背后的业务含义,这方面可以和第三方的人员进行不断的沟通。4.数据分析评估线下的数据评估一般会考量以下几个方面:查得率,就是提供的样本在第三方那能命中多少用户覆盖率,一般指的是特征的缺失概率稀疏性,代表数据富含信息的程度稳定性,一般计算时间序列上的PSI有效性,好坏样本的区分程度,IV和KS比较常用,也可以把特征带入模型,评估对模型的提升效果可解释性,数据的业务含义是否容易解释与现有数据的共线性,一般用相关系数衡量数据的接入成本,这个需要考虑到接入数据后,增加的利润能不能覆盖掉支出的数据成本另外不同种类的数据源考量的东西也不一样:黑名单类一般用在反欺诈环节,所以主要考虑到“命中率“和”准确率“,即命中的用户逾期概率比较高。评分类一般用作策略和模型,主要考量“缺失率”,“稳定性”,“有效性”,如果评分的排序性好且IV比较高,则考虑入模,如果评分有明显的尾部极端优势,那适合做策略,用来拦截掉极端的坏用户。变量类考量的东西和评分类差不多,但会考虑到变量和现有数据的共线性,以及在效果上的重叠性。原始数据一般是爬虫类的数据,目前在监管趋严的情况下,数据的合规性是首先要考虑的,另外原始数据需要在特征衍生之后才能评估数据的价值。二. 线上数据测试因为线下评估用的数据是线上回溯的历史数据,而在实际情况中,线上与线下的数据存在一定差异,并且客群和市场环境也在不断变化,所以需要线上数据测试来评估外部数据在真实应用中的效果。笔者在工作中用到的主要是模拟测试和切分流量的AB-test。模拟线上测试将接入的数据配置成策略,放在真实环境中“试运行”,记录每天的数据分布,通过率等指标,将线上与线下的结果进行比对是否一致。2. AB-test当策略试运行的结果还不错时,可以将一部分的流量(用户)切到新策略中,将现有策略和新策略进行比较,计算策略的通过率,准确率等。三. 线上数据监控当外部数据上线之后,需要有一套标准的数据监控体系,观察数据的变化,及时发现异常问题。监控的东西主要有接口的调用情况,数据的覆盖率,稳定性等。解析参考链接:https://www.zhihu.com/people/yu-xin-xin-57/posts

24、简单描述一下风控建模的流程?

解析:

前期准备工作:不同的模型针对不同的业务场景,在建模项目开始前需要对业务的逻辑和需求有清晰的理解,明确好模型的作用,项目周期时间和安排进度,以及模型效果的要求。模型设计:包括模型的选择(评分卡还是集成模型),单个模型还是做模型的细分,是否需要做拒绝推论,观察期,表现期的定义,好坏用户的定义,数据的获取途径等都要确定好。数据拉取及清洗:根据观察期和表现期的定义从数据池中取数,并进行前期的数据清洗和稳定性验证工作,数据清洗包括用户唯一性检查,缺失值检查,异常值检查等。稳定性验证主要考察变量在时间序列上的稳定性,衡量的指标有PSI,平均值/方差,IV等。特征工程:主要做特征的预处理和筛选,如果是评分卡,需要对特征进行离散化,归一化等处理,再对特征进行降维,降维的方法有IV筛选,相关性筛选,显著性筛选等。另外会基于对业务的深入理解做特征构造工作,包括特征交叉,特征转换,对特征进行四则运算等。模型建立和评估:选择合适的模型,像评分卡用逻辑回归,只需要做出二分类预测可以选择xgboost等集成模型,模型建好后需要做模型评估,计算AUC,KS,并对模型做交叉验证来评估泛化能力及模型的稳定性。模型上线部署:在风控后台上配置模型规则,对于一些复杂的模型还得需要将模型文件进行转换,并封装成一个类,用Java等其他形式来调用。模型监控:前期主要监控模型整体及变量的稳定性,衡量标准主要是PSI,并每日观察模型规则的拒绝率与线下的差异。后期积累一定线上用户后可评估线上模型的AUC,KS,与线下进行比较,衡量模型的线上的实际效果。

25、feature_importance 和 iv有时候选出的变量差别很大,该以哪个为准,怎么判别 ?

解析:

个人感觉IV和目标函数的关系更大,但是一半用IV做初筛,iv很低,不用进模型,但是IV是单个变量的作用,而feature_importance有一个特征组合效应在里面。我个人是这么理解的。所以按理也可以推出,不一定是选IV最高的变量组合在一起就一定能够ks最高,而是特征组合在一起综合效应最高的才是KS能够达到最高的。


↓↓↓福利!福利!福利↓↓↓

了解七月在线的的小伙伴应该知道2019年七月在线出了两本书《名企AI面试100题》和《名企AI面经100篇》,反响很好,助力数千人拿到dream offer。今年我们又整理出了两本书《2021年最新大厂AI面试题》、《机器学习十大算法系列》,七月在线学员拿到书后反响不错。为了让更多AI人受益,七仔现把子版免费送给大家。

↓ ↓ ↓以下4本书,电子版免费送 ↓ ↓ ↓

金融风控大厂面试25题(含解析)

《2021年最新大厂AI面试题》、《机器学习十大算法系列》、《名企AI面试100题》及《名企AI面经100篇》无套路,免费取!

需要的小伙伴评论区发书名,看到后发你。

喜欢这样的福利请三连,三连,你的鼓励是七仔 继续申请福利 持续输出的不竭动力!

脚本宝典总结

以上是脚本宝典为你收集整理的金融风控大厂面试25题(含解析)全部内容,希望文章能够帮你解决金融风控大厂面试25题(含解析)所遇到的问题。

如果觉得脚本宝典网站内容还不错,欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。