-
Notifications
You must be signed in to change notification settings - Fork 225
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
海外金融风控算法实践(Python) #55
Comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
一、海外信贷现状简介
自国内金融P2P暴雷,国内很多小贷机构便涌入了东南亚、非洲等未开拓的市场,像印尼、印度、菲律宾、泰国、越南、尼日利亚等国家。
分析这些东南亚/非洲国家的市场特点,有低金融包容性(2017年越南有30.8%的人拥有银行账户),对金融的高需求(2017年借贷的人口比例49.0%)和互联网普及率(2018年为66%)和移动连通性,为东南亚金融科技贷款的发展提供了最有利的条件,开启了野蛮生长的模式。
结合这些地域的贷款市场情况,通常征信体系建设及经济情况都比较差,且大部分的用户资质比较差(也并不满足银行的贷款资格)。种种因素下,机构对于放贷用户的信用/欺诈风险的掌握是比较差的,小贷机构坏账率普遍地高(如一些机构的新借贷用户坏账率可达 20~30%,而银行坏账通常在10%左右)。
在东南亚开展的小额贷款产品,普遍是714高炮(贷款周期7-14天,收取高额逾期费用或放贷时提前从本金中扣除利息-砍头息,有的实际年化利率竟达到300%)。高利率必然带着高风险,这种业务也很容易受到金融监管政策的封杀。
二、小贷风控体系介绍
这么高的坏账情况,如果小贷机构在对借贷用户信用情况的掌握不足,即使高利率也未必覆盖这么高的信用风险。
可见,风控能力是小贷业务控制损失的核心,风控体系通常由 反欺诈(证件信息核实、人脸识别验证、黑名单)+ 申请评分模型组成。
风控好坏关键在于数据获取及积累。一个明显差异体现在于,机构新借贷的用户坏账率是20~30%(里面骗贷欺诈的比重应该挺高),而对于在机构内复贷的老用户(之前有借贷的再重复贷款的用户)坏账率仅有4%。
也就是,对于机构有掌握借贷历史的用户,其坏账率是显著较低的!信贷风控能力的差异其实也就是数据垄断优势的体现! 对于小贷机构,营销扩展新用户后,如何应用风控模型尽量准确地评估新用户,并给予较低的额度,当其有较好的信贷历史后再提高额度,好好维持及扩充这部分复贷用户就是业务盈利的关键。
海外的小贷机构申请评分模型的数据主要来源有:
三、申请评分模型实践
3.1 征信特征加工
本项目基于东南亚某国近期的500笔的小额贷款交易(数据源于网络,侵删),获取相应Experian征信报告数据,并用Python加工出滑动窗口的征信特征:如近30天的贷款次数,贷款平均额度、最近贷款日期间隔、历史逾期次数等特征,通过LightGBM构建申请评分模型。
(本项目建模较为简化,更为完整的评分卡建模全流程可以参考之前文章:一文梳理金融风控建模全流程(Python))
![](https://camo.githubusercontent.com/1b2a59205901f0c02fba085f97a600d421807e6344c3981c359ce4106a34914a/68747470733a2f2f75706c6f61642d696d616765732e6a69616e7368752e696f2f75706c6f61645f696d616765732f31313638323237312d383063316231376533383530353637392e706e673f696d6167654d6f6772322f6175746f2d6f7269656e742f7374726970253743696d61676556696577322f322f772f31323430)
Experian征信报告原始报文包含了个人基本信息、近期贷款信息、信用卡、贷款等历史表现等信息。如下代码滑动时间窗口,提取相应的特征。
3.2 特征选择
考虑征信报告的隐私性,本项目仅提供一份报告示例做特征加工。特征加工后特征选择,关联逾期标签,形成如下最终数据特征宽表。
3.3 模型训练
仅用征信报告数据的特征,可见对于逾期用户的识别效果很一般,Test AUC仅60%左右(后续还是得寄望于加入些短信类、历史借贷类等数据)。综合分析模型重要的特征,主要为:
本团队可承接风控建模的项目,有合作需求可以联系微信号“Ai_Algorithms”,感谢~
The text was updated successfully, but these errors were encountered: