银行贷款与信用卡客户画像指标体系包含七大类核心指标:
1.基础人口属性(年龄、职业等);
2.资产收入(收入、负债率等);
3.征信履约(逾期记录、查询次数等);
4.交易行为(消费习惯、额度使用率等);
5.负债授信(总负债收入比等);
6.产品偏好(分期意愿等);
7.风险评级(欺诈风险等)。
该体系整合了客户信息、交易流水、征信数据等多源数据,通过ETL加工形成客户画像宽表,既支持信贷审批和风险预警,也满足监管报送要求,实现了业务应用与合规管理的双重价值。
银行贷款 + 信用卡 客户画像核心指标
银行贷款 + 信用卡 客户画像核心指标 一、基础人口属性 年龄、性别、学历、户籍、婚姻、职业、岗位层级 二、资产收入指标 月 / 年收入、名下房产车辆、存款理财、负债总额、资产负债率 三、征信履约指标 征信查询次数、逾期次数、逾期时长、现有贷款笔数、信用卡张数、还款记录 四、交易行为指标 月均流水、消费频次、消费品类、刷卡额度使用率、取现分期习惯 五、负债授信指标 已有授信总额、剩余可用额度、网贷笔数、担保负债 六、产品偏好属性 是否办过信贷、持卡年限、分期意愿、提额需求、过往营销响应度 七、风险评级 风控评分、客户等级、欺诈风险、多头借贷情况这七大类指标非常专业,已经是一份可以直接用于业务或开发的银行客户画像指标体系了。
为了让它在大数据开发和监管报送场景下更有用,我从数据表映射和指标加工逻辑两个角度,对每类指标做一个补充说明。
一、基础人口属性
数据来源:客户信息表(个人客户信息表)
典型字段:birth_date→age、gender、education、marital_status、occupation
ETL加工时需要将出生日期转为年龄(注意统计时点的取法)。这类字段通常变化频率低,一般按日或月同步即可。
二、资产收入指标
数据来源:客户信息表(收入、资产负债)+ 核心系统(存款理财)
关键加工点:
月/年收入:常来源于面签填报、工资流水反推或第三方征信数据,需要注意多源数据的口径统一
资产负债率:衍生指标,计算公式为
总负债 / 总资产 × 100%监管报送关联:EAST中的“对公客户财务信息表”会要求填报类似指标,需要确保数据口径一致
三、征信履约指标
数据来源:征信系统(人行征信报告),银行ETL通常会日增量接入
关键加工点:
征信查询次数:需要限定统计窗口(近3个月/6个月),区分“硬查询”(贷款审批)和“软查询”(贷后管理)
逾期时长:常用
max_dpd字段(最大逾期天数),是五级分类的核心输入多头借贷:定义为“近3个月征信查询次数≥6次且非我行查询”,需要跨机构信息聚合
“人行”就是中国人民银行的简称,“人行征信报告”就是指由中国人民银行征信中心提供并管理的个人或企业信用报告。
在我们之前讨论的风控模型、贷前授信、客户画像中反复提到的“征信数据”,其权威来源正是这个系统。它是中国金融体系中最核心、最全面的信用信息基础设施。
“人行”就是央行,它的征信报告是银行判断你是否“讲信用”的国家级权威凭证,也是你之前设计的所有风控模型和指标体系中权重最高、最具决定性的数据源。没有它,银行的信贷业务几乎无法开展。
四、交易行为指标
数据来源:核心系统交易流水 + 信用卡交易流水
关键加工点:
月均流水:需要区分代发工资流水(稳定收入)、经营流水(波动大)和纯过桥流水(无效)
刷卡额度使用率:衍生指标,公式为
(信用卡已用额度) / 信用额度 × 100%。使用率长期高于80%通常被视为风险信号消费品类:MCC码(商户类别码)分析,比如频繁在置业、投资类商户消费可能触碰监管红线
五、负债授信指标
数据来源:人行征信 + 本行信贷系统(已用授信、剩余额度)
关键加工点:
总负债收入比(DTI,即负债收入比):
(现有贷款月供 + 信用卡最低还款额) / 月收入,是贷前审批的核心红线指标监管报送关联:EAST“表内外担保信息表”需要填报担保负债
六、产品偏好属性
数据来源:信贷系统 + 营销系统
关键加工点:
持卡年限:可用
当前日期 - 开卡日期计算,用于客群分层(新户 vs 老户)分期意愿:需要特征工程,定义窗口期内的
分期次数和分期金额占比营销响应度:常用响应率和转化率,用于训练响应模型
七、风险评级
数据来源:风控系统 + 征信 + 交易流水
关键加工点:
风控评分:大部分银行会采购三方评分(如FICO,即费埃哲评分)或自研申请/行为评分卡,模型输出的分数会落到客户标签表
欺诈风险:数据层主要看设备指纹(多头设备登录)、申请资料异常(收入证明材料雷同)
多头借贷:征信查询次数和网贷笔数是核心特征
监管报送视角的补充
你整理的大部分画像指标,不仅是营销/风控用,也是监管报送中的预警或排查重点:
| 监管关注点 | 对应画像指标 | 报送场景 |
|---|---|---|
| 过度授信 | 已有授信总额、多头借贷、网贷笔数 | 贷前审批检查、EAST |
| 违规使用信贷资金 | 消费品类(置业/投资)、资金流向监控 | 贷后管理、EAST资金流水分析 |
| 信用风险暴露 | 逾期次数、逾期时长、五级分类 | 1104不良贷款表、EAST借据表 |
| 反洗钱/反欺诈 | 欺诈风险、多设备登录、异常交易模式 | 反洗钱大额/可疑交易报告 |
数仓表结构建议
如果你需要为这套指标体系建物理表,建议分层设计:
基础层:客户信息表 + 交易流水表 + 征信记录表
汇总层(客户画像宽表):以
客户号为主键,包含上述七大类指标的最新快照和近N个月统计值,日/周/月更新标签表(派生/衍生):将指标值映射为业务标签,如
收入等级='高'、消费能力='强'、风险等级='高风险'
这套体系既可以支撑贷前审批的自动决策,也能用于贷后监控的风险预警,同时满足监管报送中关于客户风险、授信管理的数据需求。
补充:为什么“人行征信报告”在银行如此重要?
你可以把它理解为银行审批贷款的“最终答案”或“照妖镜”。
它的权威性和全面性体现在以下几点:
全面覆盖,信息互通:
它记录了你在全国所有银行(包括国有行、股份行、城商行、农商行等)以及其他持牌金融机构(如消费金融公司、部分小贷公司)的信贷记录。
你在A银行申请房贷的记录,B银行在审批你的信用卡时也能看到。这有效防止了多头借贷和过度授信(即你之前提到的“多头借贷情况”指标)。
数据维度关键且标准:
它不是你之前梳理的“客户画像”的补充,而是核心构成。你提到的“征信履约指标”、“负债授信指标”中的大部分数据,源头就在人行征信报告。
报告内包含了你关心的几乎所有关键信息:
信贷记录:你当前及历史上的所有贷款(房贷、车贷、经营贷等)和信用卡的授信额度、余额、每月还款情况、是否有逾期、逾期了多久。
查询记录:哪些银行/机构、在什么时间、因为什么原因(贷款审批、信用卡审批、贷后管理)查了你的征信。短期内大量“贷款审批”原因的查询,往往是“多头借贷”或“资金紧张”的危险信号。
公共记录:欠税记录、法院判决记录等。
法律效力与强制力:
你向银行申请贷款时,必须授权银行查询你的征信报告,否则银行无法放款。
一旦你在任何一家银行发生严重逾期(如逾期90天以上),这个记录会出现在你的征信报告上,并影响你在全国范围内所有其他银行的贷款和信用卡申请。这构成了整个社会信用体系的基石。
在你的项目中,它是如何被使用的?
回到你之前设计的“信用评分模型”和“贷前授信”,人行征信报告中的数据扮演着核心权重字段的角色,通常具有“一票否决”或“高权重”的地位。
text
// 在你的信用评分模型中,征信部分的逻辑可以这样细化: CASE -- 严重失信,一票否决 WHEN 当前有贷款处于“逾期90天以上”状态 THEN 信用评分 = 0 且 直接拒绝 WHEN 近5年内有“呆账”或“坏账”记录 THEN 信用评分 = 0 且 直接拒绝 -- 一般逾期,扣减分数 WHEN 近2年内有“逾期61-90天”记录 THEN 征信得分 = 0 WHEN 近2年内有“逾期31-60天”记录 THEN 征信得分 = 4 WHEN 近2年内有“逾期1-30天”记录 THEN 征信得分 = 7 ELSE 征信得分 = 10 -- 完美记录 END
关键点:
结构化数据:你提到的“央行征信(数仓解析出来的机构化数据)”,正是指ETL开发工程师将人行征信中心返回的文本或类XML格式的原始报告,通过复杂的规则解析成可以直接在SQL中关联计算的结构化数据表。
数据仓库的“黄金数据”:解析后的征信数据会存放在数据仓库的DWD层,作为你所有风控模型、客户画像、监管报送中最核心、最权威的数据来源之一。