本技术提供了一种用于风险画像构建的多视野标签生成方法及装置,具有这样的特征,包括步骤S1‑S2,构建子特征集合并计算各个特征的重要性值和相关性值以及特征筛选量;步骤S3,构建筛选特征集合;步骤S4,计算并根据筛选特征集合中各个特征的相关性值,构建正相关特征集合和负相关特征集合;步骤S5,根据筛选特征集合中各个特征对应的唯一值的数量,构建离散特征集合和连续特征集合;步骤S6,根据正相关特征集合、负相关特征集合、离散特征集合和连续特征集合,得到多视野模型特征集合;步骤S7,计算多视野模型特征集合中各个目标对应的各个特征的woe值。总之,本方法能够生成具有更优风险表达能力的标签。
背景技术
风险画像用于多个领域,构建精准的风险画像对识别、评估和预测风险至关重要。传统的风险画像方法通常依赖于规则驱动方法或机器学习模型,通过历史数据提取主体的特征,基于这些特征生成风险标签对主体的风险状况进行评估。然而,随着数据量和数据类型的快速增长,传统方法在特征提取和风险评估方面暴露出了一些显著的不足:
1)特征相互干扰问题:在主体相关数据中,不同特征之间存在复杂的相关关系,包括正相关、负相关甚至非线性相关。传统的机器学习模型在处理正负相关特征时,往往会遇到梯度相互抵消的问题,这导致模型在学习过程中难以有效聚焦于关键风险因素,降低了模型的预测精度。此外,特征相互干扰还会引发模型的训练不稳定性,从而对最终的风险画像构建产生不利影响。
2)特征类型的学习偏差:在风险画像构建中,特征类型多样化,如离散和连续特征共存,且它们的分布复杂。现有的深度学习模型通常基于特征的值或分布特征分别学习离散或连续列特征,容易导致模型对不同特征类型的学习效果存在偏差,难以捕捉到离散和连续特征之间的关联性。这一局限性影响了模型构建全局风险画像的效果。
3)缺乏多视野特征表征:当前的风险画像技术较少考虑多视野特征表征,即缺乏从不同角度,如特征的相关性、分布离散性等,来生成综合性特征空间的能力。现有方法通常是基于单一视角提取特征,难以反映主体复杂的风险特征。这导致风险画像的维度不够全面,难以满足复杂场景下的风险评估需求。
实现思路