本技术提供了一种用于风险画像构建的联合分箱标签生成方法及装置,具有这样的特征,包括步骤S1‑S3,将所有特征划分为多个子特征集合,并从所有子特征集合中根据特征的重要性值选取多个特征,构建重要性代表特征集合;步骤S4,对重要性代表特征集合进行分箱计算,得到重要性代表特征集合中各个目标对应的各个特征的分箱值,并根据所有分箱值构建分箱特征集合;步骤S5,对分箱特征集合中的各个特征进行联合,得到联合分箱特征集合;步骤S6,计算联合分箱特征集合中各个目标对应的各个特征的woe值。总之,本方法能够生成提高风险画像准确度的多个标签和每个目标的对应标签值。
背景技术
风险画像用于多个领域,且风险画像的精准与否关键在于风险标签是否能反映出该主体在某一维度下的风险状态。
目前,主体风险画像多采用基于专家经验的规则驱动方法,将各类特征整合为风险标签,以便对主体风险进行评估。这种方法可解释性强,逻辑清晰,但局限性同样显著,具体表现如下:
1)高维特征带来的维度灾难:待分析数据通常具有高维度和多样性的特点,特征之间的关系复杂且非显性。基于规则的方法在高维特征空间中难以有效提取关键信息,常常因规则覆盖范围有限或设计过于简单而导致标签生成质量不高。此外,高维特征带来的计算成本也限制了规则方法的广泛应用。
2)缺乏系统化的标签生成流程:规则驱动方法通常没有统一的特征选择、特征扩展和风险标签生成框架,依赖于不同场景的定制化设计,缺乏系统性。这种缺乏标准化的生成流程会增加实施和维护的难度,同时降低了模型的可解释性和风险评估的可靠性。
3)特征选择及重要性评估不充分:规则驱动的方法依赖领域专家的经验和认知来定义特征选择规则、特征组合方式以及风险评估指标。这种方式可能忽略了不同特征之间的相互作用和潜在关联,导致对关键信息的遗漏,从而降低模型的预测性能。
4)分箱处理方式单一,缺乏交互分析能力:当前的分箱技术多采用独立的单特征分箱,难以反映多特征之间的交互关系。单一特征分箱方式可能导致对风险群体的多维度理解不足,影响复杂风险状态的精准刻画。
实现思路