本技术提供了一种用于风险画像构建的标签生成方法及装置,具有这样的特征,包括步骤S1‑S3,将所有特征划分为多个子特征集合,根据重要性值、相关性值和特征筛选量,从子特征集合中选取特征,构建对应的筛选特征集合;步骤S4,对各个子特征集合,将子特征集合中每个目标对应的所有特征的值输入机器学习模型,结合该目标对应的风险判断标签,得到子特征集合中各个目标对应的预测值;步骤S5,对各个子特征集合,将对应的筛选特征集合的特征和预测特征进行合并,得到对应的模型特征集合;步骤S6,计算模型特征集合中各个目标对应的各个特征的woe值。总之,本方法能够生成提高风险画像准确度的多个标签和每个目标的对应标签值。
背景技术
风险画像用于多个领域,且风险画像的精准与否关键在于风险标签是否能反映出该主体在某一维度下的风险状态。现有的风险标签生成方法主要基于规则驱动。通过领域专家的经验和风险定义进行规则设定,从规则出发进行逻辑或条件的预先设定,从而生成风险标签。规则可以根据多种标准设定,例如在金融领域中可以根据交易频率、消费金额、账户异常登录行为等作为标准。设定规则为“如果用户在24小时内尝试登录失败超过5次,则标记为‘频繁失败交易账户’”等。基于规则的标签生成方法具有可解释性强和实施成本低的优势,但其往往是线性的和静态的,当风险表现出非线性特征或多变量依赖时,难以捕捉复杂的风险特征,因此对于复杂风险场景的刻画能力不足。此外,基于规则的方法过度依赖专家经验,导致规则的时效性和复杂风险挖掘能力不足。
除了基于规则驱动的方法,还有一些现有技术通过统计方法或简单的机器学习模型对主体的风险进行分类或评分,进而生成风险标签。例如通过逻辑回归、决策树等方法对个体风险进行初步评估。这类方法能够处理非线性关系,可以用于多维数据和大规模样本,有一定通用性。然而同样存在以下不足:1)模型标签泛化能力有限:目前主流的模型标签生成方法无法充分捕捉复杂的风险特征模式,容易受单一维度的指标影响,导致生成的标签无法有效应对多变的环境。这种单一化的风险标签体系难以灵活应对不同主体和不同时期的风险差异。2)缺少针对不同风险层级的细分:传统风险画像方法中,风险标签大多为单一评分或分类,缺乏细粒度的风险层级划分。许多评分模型缺少标签层级划分,限制了风险识别的精细化程度,无法满足精细化风控需求。3)缺乏对模型标签生成方法的标准化支持:目前在风险画像的生成过程中,针对不同主体的标签生成缺少统一的标准和方法,导致标签生成的可重复性和解释性较差。现有的大多数风险评估方法基于数据特定处理,无法进行跨主体的标签生成模型泛化,影响了应用的广泛性。
实现思路