本申请实施例提供一种特征合成方法与装置,该方法包括:获取用户输入的配置文件,所述配置文件包括原数据的存储路径;根据所述原数据的存储路径,获得所述原数据;获取所述原数据的特征定义信息,所述特征定义信息用于指示所述原数据的特征计算逻辑;根据所述原数据的特征定义信息,对所述原数据进行特征合成,得到所述原数据的多个合成特征。即本申请实施例实现特征合成的自动化,解决了人工进行特征合成时费时费力,且合成的特征数量有限的问题。
背景技术
机器学习的应用需要大量的人工干预,这些人工干预表现在:特征提取、模型选择、参数调节等机器学习的各个方面。为了降低机器学习中人工的干预,AutoML(AutomatedMachine Learning,机器自动学习)应用而生,AutoML用于将与特征、模型、优化、评价有关的重要步骤进行自动化地学习,使得机器学习模型无需人工干预即可被应用。
特征工程是AutoML的核心组成部分,包括特征合成、特征生成、特征筛选等步骤。其中,特征合成是生产新特征的重要手段。其针对数据,通过有经验的建模人员所设计的不同变换操作产出新特征。通常情况下,建模人员大部分工作是围绕特征展开的,为了提高建模效果,会尝试不同的特征。
当前主流的特征合成方法是通过人工设计进行特征合成,即指建模人员自行根据应用场景和建模经验设计和实现不同的特征合成算子,产出新特征。但是,人工进行特征合成不仅费时费力,且合成的特征数量有限。
实现思路