特征加工组合涵盖了特征加工与特征组合。在机器学习中,特征加工组合是指基于数据集中现有的一个、两个或多个原始特征来创建新的特征。这有助于模型一方面更好地捕捉特征之间的关系,另一方面挖掘更丰富的信息,从而提高模型的性能。特征加工组合通常分为三类:特征变换、特征交叉组合和多项式特征组合。
特征变换通常是指针对单个原始特征进行变换或计算。例如,判断一列地址文本数据中是否包含“村、屯、组、庄”等字符,加工得到乡村倾向地址特征。
特征交叉组合是将两个或多个特征的取值进行组合。例如,如果有两个特征分别是“性别”和“婚姻状态”,通过将它们交叉,可以创建一个新的特征,表示“性别-婚姻状态”的细分变量。
多项式特征组合是对原始特征进行幂的组合。例如,对于特征χ,通过创建χ₂、χ₃等,可以引入非线性关系。
特征加工组合的目的是增加模型的表达能力,使其能够更好地适应数据。它在处理非线性关系、交互效应等方面非常有用。然而,需要小心选择合适的加工和组合方式,因为过于复杂的组合可能导致过拟合。
在进行特征组合时,通常需要结合领域知识和模型的反馈,以确保创建的新特征对于模型的性能提升是有效的。在信贷风控领域,进行特征加工和特征组合时,会兼顾加工和组合特征的区分度效果和稳定性,并关注其业务解释性。


我们首先来看一下RapidMiner的GENERATE模块强大函数库所支持的丰富算子。如图2,我根据函数算子的功能将全部函数算子进行了分类:基础函数、数学函数、文本函数以及其他函数。整体函数库可以用“全面、丰富、特色”来评价,“全面”是指函数类别全面、“丰富”是指函数算子功能丰富、“特色”则是指如表达式转换的算子。
基础函数涵盖了基础运算算子、逻辑运算算子、比较算子、位运算算子、舍入函数算子和转换函数算子。其中,Conversion Functions-转换函数算子包含了面向不同格式数据的转换算子,包括普通数值列与字符串格式数值的相互转换、日期格式数据与字符串格式日期数据的双向格式化解析转换。
数学函数包括数学函数算子、统计函数算子和三角函数算子。数学函数算子可实现开方、幂次方、对数、取绝对值基本数学运算,统计函数算子涵盖了均值、最值、求和等聚合函数。
文本类函数主要包括文本信息算子和文本变换算子。对于非结构化的文本数据,RapidMiner提供了优秀的解决方案。文本信息算子为针对文本数据的基础函数算子,诸如字符串比对、字符转匹配、字符串逻辑判断、字符串查找等均为数据科学从业者们实现。文本变换算子则侧重对文本数据进行操作和修改,如文本截断、文本替换、文本拼接、字符提取、文本清洗等功能算子。
其他函数中的日期计算算子实现了对日期数据的相关功能,如日期推移、日期差分、时间单位换算等。
(2)常量值Constants
Constants为RapidMiner提供的数据科学领域的常用常量对象,方便设计开发新特征时直接引用使用。
下面我们使用GENERATE模块在UCI台湾信用卡数据集上来实操一下特征加工和组合工作。
如《可视化数据科学平台在信贷领域应用系列一:数据探索》所介绍,BILL_AMT1 ~ BILL _ AMT6分别为2005年9月至2005年4月每月的账单金额,PAY _ AMT1~PAY _ AMT6 分别为2005年9月至2005年4月每月的付款金额。于是我们便可加工以上每个月份的账单还款比例特征,即“付款金额”除以“账单金额”。如图3所示,填写新生成特征列名称“PAY _ Rate1”,将对应的数据列拖至 Formula 操作区,将基础运算算子中的“除号”也拖至操作区,形成公式“[PAY _ AMT1] / [BILL _ AMT1]”,更新数据预览后则显示了加工后的特征的预览结果。确认无误后,则可将新生成特征列提交(COMMIT)正式添加进数据集中。

又如我希望加工一个客群细分变量“大龄(35岁以上)未婚男性”,定义公式“ ( [AGE] > 35) && ( [ MARRIAGE ] == 2 ) && ( [SEX] == 1 )”,则加工得到了标签。此外,对于UCI台湾信用卡数据集中存在时间序列型数据,如多个月份的账单金额和付款金额数据,还可以通过计算标准差来描述客户对应指标的波动率,进而评估客户的稳定性。综上,借助RapidMiner的GENERATE模块,可加工得到更加丰富的数据特征,扩大数据维度,提升模型精准度,同时丰富的特征好标签指标也为策略设计提供了便利。
本篇文章就到这里啦,拉到文末点击合集,还可以查看往期内容~ 我们下期内容再见!
申请免费试用:
如您对 Simcenter 系列 软件及解决方案感兴趣,欢迎联系我们。


苏公网安备 32059002002276号
