可视化数据科学平台在信贷领域应用系列三：特征组合-Altair RapidMiner-数据统计与分析-软服之家

要在特征加工这块工作上提升效率，建模人员也能有更多时间“偷懒”，都 “Sora”时代了，为啥不巧用工具呢？

RapidMiner在信贷风控特征加工组合中是一把利器！

第一，从银行信贷风控建模工作角度看，这个工具的可应用场景比较广泛，解决了日常的业务需求工作的标准化问题。比如，通过RapidMiner的GENERATE模块，可在多个业务场景中辅助信贷风控从业人员解决实际应用问题，RapidMiner可在如下几个涉及特征加工和特征组合的业务应用场景提升工作效能：

1. 构建客群细分变量，辅助精细化客群分析；

2. 构建组合决策变量，形成策略规则；

3. 非结构化数据转换挖掘，尤其是文本类和日期类数据；

4. 特征组合挖掘，融合业务理解，挖掘衍生特征。

第二，RM非常简洁的界面，让操作无比高效，新手上手操作无负担。比如，特征加工组合工作中，由于RapidMiner将丰富的算子进行了科学归类，使用者可快速找到所需算子，拖拉式操作更是简明易上手，公式区域语法高亮也方便使用者阅读验证等。市面上这么多建模工具，能做到保持功能完整符合日常需求，同时又保证操作界面简洁、逻辑不复杂的产品少之又少，Altair RapidMiner是其中一款。

—— 国内知名互联网零售信贷风险建模专家

1. 什么是“特征加工组合”？

特征加工组合涵盖了特征加工与特征组合。在机器学习中，特征加工组合是指基于数据集中现有的一个、两个或多个原始特征来创建新的特征。这有助于模型一方面更好地捕捉特征之间的关系，另一方面挖掘更丰富的信息，从而提高模型的性能。特征加工组合通常分为三类：特征变换、特征交叉组合和多项式特征组合。

特征变换通常是指针对单个原始特征进行变换或计算。例如，判断一列地址文本数据中是否包含“村、屯、组、庄”等字符，加工得到乡村倾向地址特征。

特征交叉组合是将两个或多个特征的取值进行组合。例如，如果有两个特征分别是“性别”和“婚姻状态”，通过将它们交叉，可以创建一个新的特征，表示“性别-婚姻状态”的细分变量。

多项式特征组合是对原始特征进行幂的组合。例如，对于特征χ，通过创建χ₂、χ₃等，可以引入非线性关系。

特征加工组合的目的是增加模型的表达能力，使其能够更好地适应数据。它在处理非线性关系、交互效应等方面非常有用。然而，需要小心选择合适的加工和组合方式，因为过于复杂的组合可能导致过拟合。

在进行特征组合时，通常需要结合领域知识和模型的反馈，以确保创建的新特征对于模型的性能提升是有效的。在信贷风控领域，进行特征加工和特征组合时，会兼顾加工和组合特征的区分度效果和稳定性，并关注其业务解释性。

2. RapidMiner中Turbo Prep看板下的GENERATE模块

图1 GENERATE模块函数库支持的函数算子

如图1，为进入GENERATE模块后的交互界面，各功能区域分布清晰合理。左侧边栏为原有数据列，右侧部分是函数算子和常量对象，中部上方为加工生成区域，中部下方为可实时更新的数据预览区域。

（1）函数库Functions

我们首先来看一下RapidMiner的GENERATE模块强大函数库所支持的丰富算子。如图2，我根据函数算子的功能将全部函数算子进行了分类：基础函数、数学函数、文本函数以及其他函数。整体函数库可以用“全面、丰富、特色”来评价，“全面”是指函数类别全面、“丰富”是指函数算子功能丰富、“特色”则是指如表达式转换的算子。

基础函数涵盖了基础运算算子、逻辑运算算子、比较算子、位运算算子、舍入函数算子和转换函数算子。其中，Conversion Functions-转换函数算子包含了面向不同格式数据的转换算子，包括普通数值列与字符串格式数值的相互转换、日期格式数据与字符串格式日期数据的双向格式化解析转换。

数学函数包括数学函数算子、统计函数算子和三角函数算子。数学函数算子可实现开方、幂次方、对数、取绝对值基本数学运算，统计函数算子涵盖了均值、最值、求和等聚合函数。

文本类函数主要包括文本信息算子和文本变换算子。对于非结构化的文本数据，RapidMiner提供了优秀的解决方案。文本信息算子为针对文本数据的基础函数算子，诸如字符串比对、字符转匹配、字符串逻辑判断、字符串查找等均为数据科学从业者们实现。文本变换算子则侧重对文本数据进行操作和修改，如文本截断、文本替换、文本拼接、字符提取、文本清洗等功能算子。

其他函数中的日期计算算子实现了对日期数据的相关功能，如日期推移、日期差分、时间单位换算等。

（2）常量值Constants

Constants为RapidMiner提供的数据科学领域的常用常量对象，方便设计开发新特征时直接引用使用。

2. GENERATE 模块实操特征加工和组合

下面我们使用GENERATE模块在UCI台湾信用卡数据集上来实操一下特征加工和组合工作。

如《可视化数据科学平台在信贷领域应用系列一：数据探索》所介绍，BILL_AMT1 ~ BILL _ AMT6分别为2005年9月至2005年4月每月的账单金额，PAY _ AMT1~PAY _ AMT6 分别为2005年9月至2005年4月每月的付款金额。于是我们便可加工以上每个月份的账单还款比例特征，即“付款金额”除以“账单金额”。如图3所示，填写新生成特征列名称“PAY _ Rate1”，将对应的数据列拖至 Formula 操作区，将基础运算算子中的“除号”也拖至操作区，形成公式“[PAY _ AMT1] / [BILL _ AMT1]”，更新数据预览后则显示了加工后的特征的预览结果。确认无误后，则可将新生成特征列提交（COMMIT）正式添加进数据集中。

综合 BILL _ AMT1~BILL_AMT6，定义公式：“[BILL _ AMT6]/ ([BILL _ AMT1]+[BILL _ AMT2]+[BILL _ AMT3]+[BILL _ AMT4]+[BILL _ AMT5]+[BILL _ AMT6])”，则加工得到了特征“最近一月账单金额占最近六月账单金额总和比例”，表征了用户的近期信用卡消费趋势。类似的可加工得到特征“最近一月还款金额占最近六月还款金额总和比例”，这两类趋势特征均与目标变量还款违约有较强的相关性。

又如我希望加工一个客群细分变量“大龄（35岁以上）未婚男性”，定义公式“ ( [AGE] > 35) && ( [ MARRIAGE ] == 2 ) && ( [SEX] == 1 )”，则加工得到了标签。此外，对于UCI台湾信用卡数据集中存在时间序列型数据，如多个月份的账单金额和付款金额数据，还可以通过计算标准差来描述客户对应指标的波动率，进而评估客户的稳定性。综上，借助RapidMiner的GENERATE模块，可加工得到更加丰富的数据特征，扩大数据维度，提升模型精准度，同时丰富的特征好标签指标也为策略设计提供了便利。

本篇文章就到这里啦，拉到文末点击合集，还可以查看往期内容~ 我们下期内容再见！

申请免费试用：

如您对 Simcenter 系列软件及解决方案感兴趣，欢迎联系我们。

金融证券保险 #数据统计与分析