数据预处理--分箱(平滑)和归一化
数据预处理—分箱(平滑)和归一化
分箱/分组
XLab中,分箱有三种方式:等距分箱,等量分箱,均值/标准差分箱
等距分箱
这里有等距分箱的详细介绍:“等距分组”。简而言之,等距分组是各组保持相等的组距,也就是说各组标志值的变动都限于相同的范围。缺点:不恰当的分组可能使得某些样本量很多(参考书籍《基于Clementine的数据挖掘》的174页)。在我们要处理的数据中就存在这种问题,所以,不能直接采用该方法;否则将导致大量的0和1。
等量分箱
将数据平均分为N组(由小到大),然后,等间隔赋值(1、2、3……)。对数据进行特殊处理后(正负样本分离去除某些特殊值),可尝试采用。
均值/标准差分箱
这个看不太懂???
归一化
由于数据不平衡,存在大量小的值(0.5,1,2),和少量大的值(500,1000……),怎样处理才能更好呢?