文章目录
  1. 1. 数据预处理—分箱(平滑)和归一化
    1. 1.1. 分箱/分组
      1. 1.1.1. 等距分箱
      2. 1.1.2. 等量分箱
      3. 1.1.3. 均值/标准差分箱
    2. 1.2. 归一化

数据预处理—分箱(平滑)和归一化

分箱/分组

XLab中,分箱有三种方式:等距分箱,等量分箱,均值/标准差分箱

等距分箱

这里有等距分箱的详细介绍:“等距分组”。简而言之,等距分组是各组保持相等的组距,也就是说各组标志值的变动都限于相同的范围。缺点:不恰当的分组可能使得某些样本量很多(参考书籍《基于Clementine的数据挖掘》的174页)在我们要处理的数据中就存在这种问题,所以,不能直接采用该方法;否则将导致大量的0和1。

等量分箱

将数据平均分为N组(由小到大),然后,等间隔赋值(1、2、3……)。对数据进行特殊处理后(正负样本分离去除某些特殊值),可尝试采用。

均值/标准差分箱

这个看不太懂???

归一化

由于数据不平衡,存在大量小的值(0.5,1,2),和少量大的值(500,1000……),怎样处理才能更好呢?

文章目录
  1. 1. 数据预处理—分箱(平滑)和归一化
    1. 1.1. 分箱/分组
      1. 1.1.1. 等距分箱
      2. 1.1.2. 等量分箱
      3. 1.1.3. 均值/标准差分箱
    2. 1.2. 归一化