某个地区的生态环境和动物数量的关系

    

    可以看到老虎跟麻雀的数量不是在一个数量级上。

    各个维度的输入如果在数值上差异很大,那么会引起正确的w在各个维度上数值差异很大

                

    找寻w的时候,对各个维度的调整基本上是按照同一个数量级来进行调整的。

    也就是这样的数据在经过逻辑回归算出模型后,麻雀的w权重会比老虎大很多,这样就会造成误差

那怎么解决呢,只有处理数据,对数据做归一化,让两者的数量级差距减少。

归一化:

    最大值最小值法:

           公式:    ( x - min(x) ) / ( max(x) - min(x))  , 根据公式可得,其结果范围在0~1间

            缺点是抗干扰能力弱,受异常值影响

            受 离群值  得影响比较大 , 如果单单某个值相比其他数特别大或特别小,这样会使归一化的结果整体偏向于0或偏向于1.

            中间容易没有数据 

    方差归一化:

          方法:对每个维度数据除上对应维度的方差。

           优点是抗干扰能力强,和所有数据都有关

           缺点是最终未必会落到0到1之间

           牺牲归一化结果为代价提高稳定




均值归一化

。。。。。。。。。。。。。。。。。。。。。。。


添加新评论