某个地区的生态环境和动物数量的关系
可以看到老虎跟麻雀的数量不是在一个数量级上。
各个维度的输入如果在数值上差异很大,那么会引起正确的w在各个维度上数值差异很大
找寻w的时候,对各个维度的调整基本上是按照同一个数量级来进行调整的。
也就是这样的数据在经过逻辑回归算出模型后,麻雀的w权重会比老虎大很多,这样就会造成误差
那怎么解决呢,只有处理数据,对数据做归一化,让两者的数量级差距减少。
归一化:
最大值最小值法:
公式: ( x - min(x) ) / ( max(x) - min(x)) , 根据公式可得,其结果范围在0~1间
缺点是抗干扰能力弱,受异常值影响
受 离群值 得影响比较大 , 如果单单某个值相比其他数特别大或特别小,这样会使归一化的结果整体偏向于0或偏向于1.
中间容易没有数据
方差归一化:
方法:对每个维度数据除上对应维度的方差。
优点是抗干扰能力强,和所有数据都有关
缺点是最终未必会落到0到1之间
牺牲归一化结果为代价提高稳定
均值归一化
。。。。。。。。。。。。。。。。。。。。。。。