为了账号安全,请及时绑定邮箱和手机立即绑定

机器学习-特征值预处理

标签:
机器学习

人工智能已经成为一种潮流。人工智能的基础就是海量的数据,机器学习是实现人工智能的一种方法。今天小编给大家带来在机器学习中,对海量数据的预处理。

今天对数据的预处理,主要是包含以下的内容:

一、机器学习使用的语言和框架:

python、scikit-learn 、numpy

二、 数据预处理大纲

  1 无量纲化

    1.1 标准化

    1.2 区间缩放法

    1.3 归一化

  2 对定量特征二值化

  3 对定性特征哑编码

  4 缺失值计算

  5 数据变换

三、 预处理代码操作和原理解释

 1 无量纲化

        无量钢化不同规格的特征数据转化到同一规格下。常见的无量钢化方法有 标准化、区间缩放法、归一化,具体的代码和原理,请耐心的往下看。

    1.1 标准化

        标准化的前提是特征值服从正太分布(即 x 服从 N(μ,σ^2)),标准化后,转化为标准的正太分布。标准化是按照特征矩阵的列处理数据,其通过求 z-score 的方法,将样本的特征值转换到同一量纲下。

        标准化需要计算特征值的平均值和标准差,具体的公式如下所示:

webp

        具体的代码使用的是 propressing 库 中的 StandarScaler

from sklearn.preprocessingimport StandardScaler

import numpyas np

x = np.linspace(1,10,num=10).reshape(5,2)

x_standared = StandardScaler().fit_transform(x)

        输出的结果为:

原数据为: [[ 1.  2.] [ 3.  4.] [ 5.  6.] [ 7.  8.] [ 9. 10.]]

标准化后的数据为: [[-1.41421356 -1.41421356] [-0.70710678 -0.70710678] [ 0.          0.        ] [ 0.70710678  0.70710678] [ 1.41421356  1.41421356]]

    1.2 区间缩放法

        区间的缩放有很多的方法,这里我介绍一种很简单的,具体的公式:


webp


        具体的代码使用的是 propressing 库 中的 MinMaxScaler 类:

from sklearn.preprocessing import MinMaxScaler

import  numpy as np

x = np.linspace(1,10,num=10).reshape(5,2)

x_min_max_scaler = MinMaxScaler().fit_transform(x)

        输出的结果为:

原数据为: [[ 1.  2.] [ 3.  4.] [ 5.  6.] [ 7.  8.] [ 9. 10.]]

区间缩放后的数据为: [[0.   0.  ] [0.25 0.25] [0.5  0.5 ] [0.75 0.75] [1.   1.  ]]

    1.3 归一化

        归一化是依照特征矩阵的行处理数据,其主要的目的是当样本向量在做点乘运算或者其他核函数计算相似性时,能够有一个统一化的标准,也就是转化为一个 “单位向量”,规则为 L2 的归一化公式为:


webp


        具体的代码使用的是 propressing 库 中的 MinMaxScaler 类:

from sklearn.preprocessing import MinMaxScaler

import numpy as np

x = np.linspace(1,10,num=10).reshape(5,2)

x_normalizer= Normalizer().fit_transform(x)

        输出的结果为:

原数据为: [[ 1.  2.] [ 3.  4.] [ 5.  6.] [ 7.  8.] [ 9. 10.]]

归一化后的数据为: [[0.4472136  0.89442719] [0.6        0.8       ] [0.6401844  0.76822128] [0.65850461 0.75257669] [0.66896473 0.74329415]]

 2 对定量特征二值化

        定量二值化的核心在于我们假设一个阈值,大于该阈值赋值为1,小于该阈值阈值为0


webp

        使用 preprocessing 库中的Binarizer 类:

from sklearn.preprocessing import Binarizer

import  numpy as np

x = np.linspace(1,10,num=10).reshape(5,2)

x_binarizer = Binarizer(5).fit_transform(x)

        输出的结果为:

原数据为: [[ 1.  2.] [ 3.  4.] [ 5.  6.] [ 7.  8.] [ 9. 10.]]

二值化后的数据为: [[0. 0.] [0. 0.] [0. 1.] [1. 1.] [1. 1.]]

3 对定性特征哑编码

        在数据集中,有些特征不在模型中不满足运算规则,只能代表某种类别。我们成这类的数据为 dummy 数据。

        用到的是 preprocessing 库中的 OneHotEncoder 类:

from sklearn.preprocessing import OneHotEncoder

x = [[0,0,3], [1,1,0], [0,2,1], [1,0,2]]

x_standared = OneHotEncoder().fit_transform(x)

        输出结果为:


webp

4 缺失值计算

        使用preproccessing库的Imputer类对数据进行缺失值计算的代码如下:    

from sklearn.preprocessingimport Imputer

from numpyimport vstack,array,nan,hstack,max

# 对一个数据在垂直方向上添加一个 nan 的数据

data = vstack((array([nan,nan,None]),array([[1,2,3],[4,5,6]])))

# 默认情况下是 mean  总共是有三种的选择['mean', 'median', 'most_frequent']

data = Imputer(strategy='mean').fit_transform(data)

        结果:

[[2.5 3.5 4.5] [1.  2.  3. ] [4.  5.  6. ]]


5 数据变换

        常见的数据变换有基于多项式的、基于指数函数的、基于对数函数的。4个特征,度为2的多项式转换公式如下:

webp

        使用preproccessing库的PolynomialFeatures类对数据进行多项式转换的代码如下:

from sklearn.preprocessing import PolynomialFeatures

# 多项式特征类 默认情况下对数据进行度为2 的转换

data = PolynomialFeatures(degree=2).fit_transform(np.linspace(1,10,num=10).reshape(-1,1))

data = pd.DataFrame(data,columns=['x0','x','x^2']) print(data)

        结果为:

webp

        基于单变元函数的数据变换可以使用一个统一的方式完成,使用preproccessing库的FunctionTransformer对数据进行对数函数转换的代码如下:

from numpy import log1p,log,log2,log10

from sklearn.preprocessing import FunctionTransformer

x = np.linspace(1,10,num=10).reshape(-1,1)

# log() 是 e 为底数的对数

data_log = FunctionTransformer(log).fit_transform(x)

data_log2 = FunctionTransformer(log2).fit_transform(x)

data_log10 = FunctionTransformer(log10).fit_transform(x)

data = pd.DataFrame(np.hstack((x,data_log,data_log2,data_log10)),columns=['x','loge','log2','log10']) print(data)

        结果为:

webp



作者:MLGirl
链接:https://www.jianshu.com/p/0c0e238823d7


点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
数据库工程师
手记
粉丝
42
获赞与收藏
203

关注作者,订阅最新文章

阅读免费教程

  • 推荐
  • 1
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消