为了账号安全,请及时绑定邮箱和手机立即绑定

【九月打卡】第14天 Python3入门机器学习

①课程介绍


课程名称:Python3入门机器学习 经典算法与应用 入行人工智能
课程章节:8-7;8-8
主讲老师:liuyubobobo

内容导读


  • 第一部分 岭回归介绍
  • 第二部分 岭回归应用场景
  • 第三部分 岭回归使用示例

②课程详细


第一部分 岭回归介绍

(Ridge Regression岭回归)模型正则化方式之一
5e4d2d35000198db19201080.jpg (1920×1080)
正则化的目的:限制特征系数sita的大小
1 与theta0无关,因为它是截距,与特征无关
2 alpha是超参数,代表系数项占的比例

a越大 特征系数就越小。极端情况下a等于正无穷,则sita必须全为0才可以使J(sita)尽可能的小

加入模型正则化,目标:使得mse + 系数平方和 尽可能小

第二部分 岭回归应用场景

在数据过拟合地情况下,可以使用岭回归的C函数来进行正则化,也就是将某些theta的值进行影响最小化。

第三部分 岭回归使用示例

导入包

import numpy as np
import matplotlib.pyplot as plt

创建数据

np.random.seed(666)
x = np.random.uniform(-3.0, 3.0, size=100)
X = x.reshape(-1, 1)
y = 0.5 * x +3 +np.random.normal(0, 1, size=100)

数据可视化

plt.scatter(x, y)
plt.show()

图片描述
封装管道,使用多项式回归来达到过拟合情况,以便于展示岭回归的威力。

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression

def PolynomialRegression(degree):
    return Pipeline([
        ('poly',PolynomialFeatures(degree=degree)),
        ('std_scaler',StandardScaler()),
        ('lin_reg',LinearRegression())
    ])

分割数据集,用于展示数据准确率

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y,random_state=666)

创建对象

from sklearn.metrics import mean_squared_error

poly_reg = PolynomialRegression(degree=30)
poly_reg.fit(X_train, y_train)

y_test_predict = poly_reg.predict(X_test)
#mean_squared_error(y_test, y_test_predict)

定义可视化函数

def plot_model(model):
    x_plot = np.linspace(-3,3,100).reshape(100,1)
    y_plot = model.predict(x_plot)

    plt.scatter(x,y)
    plt.plot(x_plot, y_plot, color='r')
    plt.axis([-4,4,-1,7])
    plt.show()
plot_model(poly_reg)

图片描述
封装零函数的包,

from sklearn.linear_model import Ridge

def RidgeRegression(degree, alpha):
    return Pipeline([
        ('poly',PolynomialFeatures(degree=degree)),
        ('std_scaler',StandardScaler()),
        ('ridge_reg',Ridge(alpha=alpha))
    ])

创建对象,定义很小的alpha,查看拟合的情况

redge1_reg = RidgeRegression(30, 0.000001)
redge1_reg.fit(X_train, y_train)

y1_predict = redge1_reg.predict(X_test)
mean_squared_error(y_test,y1_predict)

可视化拟合结果

plot_model(redge1_reg)

图片描述
创建对象,定义较小的alpha,查看拟合的情况

redge2_reg = RidgeRegression(30, 0.01)
redge2_reg.fit(X_train, y_train)

y2_predict = redge2_reg.predict(X_test)
mean_squared_error(y_test,y2_predict)
plot_model(redge2_reg)

图片描述
创建对象,定义较大的alpha,查看拟合的情况

redge4_reg = RidgeRegression(30, 100)
redge4_reg.fit(X_train, y_train)

y4_predict = redge4_reg.predict(X_test)
mean_squared_error(y_test,y4_predict)
plot_model(redge4_reg)

图片描述
创建对象,定义很大的alpha,查看拟合的情况

redge5_reg = RidgeRegression(30, 1000000)
redge5_reg.fit(X_train, y_train)

y5_predict = redge4_reg.predict(X_test)
mean_squared_error(y_test,y5_predict)
plot_model(redge5_reg)

图片描述

③课程思考


  • 岭回归通过调解alpha的值能很明显地扭转过拟合的趋势,作为一个超参数,是非常合格的,
  • 线性回归或者多项式回归,在发生过拟合的情况下,可以优先考虑使用岭回归来进行调解。

④课程截图


点击查看更多内容
1人点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消