首页手记线性回归入门：从零开始学习线性回归

线性回归入门：从零开始学习线性回归

标签：

Python 机器学习数据分析&挖掘

概述

线性回归入门介绍了线性回归的基本概念、应用场景、数学原理以及模型构建方法，帮助读者全面理解这一统计学和机器学习中的基本工具。文章详细解释了线性回归如何通过最小化误差来拟合数据，并展示了使用Python和sklearn库实现线性回归的实例。此外，还讨论了模型评估指标、过拟合与欠拟合问题以及正则化方法，提供了优化模型的实用技巧。

线性回归简介

什么是线性回归

线性回归是一种基本的统计学和机器学习方法，用于建立因变量与一个或多个自变量之间的线性关系。线性回归模型假设因变量与自变量之间存在线性关系，通过最小化预测值与实际值之间的差值来拟合数据。

线性回归的应用场景

线性回归广泛应用于各种领域，如经济学、生物学、工程学和金融学等。以下是一些典型的应用场景：

房价预测：通过对历史房价数据进行线性回归分析，预测未来房价走势。
销售预测：通过分析销售历史数据，预测未来的销售量。
股票价格预测：利用历史股票价格数据，预测未来的股票价格。
医学研究：使用线性回归模型来分析疾病的发病率与各种因素之间的关系。

线性回归的数学原理

线性回归模型的基本形式可以表示为：

[ y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_n x_n + \epsilon ]

其中：

( y ) 是因变量。
( \beta_i ) 是系数或权重，表示自变量对因变量的影响程度。
( x_i ) 是自变量。
( \epsilon ) 是误差项，表示实际值与预测值之间的差异。

为了确定系数 ( \beta_i )，通常使用最小二乘法（Ordinary Least Squares，OLS）来最小化误差平方和（Sum of Squared Errors，SSE）：

[ SSE = \sum_{i=1}^{n} (y_i - (\beta_0 + \beta1 x{1i} + \cdots + \betan x{ni}))^2 ]

线性回归模型的构建

线性回归模型的基本形式

线性回归模型的基本形式是线性方程，模型的输出是输入特征的线性组合加上一个偏移项或截距项。对于单变量线性回归，模型可以表示为：

[ y = \beta_0 + \beta_1 x ]

对于多变量线性回归，模型可以表示为：

[ y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_n x_n ]

如何选择合适的特征

选择合适的特征是构建线性回归模型的重要步骤。特征选择可以通过以下几种方式实现：

相关性分析：通过计算自变量与因变量之间的相关系数来选择特征。
逐步回归：逐步添加或移除变量来优化模型。
基于特征重要性：使用特征重要性评分来选择最重要的特征。
正则化方法：通过正则化技术（如L1或L2正则化）来减少特征数量。

如何确定特征的权重

确定特征权重的方法通常基于最小化误差的方法，如最小二乘法。具体步骤如下：

定义损失函数：使用误差平方和（SSE）作为损失函数。
求导并求解：对损失函数关于每个特征权重求导，得到一个关于权重的方程组。
求解方程组：使用矩阵运算或其他优化方法求解方程组，得到每个特征的最优权重。

确定特征权重的代码实现

# 定义损失函数
def loss_function(X, y, beta):
    return np.sum((y - (beta[0] + beta[1] * X)) ** 2)

# 定义梯度下降函数
def gradient_descent(X, y, beta, learning_rate, iterations):
    for _ in range(iterations):  # 迭代次数
        gradient = -2 * np.sum((y - (beta[0] + beta[1] * X)) * X)
        bias_gradient = -2 * np.sum(y - (beta[0] + beta[1] * X))
        beta[1] -= learning_rate * gradient
        beta[0] -= learning_rate * bias_gradient
    return beta

# 初始化权重
beta = [0, 0]
learning_rate = 0.01
iterations = 1000

# 训练模型
beta = gradient_descent(X, y, beta, learning_rate, iterations)

# 输出结果
print(f"截距项 beta_0: {beta[0]}")
print(f"权重 beta_1: {beta[1]}")

线性回归的实现

使用Python实现线性回归

Python是实现线性回归的一种流行语言，下面是一个简单的示例代码：

import numpy as np

# 定义数据点
X = np.array([1, 2, 3, 4, 5])
y = np.array([2, 4, 6, 8, 10])

# 初始化权重
beta_0 = 0
beta_1 = 0

# 定义学习率
learning_rate = 0.01

# 定义损失函数
def loss_function(X, y, beta_0, beta_1):
    return np.sum((y - (beta_0 + beta_1 * X)) ** 2)

# 定义梯度下降函数
def gradient_descent(X, y, beta_0, beta_1, learning_rate):
    for _ in range(1000):  # 迭代次数
        beta_0_gradient = -2 * np.sum(y - (beta_0 + beta_1 * X))
        beta_1_gradient = -2 * np.sum((y - (beta_0 + beta_1 * X)) * X)
        beta_0 = beta_0 - learning_rate * beta_0_gradient
        beta_1 = beta_1 - learning_rate * beta_1_gradient
    return beta_0, beta_1

# 训练模型
beta_0, beta_1 = gradient_descent(X, y, beta_0, beta_1, learning_rate)

# 输出结果
print(f"截距项 beta_0: {beta_0}")
print(f"权重 beta_1: {beta_1}")

使用sklearn库进行线性回归

sklearn库提供了方便的接口来实现线性回归。以下是使用sklearn库实现线性回归的示例代码：

from sklearn.linear_model import LinearRegression
import numpy as np

# 定义数据点
X = np.array([1, 2, 3, 4, 5]).reshape((-1, 1))
y = np.array([2, 4, 6, 8, 10])

# 创建线性回归模型
model = LinearRegression()

# 训练模型
model.fit(X, y)

# 输出结果
print(f"截距项 (bias): {model.intercept_}")
print(f"权重 (coefficients): {model.coef_}")

实例演示：房价预测案例

假设我们有一个简单的房价预测案例，使用一组特征（如房屋面积、卧室数量等）来预测房价。以下是使用sklearn库实现房价预测的示例代码：

import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

# 定义数据点
X = np.array([[1000, 2], [1500, 3], [1200, 2], [1800, 4], [2000, 5]])
y = np.array([200000, 300000, 250000, 350000, 400000])

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建线性回归模型
model = LinearRegression()

# 训练模型
model.fit(X_train, y_train)

# 预测测试集数据
y_pred = model.predict(X_test)

# 输出结果
print(f"预测房价: {y_pred}")

线性回归的评估

评估模型性能的指标

评估模型性能的常用指标包括：

R-Squared (R²)：衡量模型解释方差的比例。
Mean Squared Error (MSE)：衡量预测值与实际值之间的平均平方差。
Mean Absolute Error (MAE)：衡量预测值与实际值之间的平均绝对差。

R-Squared (R²) 的计算与解释

R-Squared（决定系数）衡量模型解释方差的比例。R-Squared值在0到1之间，值越接近1表示模型解释方差的比例越高。

R-Squared的计算公式为：

[ R^2 = 1 - \frac{SS{res}}{SS{tot}} ]

其中：

( SS_{res} ) 是残差平方和。
( SS_{tot} ) 是总平方和。

在sklearn库中，可以通过r2_score函数计算R-Squared值：

from sklearn.metrics import r2_score

# 计算R-Squared
r2 = r2_score(y_test, y_pred)
print(f"R-Squared: {r2}")

Mean Squared Error (MSE) 的计算与解释

Mean Squared Error（均方误差）衡量预测值与实际值之间的平均平方差。MSE值越小表示模型的预测误差越小。

在sklearn库中，可以通过mean_squared_error函数计算MSE值：

from sklearn.metrics import mean_squared_error

# 计算MSE
mse = mean_squared_error(y_test, y_pred)
print(f"Mean Squared Error: {mse}")

线性回归的优化

过拟合与欠拟合问题

过拟合和欠拟合是机器学习中的常见问题。过拟合指的是模型过于复杂，对训练数据过于拟合，导致泛化能力差。欠拟合指的是模型过于简单，无法充分拟合训练数据，导致泛化能力也差。

解决过拟合的方法包括：

减少特征数量：选择最重要的特征。
正则化：通过L1或L2正则化减少模型复杂度。

解决欠拟合的方法包括：

增加特征数量：引入更多的特征。
增加模型复杂度：选择更复杂的模型。

正则化方法：L1正则与L2正则

正则化是一种减少模型复杂度的方法，通过在损失函数中加入正则化项来惩罚模型参数。两种常见的正则化方法包括：

L1正则：也称为Lasso正则化，通过绝对值范数惩罚模型参数。
L2正则：也称为Ridge正则化，通过平方范数惩罚模型参数。

在sklearn库中，可以通过Lasso和Ridge类实现L1和L2正则化：

from sklearn.linear_model import Lasso, Ridge

# 创建Lasso模型
lasso_model = Lasso(alpha=0.1)

# 创建Ridge模型
ridge_model = Ridge(alpha=0.1)

# 训练模型
lasso_model.fit(X_train, y_train)
ridge_model.fit(X_train, y_train)

# 预测测试集数据
y_lasso_pred = lasso_model.predict(X_test)
y_ridge_pred = ridge_model.predict(X_test)

# 输出结果
print(f"Lasso预测房价: {y_lasso_pred}")
print(f"Ridge预测房价: {y_ridge_pred}")

参数调整与模型选择

参数调整和模型选择是优化模型的重要步骤。通常使用交叉验证技术来选择最佳参数和模型。

交叉验证是一种评估模型泛化能力的技术，通过将数据集划分为多个子集来评估模型性能。

以下是一个使用交叉验证选择最佳参数的示例代码：

from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LinearRegression, Lasso, Ridge

# 创建线性回归模型
linear_model = LinearRegression()

# 创建Lasso模型
lasso_model = Lasso()

# 创建Ridge模型
ridge_model = Ridge()

# 定义参数范围
param_grid = {'alpha': [0.1, 0.5, 1.0, 2.0]}

# 使用GridSearchCV进行参数搜索
grid_search_lasso = GridSearchCV(lasso_model, param_grid, cv=5)
grid_search_lasso.fit(X_train, y_train)

# 输出最佳参数
print(f"最佳Lasso参数：{grid_search_lasso.best_params_}")

# 交叉验证评估
scores_linear = cross_val_score(linear_model, X, y, cv=5)
scores_lasso = cross_val_score(lasso_model, X, y, cv=5)
scores_ridge = cross_val_score(ridge_model, X, y, cv=5)

# 输出结果
print(f"线性回归交叉验证得分: {scores_linear.mean()}")
print(f"Lasso交叉验证得分: {scores_lasso.mean()}")
print(f"Ridge交叉验证得分: {scores_ridge.mean()}")

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

MMTTMM

手记
篇

粉丝

65

获赞与收藏

364

关注作者，订阅最新文章

阅读免费教程

Python 办公自动化教程

17个小节 25659 869

Python 算法入门教程

15个小节 27364 1070

Python 进阶应用教程

38个小节 65477 1027

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空