首页手记机器学习算法系列（一）- 感知器学习算法（PLA）

机器学习算法系列（一）- 感知器学习算法（PLA）

标签：

机器学习算法人工智能

阅读本文需要的背景知识点：数学基础知识、一丢丢编程知识

一、引言

前面一节我们了解了机器学习算法系列（〇）- 基础知识，接下来正式开始机器学习算法的学习，首先我们从最简单的一个算法——感知器学习算法（Perceptron Learning Algorithm）开始。

我们在使用电子邮件时，应该注意到现代邮箱都有反垃圾邮件的功能，系统根据邮件的内容自动判断是否是垃圾邮件，节省了我们的时间，试想一下这个功能应该如何实现呢？

我们可以先收集一批邮件，总结出对判断是否是垃圾邮件有用的一些特征值（例如：邮件是否包含链接、邮件出现过多少个营销词语、邮件的发送时间等等），然后对每一封邮件先人工的判断是否是垃圾邮件，最后试图通过这些数据来找到里面所包含的关联关系。以后给到一封新邮件的时候，我们就可以通过这些关系来判断是否是垃圾邮件了。

二、模型介绍

回想一下在初中生物教材上介绍过的神经细胞，它是由树突、轴突、突触和细胞体组成的结构体。神经细胞是否激活并输出电信号是由其接收到的输入信号量和突触的强度所决定的，当其总和超过某个阈值时，细胞体就会激动并输出电信号。由这一神经细胞的行为，人们提出了感知器的概念和对应的感知器学习算法。

[感知器]¹（Perceptron）是一种二元线性分类器，将一个线性可分的数据集通过线性组合分成两种类型。在人工神经网络领域中，感知机也被指为单层的人工神经网络。

几何意义：在二维平面内找到一条直线将两种类型的数据完全分开。在高维空间里为找到一个超平面将两类数据分开。

By Elizabeth Goodspeed - Own work, CC BY-SA 4.0 数学定义：把矩阵上的输入 X（实数值向量）映射到输出值 h(x) 上（一个二元的值 -1 或 +1 ）。假设存在 d 个 x ，通过 w 的加权求和，大于某个临界值时返回 +1，小于某个临界值时返回 -1。

$\begin{array}{cc} \sum_{i=1}^{d} w_{i} x_{i}>\text { 临界值 } & +1(A \text { 分类 }) \\ \sum_{i=1}^{d} w_{i} x_{i}<\text { 临界值 } & -1(B \text { 分类 }) \end{array}$

将上式写成一个函数的形式（sign函数称为符号函数²，当输入小于 0 则输出 -1，当输入大于 0 则输出 +1）

$KaTeX parse error: Expected '\right', got '临' at position 57: …= 1}^dw_ix_i - 临̲界值\right)$

将负的临界值当作第 0 个 w，正1 当作第 0 个 x

$h(x)=\operatorname{sign}(\left(\sum_{i=1}^{d} w_{i} x_{i}\right)+\underbrace{(-\text { 临界值 })}_{w_{0}} \cdot \underbrace{(+1)}_{x_{0}})$

可将临界值合到从 1 到 d 的连加运算中，则连加运算的下界变为 0

$\operatorname{sign}\left(\sum_{i=0}^dw_ix_i\right)$

最后函数可改写为两个向量（w、x）的点积形式

$\operatorname{sign}\left( w^Tx \right)$

感知器是一种特别简单的线性分类模型，但是它的本质缺陷是不能处理线性不可分的问题，后面的小节将介绍一个可以允许存在一些错误的发生，能处理线性不可分数据集的算法——口袋算法（Pocket Algorithm）

三、算法步骤

感知器学习算法（Perceptron Learning Algorithm）- 其核心思想就是以错误为驱动，逐步修正错误最后收敛的过程。

初始化向量 w，例如 w 初始化为零向量
循环 t = 0，1，2 …
按顺序或随机遍历全部数据并计算 h(x) ，直到找到其中一个数据的 h(x) 与目标值 y 不符
$\operatorname{sign}\left(w_{t}^{T} x_{n(t)}\right) \neq y_{n(t)}$
修正向量 w
$w_{t+1} \leftarrow w_{t}+y_{n(t)} x_{n(t)}$
直到全部数据的结果都没有错误退出循环，所得的 w 即为一组方程的解

四、原理证明

假设最后的目标权重系数为 wf，待优化的权重系数为 w。通过单位 wf 与单位 w 的点积来作为两个向量是否靠近的标准。（两个单位向量的点积越大，说明两个向量越接近，当两个向量同向并共线时两者的点积最大）

由于目标权重系数 wf 的全部分类都是正确的，所以每一个数据点计算出的值与目标值的乘积必然大于乘积中的最小值，并且大于 0（分类正确即同号）

$y_{n(t)} w_{f}^{T} x_{n(t)} \geq \min _{n} y_{n} w_{f}^{T} x_{n}>0$

（公式一）待优化的权重系数为 w 只在数据集分类错误的时候做更新，所以在该数据点计算出的值与目标值的乘积必然小于等于 0（分类错误即异号）

$\operatorname{sign}\left(w_{t}^{T} x_{n(t)}\right) \neq y_{n(t)} \Leftrightarrow y_{n(t)} w_{t}^{T} x_{n(t)} \leq 0$

（公式二）权重系数更新规则

$w_{t}=w_{t-1}+y_{n(t)} x_{n(t)}$

（公式三）由上面的三个公式可以得到目标权重系数与待优化的权重系数的点积的一个下界：
（1）将公式三带入可得
（2）展开后，使用公式一将第二项替换
（3）经过 T 轮更新后，必然大于等于 w0 + T 个最小值
（4）初始的权重系数为零向量

$\begin{aligned} w_{f}^{T} w_{t} &=w_{f}^{T}\left(w_{t-1}+y_{n(t-1)} x_{n(t-1)}\right) \\ & \geq w_{f}^{T} w_{t-1}+\min _{n} y_{n} w_{f}^{T} x_{n} \\ & \geq \ldots \\ & \geq w_{0}+T \cdot \min _{n} y_{n} w_{f}^{T} x_{n} \\ & \geq T \cdot \min _{n} y_{n} w_{f}^{T} x_{n} \end{aligned}$

由上面的三个公式可以得到待优化的权重系数模的平方的一个上界：

（1）将公式三带入可得

（2）展开平方式

（3）中间一项由公式二可知必然小于等于 0，所以可以化简

（4）由于目标值 y 只有 +1 与 -1 ，所以平方必然为 1，每一个数据点模的平方必然小于等于最大的数据点模的平方

（5）经过 T 轮更新后，必然小于等于 w0 模的平方 + T 个最大的数据点模的平方

（6）初始的权重系数模的平方为 0

$\begin{aligned} \left\|w_{t}\right\|^{2} &=\left\|w_{t-1}+y_{n(t-1)} x_{n(t-1)}\right\|^{2} \\ &=\left\|w_{t-1}\right\|^{2}+2 y_{n(t-1)} w_{t-1}^{T} x_{n(t-1)}+\left\|y_{n(t-1)} x_{n(t-1)}\right\|^{2} \\ & \leq\left\|w_{t-1}\right\|^{2}+0+\left\|y_{n(t-1)} x_{n(t-1)}\right\|^{2} \\ & \leq\left\|w_{t-1}\right\|^{2}+\max _{n}\left\|x_{n}\right\|^{2} \\ & \leq \ldots \\ & \leq\left\|w_{0}\right\|^{2}+T \cdot \max _{n}\left\|x_{n}\right\|^{2} \\ & \leq T \cdot \max _{n}\left\|x_{n}\right\|^{2} \end{aligned}$

由上面两个推导结果可知单位 wf 与单位 w 的点积的下界

（1）带入上面两个推导结果可得

（2）化简提出唯一一个变量

（3）由于第二个乘数里面所有项都是常数且都为正数，所以单位 wf 与单位 w 的点积的下界只与循环次数 T 有关

$\begin{aligned} \frac{w_{f}^{T}}{\left\|w_{f}\right\|} \frac{w_{t}}{\left\|w_{t}\right\|} & \geq \frac{T \cdot \min _{n} y_{n} w_{f}^{T} x_{n}}{\left\|w_{f}\right\| \sqrt{T \cdot \max _{n}\left\|x_{n}\right\|^{2}}} \\ & \geq \sqrt{T} \cdot \frac{\min _{n} y_{n} w_{f}^{T} x_{n}}{\left\|w_{f}\right\| \sqrt{\max _{n}\left\|x_{n}\right\|^{2}}} \\ & \geq \sqrt{T} \cdot \text { 常数 } \end{aligned}$

由上面的结论可知，当循环次数增大时，点积越大，说明两个单位向量越接近。而由于单位向量的点积最大为 1，说明循环次数 T 存在一个上界，所以算法最后会停下来。

五、代码实现

使用 Python 实现 PLA：

import numpy as np

def pla(X, y):
    """
    感知器学习算法实现
    注意：只能处理线性可分的数据集，输入线性不可分的数据集函数将无法停止
    args:
        X - 训练数据集
        y - 目标标签值
    return:
        w - 权重系数
    """
    done = False
    # 初始化权重系数
    w = np.zeros(X.shape[1])
    # 循环
    while(done == False):
        done = True
        # 遍历训练数据集
        for index in range(len(X)):
            x = X[index]
            # 判定是否与目标值不符
            if x.dot(w) * y[index] <= 0:
                done = False
                # 修正权重系数
                w = w + y[index] * x
    return w

六、第三方库实现

scikit-learn³实现：

from sklearn.linear_model import Perceptron

# 初始化感知器
clf = Perceptron()
# 用随机梯度下降拟合线性模型
clf.fit(X, y)
# 权重系数
w = clf.coef_

七、动画演示

简单训练数据集分类：

复杂训练数据集分类：

八、思维导图

完整演示请点击这里

注：本文力求准确并通俗易懂，但由于笔者也是初学者，水平有限，如文中存在错误或遗漏之处，恳请读者通过留言的方式批评指正

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

Saisimonzs

手记
篇

粉丝

0

获赞与收藏

2

关注作者，订阅最新文章

相关文章推荐

机器学习算法系列（二）- 口袋算法（Pocket Algorithm）

【机器学习】机器学习算法之旅

机器学习算法系列（〇）- 基础知识

机器学习实战之KNN算法

6个步骤从头开始编写机器学习算法：感知器案例研究

阅读免费教程

Python 算法入门教程

15个小节 27068 1056

算法入门教程

15个小节 32121 676

后端通用面试教程

41个小节 30273 342

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空