首页手记【九月打卡】第6天 Python3入门机器学习

【九月打卡】第6天 Python3入门机器学习

标签：

Python 机器学习

①课程介绍

课程名称：Python3入门机器学习经典算法与应用入行人工智能
课程章节：7-1，7-2
主讲老师：liuyubobobo

内容导读

上一篇文章对PCA算法进行地整体思路的顺，这篇文章分片来讲PCA在使用搜索的方式求解过程中做了什么。

第一部分使用极端数据测试
第二部分求数据的前N个主成分
第三部分求解第一个主成分详解

②课程详细

第一部分使用极端数据测试

导入函数

import numpy as np
import matplotlib.pyplot as plt

创造随机的数据，theta的值为3，4

X2 = np.empty((100, 2))
X2[:,0] = np.random.uniform(0., 100., size=100)
X2[:,1] = 0.75 * X2[:,0] + 3.

可视化

plt.scatter(X2[:,0],X2[:,1])
plt.show()

通过看图中数据的分布可以看出以下几点

数据没有噪点，呈线性分布
假如降维的话，最佳的主成分w就是沿着线分布，
这图片仅仅展示了两个维度的X数据
找出前N个主成分

X2_demean = demean(X2)
initial_w = np.random.random(X2.shape[1])
w2 = gradient_ascent(df_math, X2_demean, initial_w, eta=0.001)

可视化降维结果

plt.scatter(X2_demean[:,0], X2_demean[:,1])
plt.plot([0, w2[0]*30], [0, w2[1]*30], color='r')
plt.show()

可以看出降维结果没有问题，我自己实现的PCA算法没问题

第二部分求数据的前N个主成分（代码展示）

这一部分，展示求解主成分的代码
导入函数

import numpy as np
import matplotlib.pyplot as plt

创造随机的数据，

X = np.empty((100, 2))
X[:,0] = np.random.uniform(0., 100., size=100)
X[:,1] = 0.75 * X[:,0] + 3. + np.random.normal(0, 10., size=100)

对数据进行demean操作

def demean(X):
    return X - np.mean(X, axis=0)
X = demean(X)

求主成分的代码

def f(w, X):
    return np.sum((X.dot(w)**2)) / len(X)

def df(w, X):
    return X.T.dot(X.dot(w)) * 2. / len(X)

def direction(w):
    return w / np.linalg.norm(w)

def first_component(X, initial_w, eta, n_iters = 1e4, epsilon=1e-8):
    
    w = direction(initial_w) 
    cur_iter = 0

    while cur_iter < n_iters:
        gradient = df(w, X)
        last_w = w
        w = w + eta * gradient
        w = direction(w) 
        if(abs(f(w, X) - f(last_w, X)) < epsilon):
            break
            
        cur_iter += 1

    return w

运行

initial_w = np.random.random(X.shape[1])
eta = 0.01
w = first_component(X, initial_w, eta)
w

求解第二主成分

#在X中对于第一主成分的分量去掉，去掉后设为X2
X2 = X -X.dot(w).reshape(-1,1) * w

我这里只有两个维度的数据，对于二维平面来说，找到第一个主成分以后，就剩一个主成分需要找了，而剩下的这一个主成分的寻找，其实某种程度上讲，已经和我们的数据无关了，剩下的这一个主成分，只要和我们的第一个主成分垂直就 ok 了

可视化

plt.scatter(X2[:,0], X2[:,1])
plt.show()

第三部分求解第一个主成分详解

应为求解主成分找到一个轴，数据就删除掉这一主成分的数据分量，然后就成找下一个主成分，其实是一个循环，找主成分的过程其实用的函数是一样的。
代码详解

 def first_n_components(n, X, eta=0.01, n_iters=1e4, epilson=1e-8):
        
        X_pca = X.copy()
        X_pca = demean(X_pca)
        #主成分列表
        res = []
        #循环n次，求出前n个主成分
        for i in range(n):
            #下面要用梯度上升法，搜索对于当前XPca的第一主成分
            #初始生成w
            initial_w = np.random.random(X_pca.shape[1])
            w = first_component(X_pca,initial_w, eta)
            res.append(w)
            #减去w轴方向上的主成分
            X_pca = X_pca -X_pca.dot(w).reshape(-1,1) * w
            #然后循环，基于新的x_pca进行求主成分，减去原来的w
        return res