-
网络梯度下降
又叫反向传播
a n为第n层(从最后一层开始)的输出,该层有自己的参数W n与b n,通过da n求导得出dz n,并依次得到dW n与db n,在得到上一层的输出的导数da n-1,该过程直到求出第二层的输出的导数da 1未知,完成整个网络梯度下降(反向传播)机制
查看全部 -
对各层而言处理W和b的自身格式不同,其处理过程相似都可以归纳为
注:这里的x可以为输入,也可以为上一层的输出a n-1
查看全部 -
可以将上述过程总结为
查看全部 -
各层之间都存在的逻辑回归关系(线性组合W与b、激活函数g),各层间的W和b需满足一定格式来实现矩阵维度的变化,如截图所示
查看全部 -
网络向量化:
也叫 神经网络向前传播/神经网络的预测
对于一个单隐藏层神经网络(如图1),其各层的输入输出可以表示为(见截图),x1、x2、x3表示输入层的输入,a11~a41表示隐藏层的4个输出,a2表示输出层的输出
查看全部 -
参数W与b的更新:
“:=”表示参数W与b需要同步更新,等号右边的W与b是上一次W与b的值,通过对损失函数J(w,b)求导(梯度),α代表学习率,学习率越高下降速度越快,但也有可能会越过最小值
通过不断找到损失函数的下一个最小值,以找到更优预测值来反向更新W与b的值,直到当前最小值趋于稳定,得出最优的W与b的值
查看全部 -
梯度下降:
在得到线性组合参数W和b的初始值后,通过建立预测值y^与真实值y的损失函数来反向调整参数W和b,每一个损失函数都可表示成一个曲面,在这个曲面上有最大值也有最小值,第一个点(第一次输出的预测值与真实值的损失函数的值)顺着凸面向下不断找寻下一个更优更小的点(梯度下降),最终得到这个面上的最小值(这个点就是预测值y^与真实值y之间的差异最小值)该过程不断进行直到参数W和b稳定,这时就得到了一个最优(最接近实际问题)的逻辑回归方程,也即得到了这个神经网络训练出来的最优模型。
查看全部 -
全部训练损失函数:(见截图)
对单次损失函数的累加
查看全部 -
损失函数:
反映预测值与真实值直接的差异
单次损失函数:(见截图)
其中y^代表预测值,y代表真实值
注:这里不直接将预测值与真实值做差(欧几里得距离)而使用log函数是因为使用激活函数后,数据集学习得到的函数平面不是一个凸函数平面,在做梯度下降的时候(与是否凸函数有关系)如果有多个局部极小值的情况下,学习出来的结果会不准确
查看全部 -
激励函数:
作用:提供规模化的非线性能力
包括:Sigmoid、tanh、ReLU等
Sigmoid函数适用于结果为判断是非的场合,但由于其对称中心在(0, 0.5),还需要进行数据中心化,由此提出了其改进函数tanh
Sigmiod和tanh的缺点是当数值很大或很小时,结果变化比较平缓,由此提出了ReLU函数,ReLU是最常用默认的一种激活函数
查看全部 -
逻辑回归:
逻辑回归是一种最简化的神经结构,输入单个节点的处理也可以有一个预测输出,通过选定损失函数对预测结果进行评估,并进行反向学习进一步修改线性组合的参数W和b
查看全部 -
每一个节点(神经元)的处理包括:
(1)将输入x进行线性组合;
(2)将线性组合的结果通过激活函数g(z)转化为非线性的结果,以处理非线性问题
查看全部 -
网络结构:
节点与层,包括:输入层,隐含层、输出层
查看全部 -
反向反馈。查看全部
-
就是神经网络图形化设计转化为向量表示的公式化
查看全部
举报