在自然语言处理中,若有个字典或字库里有N个单字,则每个单字可以被一个N维的one-hot向量代表。譬如若字库里仅有apple(苹果),banana(香蕉),以及pineapple(凤梨)这三个单字,则他们各自的one-hot向量可以为:
由于电脑无法理解非数字类的数据,One-hot编码可以将类别性数据转换成统一的数字格式,方便机器学习的算法进行处理及计算。而转换成固定维度的向量则方便机器学习算法进行线性代数上的计算。另外由于一个one-hot向量中,绝大部分的数字都是0,所以若使用稀疏矩阵的数据结构,则可以节省电脑内存的使用量
由于电脑无法理解非数字类的数据,One-hot编码可以将类别性数据转换成统一的数字格式,方便机器学习的算法进行处理及计算。而转换成固定维度的向量则方便机器学习算法进行线性代数上的计算。另外由于一个one-hot向量中,绝大部分的数字都是0,所以若使用稀疏矩阵的数据结构,则可以节省电脑内存的使用量
2021-07-24