-
聚类--机器学习的算法=分类查看全部
-
关联规则--啤酒+纸尿裤查看全部
-
机器学习基础:概率论&统计学查看全部
-
机器学习部分算法查看全部
-
机器学习:利用计算机从历史数据中找出规律,并把这些规律用到对未来的不确定场景的决策。查看全部
-
算法分类1:根据数据有无标签Y进行分类 对样本数据进行一些训练,得到模型,通过模型判断X与Y的关系。 有监督学习:训练数据中已经明确给出了该数据的Y,给数据打上了标签。如:已对邮件打上了“垃圾邮件”、“正常邮件”的标签。包括:分类算法、回归算法。 无监督学习:训练数据并没有Y,数据没有任何标签。典型算法:聚类。 半监督学习:也叫强化学习,数据越多,模型越好。 算法分类2:根据解决问题进行分类 分类与回归、聚类、标注 算法分类3(重要,直指本质) 生成模型:用来说明分类问题。返回的是属于各个类的概率。 判别模型:用来说明分类问题。直接给一个函数,数据输入到函数中,直接返回类别。查看全部
-
image2vector 将图片转变为向量的算法 word2vector 将文本转变为向量的算法查看全部
-
特征工程:将RGB二进制文件转变为机器学习需要的数据格式。 图片存储是通过RGB格式进行的,每一个像素点是由3个数字组成的(红、绿、蓝)。查看全部
-
解决问题:预测问题(分类、数值)、聚类问题。 步骤: 1、确定目标:有业务需求,确定要解决的问题,围绕该问题收集一些数据,对数据进行特征工程(对数据清洗、整合,重要!),根据要解决的问题提取出一些特征。查看全部
-
2、训练模型:针对要解决的问题定义一个模型,再定义损失函数(就是定义预测结果与真实结果怎么去评价两者的相似程度,重点!),优化算法(损失函数取最小值,最终变为求函数极小值的问题。重点!) 损失函数:预测结果与真值存在一定偏差,损失函数定义的就是偏差的大小。很大情况下是求解不到精确解的,一般都是在寻找一个近似解,当近似解不超过损失函数定义的那个偏差时,就可采纳该近似解。 3、模型评估:交叉验证、效果评估查看全部
-
常见算法2查看全部
-
C4.5、CART:属于决策树算法,既可以解决分类问题,也可以解决回归问题。主要解决分类问题。属于有监督算法。很少使用。 K-Means:聚类算法,无监督学习算法。 SVN:主要解决分类问题,最好的分类算法,有完整的数学理论。(重要) Apriori:关联分析算法,淘汰,多次访问数据库代价高。 FP-Grows:Apriori的升级版,只需对数据库进行两遍扫描。 EM:总的算法框架,不针对某一具体问题。 AdaBoost:决策树的改进版,主要用于人脸识别,本质上解决分类问题。属于有监督学习。 kNN:分类算法,有监督学习。与K-Means有点像。 9:垃圾邮件识别。查看全部
-
算法分类1:根据数据有无标签Y进行分类 对样本数据进行一些训练,得到模型,通过模型判断X与Y的关系。 有监督学习:训练数据中已经明确给出了该数据的Y,给数据打上了标签。如:已对邮件打上了“垃圾邮件”、“正常邮件”的标签。包括:分类算法、回归算法。 无监督学习:训练数据并没有Y,数据没有任何标签。典型算法:聚类。 半监督学习:也叫强化学习,数据越多,模型越好。 算法分类2:根据解决问题进行分类 分类与回归、聚类、标注 算法分类3(重要,直指本质) 生成模型:用来说明分类问题。返回的是属于各个类的概率。 判别模型:用来说明分类问题。直接给一个函数,数据输入到函数中,直接返回类别。查看全部
-
4、参与者不同 数据分析,分析师能力决定结果,目标用户是公司高层。 机器学习,数据质量决定结果,目标用户是个体。查看全部
-
2、解决业务问题不同 数据分析,报告历史上发生的事情。 机器学习:通过历史上发生的事情,来预测未来的事情。查看全部
举报
0/150
提交
取消