-
算法分类:
1、监督学习:分类算法、回归算法
2、无监督学习:聚类
3、半监督学习:主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。主要分为半监督分类,半监督回归,半监督聚类和半监督降维算法。
查看全部 -
有监督学习:
数据已被打上标签,通过机器学习训练出数据模型,如分类算法和回归算法
查看全部 -
No Sql数据库擅长处理行为数据
查看全部 -
行为数据
查看全部 -
交易数据:
与钱相关的数据,例如电商平台上的用户订单
查看全部 -
机器学习解决问题的框架3:
交叉验证:将不同的算法带入同一类数据中,验证效果
效果评估:可以看出几个算法之间具体的差别、效果(如ROC、AUC......)
查看全部 -
机器学习解决问题的框架2:
训练模型
(1)定义模型:确定模型,训练出模型的参数
(2)定义损失函数(定义偏差的大小):评价真实结果与模型的预测结果的相似程度和差异度。 机器学习解决的问题,有时不能得到精确解只能寻找近似解。 偏差最小的函数,针对很大的数据集,就是损失函数。 让损失函数求最小,就是优化算法。对于线性回归模型,计算预测结果与实际结果的差值;对于分类模型,则需要定义自己的损失函数
(3)优化算法:对算法进行优化,使损失函数取极小值,如梯度下降法......
查看全部 -
机器学习解决问题的框架1:
确定目标
(1)确定业务需求
(2)完成数据收集
(3)完成特征工程(数据预处理,如数据清洗,占用70%的时间,最重要)
查看全部 -
机器学习常见算法2:
(1)逻辑回归 :搜索结果排序
(2)RF(随机森林)、GBDT:对决策树的改进,和AdaBoost类似
(3)推荐算法:电商网站用于推荐产品
(4)LDA:文本分析、自然语言处理
(5)Word2Vector(词向量模型)、HMM(隐马尔科夫模型)、CRF(条件随机场):自然语言处理,文本挖掘
(6)深度学习:图像识别...
查看全部 -
机器学习常见算法1(ICDM):
(1)C4.5算法(分类):使用决策树算法,可以解决分类&回归问题,有监督,不常用,已被淘汰
(2)K-Means算法(聚类):解决电信用户分类问题,无监督
(3)SVM(支持向量机)(统计学习):可以解决分类(主)和回归问题,有很好的表现和深厚的数学理论支撑。有一定的数学门槛,面试中常问
(4)Apriori算法(关联分析):应用于“尿片和纸尿裤”案例,最早解决了频繁项集问题。由于需要频繁访问数据库,不常用,已被淘汰。取代它的是FP-Growth算法(只需要访问两次数据库)。应用:电商的推荐系统,但目前有更好的替代方法
(5)EM算法(统计学习):是一个算法框架,用于解决一系列问题
(6)PageRank(连接挖掘):Google使用的网页排序算法,很著名
(7)AdaBoosts算法(集装与推进):应用于人脸识别,本质为改进的决策树算法,有监督
(8)kNN(分类):相对简单的分类算法,有监督
(9)Naive Bayes朴素贝叶斯算法(分类):用于识别垃圾邮件
(10)CART(分类):使用决策树算法,可以解决分类&回归问题,有监督,不常用,已被淘汰
查看全部 -
算法分类3:
生成模型:把问题分类,告诉你生成哪一类的概率,属于A类的概率最大不代表其就不能属于B类
判别模型:给定一个函数,然后输入后给出输出,指定输出属于哪一个类别,非一即二。
查看全部 -
算法分类2(算法类别上):
分类与回归
聚类
标注:比如个一段文本中不同的词打上标签(名词、动词、形容词)分类与回归的关系:
分类:离散型变量
回归:连续性变量
分类问题和回归问题都要根据训练样本找到一个实值函数g(x). 回归问题的要求是:给定一个新的模式,根据训练集推断它所对应的输出y(实数)是多少。也就是使用y=g(x)来推断任一输入x所对应的输出值。分类问题是:给定一个新的模式,根据训练集推断它所对应的类别(如:+1,-1)。也就是使用y=sign(g(x))来推断任一输入x所对应的类别。综上,回归问题和分类问题的本质一样,不同仅在于他们的输出的取值范围不同。分类问题中,输出只允许取两个值;而在回归问题中,输出可取任意实数。
查看全部 -
算法分类1:
有监督学习:监督学习算法有数据、要建模,输出标签,是在“老师”监督下进行学习,有规则才有预判。如分类算法、回归算法,训练样本中包括预先设定的标签(label),事先告知其类别再进行训练
无监督学习:有数据,不需要实现建模,输出归类,利用输入的无标记的样本数据来发现样本空间的内在联系和潜在规律,边学习边建立规则,随时调整,“更智能”。如聚类算法,训练样本不含有标记信息,只有普通的样本数据,需要根据样本数据内在的联系或者特性来划分样本空间
半监督学习:开始训练时提供标签,随着大量训练数据的不断输入,来完善结果,即强化学习
查看全部 -
机器学习和数据分析的区别4:参与者不同
数据分析师的能力决定结果,目标用户在于公司高层
数据的质量和具体算法决定结果,目标用户在于个体
查看全部 -
机器学习和数据分析的区别3:技术手段不同
OLAP:联机分析处理
查看全部
举报