-
1,10是决策树,解决分类或回归 2.重要,无监督 3.主要解决分类,svm,过程基于数学,统计学理论,无论表现还是解释都很好。可能面试官会考推导 4.已淘汰,代价高,由fp-growth代替,扫描数据库次数较少 5.比较抽象的总的算法框架 6.谷歌运用 7.人脸识别,决策树的改进版 8.简单的分类 9.垃圾识别 1.4.10现在不用了查看全部
-
算法分类1:根据数据有无标签Y进行分类 对样本数据进行一些训练,得到模型,通过模型判断X与Y的关系。 有监督学习:训练数据中已经明确给出了该数据的Y,给数据打上了标签。如:已对邮件打上了“垃圾邮件”、“正常邮件”的标签。包括:分类算法、回归算法。 无监督学习:训练数据并没有Y,数据没有任何标签。典型算法:聚类。 半监督学习:也叫强化学习,数据越多,模型越好。 算法分类2:根据解决问题进行分类 分类与回归、聚类、标注 算法分类3(重要,直指本质) 生成模型:用来说明分类问题。返回的是属于各个类的概率。 判别模型:用来说明分类问题。直接给一个函数,数据输入到函数中,直接返回类别。查看全部
-
2、解决业务问题不同 数据分析,报告历史上发生的事情。 机器学习:通过历史上发生的事情,来预测未来的事情。 3、技术手段不同 数据分析:分析方式是用户(数据分析师)驱动的,交互式分析。分析能力受限于数据分析师的能力,数据属性和维度很有限。 机器学习:分析方式是数据驱动的,自动进行知识发现。数据属性和维度数量级很大。 4、参与者不同 数据分析,分析师能力决定结果,目标用户是公司高层。 机器学习,数据质量决定结果,目标用户是个体。查看全部
-
1、数据特点 ①交易数据vs行为数据 数据分析处理的是交易数据,机器学习处理的是行为数据。 交易数据:存取款账单、用户订单、话费账单...与钱有关的数据。对数据一致性要求很高,应该放在关系型数据库中。 行为数据:搜索历史、点击历史、浏览历史、评论...对数据一致性要求不是很高,放在NoSQL数据库中。 ②少量数据vs海量数据 ③采样分析vs全量分析 NoSQL:只能处理行为数据,不能处理交易数据。强调分布式、CAP,保证数据吞吐量的前提下,在数据的一致性上打折扣。查看全部
-
机器学习和数据分析的区别 数据特点: 交易数据:钱 vs 行为数据:搜索历史,点击历史,浏览历史,评论 少量数据 vs 海量数据 采量数据 vs 全量数据 Not only SQL :处理行为数据(分布式)查看全部
-
什么是机器学习? 利用计算机从历史数据中找出规律;并把这些规律用到对未来不定场景的决策 机器学习的典型应用 关联规则:啤酒+纸尿片,购物篮分析 聚类:用户细分精准营销 朴素贝叶斯:垃圾邮件检测 决策树:风险识别 ctr预估:互联网广告:百度的前多少个词条(商业广告)(按照点击率排序) 协同过滤:推荐系统(淘宝购物车推荐) 自然语言处理:情感分析(对文本抓关键情感词),实体识别(提取文本主要数据,人名等) 深度学习:图像识别 更多应用:语音识别,人脸识别,手势控制,智慧机器人,实时翻译查看全部
-
7、自然语言处理(比机器学习高一个台阶) 情感分析、实体识别 8、图像识别 深度学习 利用计算机从历史数据中找出规律;并把这些规律用到对未来不定场景的决策 机器学习的典型应用 关联规则:啤酒+纸尿片,购物篮分析 聚类:用户细分精准营销 朴素贝叶斯:垃圾邮件检测 决策树:风险识别 ctr预估:互联网广告:百度的前多少个词条(商业广告)(按照点击率排序) 协同过滤:推荐系统(淘宝购物车推荐) 自然语言处理:情感分析(对文本抓关键情感词),实体识别(提取文本主要数据,人名等) 深度学习:图像识别查看全部
-
5、互联网广告 CTR预估算法:点击率的预估 6、推荐系统(类似于购物篮分析) 协同过滤算法,电商的推荐查看全部
-
3、垃圾邮件识别 朴素贝叶斯算法 4、信用卡欺诈 风险识别、欺诈识别。决策树算法查看全部
-
2、用户细分精确营销 把用户消费的数据利用聚类算法,可以根据用户信息,自动对用户进行分类查看全部
-
关联规则 -- 购买物品同时买了其他什么物品。 联想连接 找出规律 纸尿布和啤酒的故事(数据挖掘)查看全部
-
历史: 1、基于专家经验 2、基于统计---分维度统计。数据分析,受限于数据分析人员的经验 3、机器学习: 模式①离线机器学习,每天定时更新生成一个新的模型,但是如果出现异常状况时,在定时更新前就没法给出正确的模型;②在线机器学习,实时更新调整模型。查看全部
-
《概率论》《数据统计》是机器学习的基石查看全部
-
机器学习常见算法查看全部
-
6、看框架查看全部
举报
0/150
提交
取消