初识机器学习-理论篇_学习笔记

首页免费课初识机器学习-理论篇笔记

初识机器学习-理论篇

最热最新

慕少7339756 00:27

说明
联机分析处理，简称OLAP(Online analytical processing)，是计算机技术中快速解决多维分析问题的一种方法。
Online analytical processing (OLAP) is software technology you can use to analyze business data from different points of view.

查看全部

0 采集收起来源：数据分析和机器学习的区别（2）
2023-11-20
慕少7339756 05:38

NO SQL 一致性弱。适合存行为数据，不适合存交易数据。

CAP：consistency, availability, and partition

查看全部

0 采集收起来源：数据分析和机器学习的区别（1）
2023-11-20
慕少7339756 01:40

初级学习：专家学习

查看全部

0 采集收起来源：业务系统发展的历史
2023-11-20
慕少7339756 00:28

用数据代替专家！

查看全部

0 采集收起来源：机器学习发展的原动力
2023-07-31
慕少7339756 00:51

从数据中寻找规律，人们干了几十年、上百年了。基础的学科：概率论和数理统计。
统计学问题：因为计算能力有限，往往采样只采少量数据

查看全部

0 采集收起来源：从数据中寻找规律
2023-11-20
慕少7339756 02:02

从历史数据学习的主题，是机器还是人？

查看全部

0 采集收起来源：什么是机器学习
2023-07-31
慕少7339756 00:19

1

查看全部

0 采集收起来源：什么是机器学习
2023-07-31
即白CV 00:38

1

查看全部

0 采集收起来源：机器学习解决问题（2）
2023-03-18
即白CV 03:24

机器学习常见算法

查看全部

0 采集收起来源：机器学习常见算法和分类（2）
2023-03-18
慕容1268039 00:18

机器学习经验分析

查看全部

0 采集收起来源：典型应用-聚类
2022-11-01
慕容1268039 01:00

机器学习规律分析是机器学习经验

查看全部

0 采集收起来源：从数据中寻找规律
2022-10-31
weixin_慕丝6481885 09:54

机器学习简单认知
一.什么是机器学习：
1.利用计算机从历史数据中找到规律，并把这些规律用到对未来不确定场景的决策。
2.不确定事件：例如本年度第三季度业绩情况（判断＋决策），（靠规律），而不是例如太阳从东边升起的确定性事件
3.机器学习和数据分析不同：
               主体的不同：计算机--机器学习、人--数据分析。
               数据分析是依靠人从历史数据中找到规，学习效果很大程度以来于人的经验与知识水平，机器学习就是想要抛弃对人的依赖，靠机器来挖掘规律。
4.
数据：机器学习只是解决问题的框架、算法，需要数据，数据量越大越准确。
规律：通过机器学习不同的算法去找规律，不同的算法结果不同。规律=数学函数=数学公式
二．从数据中寻找规律
《概率论》《数据统计》是机器学习的基石
传统的统计学，抽取一定量的样本然后进行概率统计，然后得到结论之后进行假设检验
传统的统计学受运算能力的限制，所以是用抽样的方式；
而现在计算能力足够强，就不需要采用抽样的方式了。
做数据分析要对数据进行量化，才方便计算、比较。
传统统计：抽样-描述统计-结论-假设检验-推断
机器学习不受计算量的限制，直接跳过抽样
统计学受限于计算能力，依赖于采样的方法，再反作用于原来的数据。步骤：抽样-->描述统计-->结论-->假设检验。

现在无需考虑数据量的问题，无需抽样技术，直接全样。可利用可视化技术来观察数据。要进行数据分析，需要先进行量化，用模型拟合规律，函数-->函数曲线-->拟合。高维度时很难用可视化的方法，只能用数学运算。
三．机器学习发展的原动力
1.    从历史数据中找出规律，把这些规律用到对未来自动作出决定。
2.    用数据代替expert——业务逻辑
3.    经济驱动，数据
四．业务系统发展历史
1、基于专家经验（运维和产品头脑风暴，程序员写逻辑）
2、基于统计---分维度统计。数据分析，受限于数据分析人员的经验(数据报表，:联机事务处理OLAPP(on-line transaction processing))
3、机器学习模式
模式①：离线机器学习，每天定时更新,跑算法，生成一个新的模型，循环，生成新的模型。对昨天数据的研究，用算法分析形成一个模型，指导明天的活动。缺点：存在偶然性，没法给出正确的模型，如双11的集中购物。
模式②：在线机器学习，实时的数据进行分析，不断的形成模型对用户进行指导
五．机器学习的经典应用
（一）购物篮分析
关联算法，纸尿裤和啤酒
（二）用户细分精准营销
聚类：把用户消费数据拿过来喂给算法，计算机运算，人为设置想要分为几类。分完类后，业务人员总结每类人员共同的消费特征。
（三）
朴素贝叶斯的算法：垃圾邮件识别
决策树：信用卡欺诈：
ctr预估：点击预估，核心为线性逻辑回归如：互联网广告百度搜索的广告推广
    推荐系统：协同过滤算法，例如淘宝买此产品的人同时购买了。
自然语言处理：情感分析（对文本抓关键情感词），实体识别（提取文本主要数据，人名等）
深度学习：图像识别
更多应用：语音识别，人脸识别，手势控制，智慧机器人，实时翻译
六．机器学习和数据分析区别
1：处理的数据不同
数据分析：交易数据、少量数据、采样分析。对数据一致性要求严格，使用关系型数据库sql serve、mysql、oracle。
机器学习：行为数据、海量数据、全量分析。需要保证数据吞吐量，数据一致性可以打折扣，所以用NoSQL数据库（MongoDB、nosql）和分布式数据分析平台（Hadoop、Spark）
交易数据：电商网站用户下单、银行存取款账单
行为数据：用户的搜索历史、浏览历史、点击历史、评论
2．解决业务问题不同
数据分析，报告历史上发生的事情。
机器学习：通过历史上发生的事情，来预测未来的事情。
3．技术手段不同
数据分析：分析方式是用户（数据分析师）驱动的，交互式分析。分析能力受限于数据分析师的能力，数据属性和维度很有限。
机器学习：分析方式是数据驱动的，自动进行知识发现。数据属性和维度数量级很大。
4．参与者不同
数据分析，分析师能力决定结果，目标用户是公司高层。
机器学习，数据质量决定结果，目标用户是个体。
七．机器学习算法分类
算法分类1：根据数据有无标签Y进行分类
对样本数据进行一些训练，得到模型，通过模型判断X与Y的关系。
有监督学习：训练数据中已经明确给出了该数据的Y，给数据打上了标签。如：已对邮件打上了“垃圾邮件”、“正常邮件”的标签。包括：分类算法、回归算法。
无监督学习：训练数据并没有Y，数据没有任何标签。典型算法：聚类。
半监督学习：也叫强化学习，数据越多，模型越好。
算法分类2：根据解决问题进行分类
分类与回归、聚类、标注
算法分类3（重要，直指本质）
生成模型：用来说明分类问题。返回的是属于各个类的概率。
判别模型：用来说明分类问题。直接给一个函数，数据输入到函数中，直接返回类别。
八．机器学习常见算法
1.分类---C4.5使用决策树算法，可以解决【分类】&【回归】问题；
2.聚类---K-Means算法，属于无监督方法，解决电信用户分类问题；
3.统计学习---SVM（支持向量机）可以解决分类（主）和回归问题，有很好的表现和深厚的数学理论支撑，曾经被认为是最好的分类算法。现在光芒被【深度学习】掩盖了。有一定的数学门槛，面试中经常被问。
4.关联分析---Apriori应用于“尿片和纸尿裤”案例，最早解决了频繁项集问题。由于需要频繁访问数据库，已被淘汰。取代它的是华人开的【FP-Growth】算法。应用：电商的推荐系统，但目前有更好的替代方法。
5.统计分析---EM算法是一个算法框架，用于解决一系列问题。
6.连接挖掘---PageRank。Google使用的网页排序算法，很著名。
7.集装与推进---AdaBoosts算法，应用于人脸识别，本质为改进的决策树算法，属于有监督的分类算法。
8.分类---kNN。相对简单的分类算法，有监督。
9.分类---Naive Bayes朴素贝叶斯算法，用于识别垃圾邮件。
目前不常用的算法：Apriori和CART。
高阶算法：
FP-Growth---关联分析Apriori的改进版，华人发明的。
逻辑回归---推荐搜索结果的排序。
RF随机森林---梯度提升决策树GBDT，与AdaBoost都属于对决策树的改进。
LDA---文本分析，自然语言处理。
Wod2Vector---文本挖掘，最终是一个结果。
HMM---隐马尔可夫模型，CRF条件随机场，自然语言处理，文本挖掘。
九．机器学习解决问题的框架
解决问题的框架：
1.    确定目标
业务需求：知道要做什么。
数据：学习的基础（数据可以直接就喂给算法，数据对模型的影响非常大，数据决定了最终的预测结果）
特征工程：数据预处理，提取特征 70%-数据的提取非常重要
2.    训练模型（重点）
定义模型：确定算法。
定义损失函数：找出算法的偏差。
优化算法：对算法进行优化，让损失函数取最小
3.    模型评估
交叉验证：将不同的算法带入同一类数据中，验证效果。
效果评估：可以看出几个算法之间具体的差别、效果

查看全部

0 采集收起来源：机器学习-图片识别demo演示
2022-09-18
慕标0178538 02:09

常见机器学习算法

查看全部

0 采集收起来源：机器学习常见算法和分类（2）
2022-08-25
郭德纲学编程 06:36

NoSQL 行为数据处理。

查看全部

0 采集收起来源：数据分析和机器学习的区别（1）
2022-07-27
慕UI4560604 03:14

利用计算机从历史数据中寻找规律，并把规律运用于未来的场景决策

查看全部

0 采集收起来源：从数据中寻找规律
2022-04-03