朴素贝叶斯
朴素指的是"独立"
朴素贝叶斯是分类算法,可以给出每种类别发生的概率
善于计算几个独立事件同时发生的概率(文章分类)
关于独立事件(职业, 体型, 身高 各自独立)
样本编号 | 职业 | 体型 | 身高 | 女神的喜好 |
---|---|---|---|---|
1 | 程序员 | 匀称 | 很高 | 喜欢 |
2 | 产品 | 瘦 | 很矮 | 不看 |
3 | 美术 | 胖 | 中等 | 喜欢 |
4 | 产品 | 胖 | 中等 | 喜欢 |
5 | 程序员 | 胖 | 很矮 | 不看 |
6 | 美术 | 瘦 | 很高 | 不看 |
在女神喜欢的条件下, 职业是产品,并且身高很高, 并且体型匀称的概率? 1/27
P(产品, 很高, 匀称,|女神喜欢) = P(产品 | 女神喜欢) * P(很高 | 女神喜欢)* P( 匀称 | 女神喜欢 ) 1/27 = (1/3)*(1/3)*(1/3)
朴素贝叶斯公式:
朴素贝叶斯
W为文章的特征组(特定文章中各词组出现的频率),C为特定的类别
上式等价式
公式右侧
P(F1, F2, ... | C) = P(F1 | C) * P(F2 | C) * (F... | C),表示 特定类别下,特定词组出现的概率 的乘积
P(C), 表示 特定类别的文章, 在所有文章中出现的概率
P(F1, F2, F...) = P(F1) * P(F2) * P(F...) , 表示 特定词组在所有文章中出现的概率 的乘积
案例:为文章进行分类
from sklearn.naive_bayes import MultinomialNBfrom sklearn.datasets import fetch_20newsgroupsfrom sklearn.model_selection import train_test_splitfrom sklearn.feature_extraction.text import TfidfVectorizerdef naivebayes(): # 获取数据集级 news = fetch_20newsgroups(subset="all") # 分割数据集 x_train, x_test, y_train, y_test = train_test_split(news.data, news.target, test_size=0.25) # 进行tfidf特征抽取 tf = TfidfVectorizer() x_train = tf.fit_transform(x_train) x_test = tf.transform(x_test) # 通过朴素贝叶斯进行预测(拉普拉斯平滑系数为设置为1) mlb = MultinomialNB(alpha=1) mlb.fit(x_train, y_train) rate = mlb.score(x_test, y_test) print("预测准确率为:", rate)if __name__ == '__main__': naivebayes()
为文章进行分类
点击查看更多内容
为 TA 点赞
评论
共同学习,写下你的评论
评论加载中...
作者其他优质文章
正在加载中
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦