Python数据预处理（二）- 清洗文本数据_技术问答

首页免费课 Python数据预处理（二）- 清洗文本数据问答

Python数据预处理（二）- 清洗文本数据

                
                伏草惟存
            算法工程师

                    查看讲师更多课程 
                    伏草惟存讲师的其他课程
                
Python数据预处理（四）- 特征降维与可视化
初级·6864
免费课程
                                
Python数据预处理（三）- 文本特征向量化
初级·5070
免费课程
                                
Python数据预处理（一）一抽取多源数据文本信息
初级·15975
免费课程
                                
自然语言处理（NLP）入门与实践
初级·14692
免费课程
                                
                难度中级
            
                时长 3小时48分
            
                学习人数
            
综合评分8.43
                            12人评价
                        查看评价
                                9.5
                                内容实用
                            
                                7.8
                                简洁易懂
                            
                                8.0
                                逻辑清晰

全部评论问答未解决精华

源码能分享下吗

最赞回答 / 宝慕林452583

https://github.com/bainingchao/DataProcess

2 回答 1019 浏览 1-7 清洗HTML网页数据

2019-11-13

老师，代码有吗

最新回答 / 慕村1348781

https://github.com/bainingchao/DataProcess/tree/master/ClearText 点开就能看见源码

1 回答 762 浏览 1-5 正则表达式介绍与常见使用场景（1）

2019-10-27

停用词列表从哪儿下载？

+ 我来回答回答最高可+2积分

2 回答 1298 浏览 2-4 自定义去停用词

2019-09-17

30万条新闻数据

最新回答 / 海边落地的愿

老师给了一个这个链接1 复旦新闻语料下载：链接: https://pan.baidu.com/s/1U3CtXRl-2mH24PNEzTcy8w 提取码: bxtj

1 回答 905 浏览 2-1 jieba分词精讲(1)

2019-09-16

输出无结果

最新回答 / 慕梦前来

你是怎么写的输出呢？看一下代码

1 回答 574 浏览 1-7 清洗HTML网页数据

2019-09-16

分词并发去除停用词

最新回答 / weixin_慕慕7264533

这个是列表解析式，这个part是从后面那个part过来的，比如 a = [1,2,3]b = [x for x in a]，则b也等于[1,2,3]

1 回答 830 浏览 2-4 自定义去停用词

2019-08-25

老师，最后一集没有了一部分，怕错时突然没有了？

最新回答 / woodskin

修改之后时间还是0.00

2 回答 861 浏览 2-10 实战案例：30万新闻文本特征提取

2019-08-25

在运行时出现这个ExceptionInInitializerError错误，是因为什么呢？

最新回答 / 慕勒4408313

我的问题解决方法是路径中的\符号改为/符号即可。

3 回答 6349 浏览 2-3 HanLP分词精讲

2019-08-12

结果打印不出来

最新回答 / 宝慕林452583

print('{t} *** {i} \t docs has been dealed' .format(i=i, t=time.strftime('%Y-%m-%d %H:%M:%S',time.localtime())),'\n',catg,':\t',file[:20])file???

2 回答 747 浏览 1-9 批量清洗30万新闻文本数据

2019-08-09

工具包下载

最新回答 / AI人工智能AI

https://github.com/bainingchao/DataProcess

2 回答 482 浏览 1-8 简繁字体转换

2019-08-08

怎么没有源代码

讲师回答 / 伏草惟存

https://github.com/bainingchao/DataProcess

1 回答 855 浏览 1-2 yield生成器实现斐波那契数列

2019-08-04

求源码下载

讲师回答 / 伏草惟存

https://github.com/bainingchao/PyDataPreprocessing

3 回答 756 浏览 2-6 NLTK词频统计（2）

2019-07-25

sklearn中tf-idf中结果的（0，10）的10是什么意思？

讲师回答 / 伏草惟存

表示该文档类别下某个词的概率。其中10代表这个特征词的所在位置的序号

1 回答 1002 浏览 2-9 slearn计算多分类下的TFIDF

2019-07-23

正则过滤掉特殊符号、标点、英文、数字等这段代码可以提供一下吗

讲师回答 / 伏草惟存

# 正则对字符串清洗def textParse(str_doc): # 正则过滤掉特殊符号、标点、英文、数字等。 r1 = '[a-zA-Z0-9’!"#$%&\'()*+,-./:：;；|<=>?@，—。?★、…【】《》？“”‘’！[\\]^_`{|}~]+' # 去除空格 r2 = '\s+' # 去除换行符 str_doc=re.sub(r1, ' ', str_doc) # 多个空格成1个 str_doc=re.sub(r2, '...

1 回答 1698 浏览 2-4 自定义去停用词

2019-07-22

NLP 分词NLPTokenizer运行报错，其他的正常

讲师回答 / 伏草惟存

你可以借助jiagu或者jieba分词，性能都差不多。

1 回答 1816 浏览 2-3 HanLP分词精讲

2019-07-17

开始学习

课程须知: 1、本课程面向一定编程基础的计算机专业、软件工程专业、通信专业、电子技术专业和自动化专业的学生。 2、本课程也适用于大数据从业者及人工智能相关工程人员。 3、任何有兴趣的同学均适合学习。

老师告诉你能学到什么？: 1、掌握不同分词工具与适用场景 2、掌握文本特征选择与提取方法

微信扫码，参与3人拼团

热搜

最近搜索清空

Python数据预处理（二）- 清洗文本数据