为了账号安全,请及时绑定邮箱和手机立即绑定
那个 transfile 函数,直接传一个 filetypes ,再一个 for 循环来判断啊
代码地址在哪
不错特别好
AttributeError: 'NoneType' object has no attribute 'SaveAs'
http://www.bilibili.com/video/av9784617?from=search&seid=4789969907129537329
访问页面不存在
希望老师更新!!!!!!
抽取的pdf是单层pdf 还是双层的?
讲的有点啰嗦,文本提取可以使用 textract 可以提取多种格式 https://textract.readthedocs.io/en/stable/,
文件操作获取文件名部分,可以用os.path.splitext拆分文件名称与后缀,用in判断后缀是否是要转换的格式,然后文件名+'.txt'就可以了。
https://github.com/deanmalmgren/textract
抽取表格和ppt的是不是难,所以不写
源码获取没有提到啊?
#匹配文件名要求, 不区分大小写
fnmatch.fnmatch(filename, pattern)
fnmathc.fnmatch('txt.py', '*.Py') # True

#匹配文件名是否符合要求,区分大小写
fnmatch.fnmatchcase(filename, pattern)
fnmatch.fnmatchcase('txt.py', '*.py') # True
首页上一页12345下一页尾页
课程须知
1、适用于数据科学从业人员、AI技术开发人员和科研工作者及学生群体。 2、学习者应具备python和数据科学的基础。
老师告诉你能学到什么?
1、制定不同场景数据采集策略 2、文本数据抽取与集成、使用Python科学计算工具

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!

本次提问将花费2个积分

你的积分不足,无法发表

为什么扣积分?

本次提问将花费2个积分

继续发表请点击 "确定"

为什么扣积分?

举报

0/150
提交
取消