课程
/后端开发
/Python
/python遇见数据采集
如题?
PDF下载好读取他的意义是什么?
2016-09-15
源自:python遇见数据采集 5-5
正在回答
比如说你想收集所有上市公司历年来资产负债,资产增长,股份变革等等这些情况,你不可能通过人工的方法来查找,因为单单深沪都有几千家公司,只能依靠程序来完成,但是这些信息大部分都是以PDF文件保存的,如果不读取PDF文件还有什么好的方法来完成呢?
而且大部分的文件都是以PDF保存的,如果你想从这些文件里面查找信息,一两个文件可能还能人工去查找统计,如果是一百个,一万个文件,依靠人工不知道要到什么时候才能完成,而且还可能会统计错误。
有些数据是被嵌套在PDF文档里面的,这时候就需要把它读取出来再处理
还有就是将PDF文档中的内容转成文字(当然这个在13版的word里面也能做到)
反正不管怎么说,读取PDF文档都是件吃力不讨好的事情。过程繁琐而且准确率也不是很高。如果不需要读取那是最好了
举报
本教程让你初步掌握Python进行数据采集,创造属于你的价值
1 回答老师python还有别的 读取pdf的库吗
3 回答为什么最后用urlopen读取线上pdf地址时,读取信息显示异常
2 回答python能修改双层pdf中文字透明度吗
1 回答页面解释器读取出错
2 回答读取不了wiki那个url链接,求助。。