既然已经获取到解析文档,除了使用BeautifulSoup,完全可以直接使用正则表达式模块re进行处理。例如:
sumVisit = re.findall('<li>访问:<span>(.*?)</span></li>', myPage, re.S)
sumVisit = re.findall('<li>访问:<span>(.*?)</span></li>', myPage, re.S)
2017-04-04
觉得讲讲Python操作excel会更好的加一,学到这部分总觉得老师走题了。不过想想标题是数据采集,好像从pdf拿点数据出来也算采集的一种哦。
2017-04-01
这节有点凑内容的嫌疑了,虽然初学者确实经常容易安装软件不成功,但是这个视频重点应该放在数据采集上面呢。当然,学了一个新的Python库pdfminer3k。
2017-04-01
其实本节重点是讲了一些困扰初学者的编码问题,内容非常实用。这个视频标题额,让我误解了主要内容。另外,老师以为我们没有学过日语么,这么淡定的拿来做例子。
2017-04-01
去学了一圈【Python操作MySQL数据库 】课程和【与MySQL的零距离接触 】课程的一点点有回过头来看爬虫的存储这一部分,增加一项新技能累啊!
2017-04-01