简谈今天debug是如何解决的,我的环境是python2.7。
首先,百度百科改了目录结构,百科的文件很多都是"/item/XXX.htm"的路径,所以正则匹配的时候修改为:
links = soup.find_all('a', href=re.compile(r'/item')),或自行修改匹配规则.
其次,HtmlParser解析内容时,当页面内容为空时,会报错,需增加一个异常处理,并对data['summary']赋值,否则输出文件时会因为data字典没有这个键而报错。简单代码如下:
首先,百度百科改了目录结构,百科的文件很多都是"/item/XXX.htm"的路径,所以正则匹配的时候修改为:
links = soup.find_all('a', href=re.compile(r'/item')),或自行修改匹配规则.
其次,HtmlParser解析内容时,当页面内容为空时,会报错,需增加一个异常处理,并对data['summary']赋值,否则输出文件时会因为data字典没有这个键而报错。简单代码如下:
2017-06-26