我也是输出一条之后 就crawl失败了。
后来修改了spider._main下的craw函数的try...except。
修改如下:
except Exception as f:
print "crawl failed !", f
然后我出来的是
Do you need to install the parser library?
然后我去parser.py下找错误
soup = BeautifulSoup(html_cont , "html.parser", from_encoding='utf-8')
是html.parser 不是html_parser
后来修改了spider._main下的craw函数的try...except。
修改如下:
except Exception as f:
print "crawl failed !", f
然后我出来的是
Do you need to install the parser library?
然后我去parser.py下找错误
soup = BeautifulSoup(html_cont , "html.parser", from_encoding='utf-8')
是html.parser 不是html_parser
2016-09-08
#利用正则表达式
import re #引入正则表达式模块
link3 = soup.find_all('a',href=re.compile(r'ill'))
for v in link3:
print(v.string)
import re #引入正则表达式模块
link3 = soup.find_all('a',href=re.compile(r'ill'))
for v in link3:
print(v.string)
2016-09-08
哈哈 我终于改成了既没有重复url又能最先爬相关网页的了 代码https://github.com/coldfreeboy/spider拿去
2016-09-07
遇到只输出一行,第二行是crew failed问题的解决方法如下:
将html_parser.py模块中的_get_new_data()方法中的这一句代码:
title_node = soup.find('dd', class_="lemmaWgt-lemmaTitle-title".find("h1"))
改为:
title_node = soup.find('dd', class_="lemmaWgt-lemmaTitle-title")
即去掉.find("h1")
2016/9/4
将html_parser.py模块中的_get_new_data()方法中的这一句代码:
title_node = soup.find('dd', class_="lemmaWgt-lemmaTitle-title".find("h1"))
改为:
title_node = soup.find('dd', class_="lemmaWgt-lemmaTitle-title")
即去掉.find("h1")
2016/9/4
2016-09-04