随机抛出异常跑不到1000条的,可以改下craw结构,把try和except放到循环里:
while self.urls.has_new_url():
try:
XXXX
......
except:
print('craw failed')
self.outputer.output_html()
while self.urls.has_new_url():
try:
XXXX
......
except:
print('craw failed')
self.outputer.output_html()
2018-03-18
最新回答 / 欧阳思月
import urllib.request导入urllib中的request模块, 才能调里面的方法url = ('https://www.baidu.com')surl = urllib.request.urlopen(url) print(surl.read())
2018-03-17
我昨天在某网站上手动找小电影觉得太累了,所以今天才过来学学爬虫。每个人都可以发表自己的观点,有什么好吵的,带语言攻击的就更不应该了。
2018-03-17
最赞回答 / YouAreFoolish
import urllib.request
import http.cookiejar
url = 'http://www.baidu.com'
print('第一种方法')
response1 = urllib.request.urlopen(url)
print(response1.getcode())
print(len(response1.read()))
print("第二种方法")
request = urllib.requ...
2018-03-16