完善:_get_new_data方法里的title_node与summary_node要先检查是否为None再进行下一步
2016-11-12
还要加上超时检测
if url is not None:
try:
request = urllib.request.urlopen(url, timeout=10)
if request.getcode() == 200:
return request.read()
else:
return None
except Exception as e:
print(str(e))
else:
return None
if url is not None:
try:
request = urllib.request.urlopen(url, timeout=10)
if request.getcode() == 200:
return request.read()
else:
return None
except Exception as e:
print(str(e))
else:
return None
2016-11-12
已采纳回答 / 慕粉3962690
www.baidu.com 只是首页 你要用他干什么呢 比如 你要用它搜索 python 他的链接请求就会变成 www.baidu.com?wd=python (这只是给你简单解释下 真实的链接比较复杂 做了很多处理) 自己搜下 看下地址栏就知道了,简单来说 就根据不同的请求参数 可以让我抓取不同的页面和内容。ps:去了解HTTP协议的get请求和post请求。
2016-11-11
Ubuntu14.04、Python2.7环境下本实例的实现:https://github.com/shfanzie/spider_baike
2016-11-11
Ubuntu14.04、Python2.7环境下本实例的实现:https://github.com/shfanzie/spider_baike
2016-11-11