最新回答 / 慕仰5215872
Python 2.7.9 之后引入了一个新特性当你urllib.urlopen一个 https 的时候会验证一次 SSL 证书 当目标使用的是自签名的证书时就会爆出一个 urllib2.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:581)> 的错误消息
2017-08-29
已采纳回答 / Sun灬Moon
links = soup.find_all('a',href=re.compile(r"^/item/")) 匹配html格式中href后指定的url以/item/开头的段落new_url=link['href'] 将获取到的单条href段落信息中href后指定的url数据赋值给new_url
2017-08-28
URL管理器支持功能:1.添加新的URL到待爬取的集合中2.添加的同时判断这个URL是否已在容器中3.从容器中获取待爬取的URL4.获取时判断容器中还有没有待爬取的URL5.URL爬取之后,将URL从待爬取集合移动到已爬取集合
2017-08-28
输出可以用with语句来写:
with open('output.html', 'w') as f:
f.write("<html>")
f.write("<body>")
f.write("<table>")
f.write("</table>")
f.write("</body>")
f.write("</html>")
with open('output.html', 'w') as f:
f.write("<html>")
f.write("<body>")
f.write("<table>")
f.write("</table>")
f.write("</body>")
f.write("</html>")
2017-08-27
soup =BeautifulSoup(html_doc,'html5lib',from_encoding='utf-8')
2017-08-27
最新回答 / 慕粉2223158941
public static void main(String[] args) { System.out.println("Hello World!"); } }
2017-08-26