本来心情挺好,看了评论真是日 了 狗了,看不懂的地方搜一下不就知道了?非要老师全部咀嚼碎了再吐给你?
2017-09-03
其实没有必要分成两个add_url 和 add_urls, 直接写一个add_url函数,然后判断传入的urls是单个元素还是多个元素就好了。
def add_url(self, urls):
if url is None or len(url) == 0:
return
for url in urls:
if url not in self.new_urls and url not in self.old_urls:
self.new_urls.add(url)
def add_url(self, urls):
if url is None or len(url) == 0:
return
for url in urls:
if url not in self.new_urls and url not in self.old_urls:
self.new_urls.add(url)
2017-08-31
URL管理器支持功能:1.添加新的URL到待爬取的集合中2.添加的同时判断这个URL是否已在容器中3.从容器中获取待爬取的URL4.获取时判断容器中还有没有待爬取的URL5.URL爬取之后,将URL从待爬取集合移动到已爬取集合
2017-08-28
输出可以用with语句来写:
with open('output.html', 'w') as f:
f.write("<html>")
f.write("<body>")
f.write("<table>")
f.write("</table>")
f.write("</body>")
f.write("</html>")
with open('output.html', 'w') as f:
f.write("<html>")
f.write("<body>")
f.write("<table>")
f.write("</table>")
f.write("</body>")
f.write("</html>")
2017-08-27
soup =BeautifulSoup(html_doc,'html5lib',from_encoding='utf-8')
2017-08-27