可以把table,td改成a,p,输出的html会整齐些
for data in self.datas:
fout.write('<a href="%s">%s</a>' % (data['url'],data['title']))
fout.write('<p>%s</p>' % data['summary'])
for data in self.datas:
fout.write('<a href="%s">%s</a>' % (data['url'],data['title']))
fout.write('<p>%s</p>' % data['summary'])
2017-08-12
import urllib.request,http.cookiejar
cj = http.cookiejar.CookieJar()
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
urllib.request.install_opener(opener)
response3 = urllib.request.urlopen(url)
print (response3.getcode())
print (len(response2.read()))
print (cj)
cj = http.cookiejar.CookieJar()
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
urllib.request.install_opener(opener)
response3 = urllib.request.urlopen(url)
print (response3.getcode())
print (len(response2.read()))
print (cj)
2017-08-12
声明download的时候不要用response = urllib.request.urlopen(url);因为response已经被python占用,可以改为resp = urllib.request.urlopen(url);这样就不会出现response没有getcode用法的问题了
2017-08-11
最新回答 / 白兰地加冰苏打水
因为你用的是urlopen去下载网页,网页本身就是存在一定的保护性,你一直下载,网页就会自动的拒绝你,不让你下载,所以你就无法读取到得到html从而无法解析,就一直卡卡卡,然后就崩啦,啦啦啦啦啦
2017-08-10
最新回答 / 勤梦幻岛首饰
python3没有urllib2;并且使用urlopen 需要先导入 from urllib import requestrequest.urlopen()
2017-08-09
我觉得应该在add_new_urls方法下for循环中添加一个if判断,判断下获取的url是否在old_urls中。
for url in urls:
if url not in self.old_urls:
self.new_urls.add(url);
——————————————————————————————
根本不需要啊,老师的add_new_urls()这个函数是调用add_new_url()来加入,add_new_url()里面已经有判断了,你这样不是多此一举?
for url in urls:
if url not in self.old_urls:
self.new_urls.add(url);
——————————————————————————————
根本不需要啊,老师的add_new_urls()这个函数是调用add_new_url()来加入,add_new_url()里面已经有判断了,你这样不是多此一举?
2017-08-08