老师讲的很好啊,说实话你想学爬虫html是必须的技能树啊。
建议老师开始前先说明下需要哪些前置课程,这样评论区就可以少很多抱怨的声音。
有些零基础的确实是不知道。
建议老师开始前先说明下需要哪些前置课程,这样评论区就可以少很多抱怨的声音。
有些零基础的确实是不知道。
2017-06-21
P3改后实测有效
1. root_url = 'http://baike.baidu.com/item/Python'
2. with open('output.html','w',encoding='utf-8') as fout:
fout.write(unquote("<td>%s</td>" % data['url']))
fout.write("<td>%s</td>" % data['title'])
fout.write("<td>%s</td>" % data['summary'])
1. root_url = 'http://baike.baidu.com/item/Python'
2. with open('output.html','w',encoding='utf-8') as fout:
fout.write(unquote("<td>%s</td>" % data['url']))
fout.write("<td>%s</td>" % data['title'])
fout.write("<td>%s</td>" % data['summary'])
2017-06-20
GitHub: https://github.com/fengtimo/baike_spider
Python 3.6.1运行正常
保存1000条数据html打开不显示简介,不知道为啥
Python 3.6.1运行正常
保存1000条数据html打开不显示简介,不知道为啥
2017-06-19
使用第三方库
import requests
class HtmlDownloader(object):
def download(self, url):
if url is None:
return None
response = requests.get(url)
response.encoding = 'utf-8'
if response.status_code != 200:
return None
return response.text
import requests
class HtmlDownloader(object):
def download(self, url):
if url is None:
return None
response = requests.get(url)
response.encoding = 'utf-8'
if response.status_code != 200:
return None
return response.text
2017-06-18
import sys
import urllib
url="http://www.baidu.com"
wp=urllib.urlopen(url)
content=wp.read()
fp=open("E:\\python\\web.txt","w")
fp=write(content)
fp.close()
import urllib
url="http://www.baidu.com"
wp=urllib.urlopen(url)
content=wp.read()
fp=open("E:\\python\\web.txt","w")
fp=write(content)
fp.close()
2017-06-13
ImportError: No module named 'cookielib'1
Python3中,改成 import http.cookiejar,然后方法里也改成 http.cookiejar,查找替换就行 我做出来了 。
Python3中,改成 import http.cookiejar,然后方法里也改成 http.cookiejar,查找替换就行 我做出来了 。
2017-06-13
安装失败的大部分应该是因为我大天朝网络访问pip库异常缓慢吧,提供一个修改pip源为阿里云源的方式。
http://mirrors.aliyun.com/help/pypi
http://mirrors.aliyun.com/help/pypi
2017-06-13
python3需要安装使用pip install BeautifulSoup4进行安装,因为BeautifulSoup3已经停止维护了。
2017-06-13