/Library/Frameworks/Python.framework/Versions/3.6/bin/python3.6 /Users/hugo/PycharmProjects/imooc_python/baike_spider/spider_main.py
craw 1:https://baike.baidu.com/view/21087.htm
craw failed
Process finished with exit code 0
有朋友遇到了吗?为啥?
craw 1:https://baike.baidu.com/view/21087.htm
craw failed
Process finished with exit code 0
有朋友遇到了吗?为啥?
2017-10-06
现在使用python3进行爬取不再那么复杂了,urllib和urllib2合成urllib了,按照如下步骤就可以爬取,
from urllib import request
def get_html(url, headers):
request.Request(url=url, headers=headers)
req = request.urlopen(url)
html = req.read().decode('gbk')
req.close()
return html
注:
1,根据自己的环境,适当的调节,比如编码
2,字数有限制,如要捕获异常,请自行添加
3,亲测,可用
from urllib import request
def get_html(url, headers):
request.Request(url=url, headers=headers)
req = request.urlopen(url)
html = req.read().decode('gbk')
req.close()
return html
注:
1,根据自己的环境,适当的调节,比如编码
2,字数有限制,如要捕获异常,请自行添加
3,亲测,可用
2017-10-04
老师在2:20处那段代码原样打进去会报错。正确形式应该是:
soup = BeautifulSoup(
'html_doc',
'html.parser',
from_encoding = 'utf8'
)
soup = BeautifulSoup(
'html_doc',
'html.parser',
from_encoding = 'utf8'
)
2017-10-04
craw 1 :https://baike.baidu.com/item/Python
craw failed
这就是结果。。。。。
craw failed
这就是结果。。。。。
2017-10-04
已经解决
win7 python3.6 遇到乱码的情况
同明磊
只需要在fout = open('output.html', 'w', encoding = 'utf-8')
fout.write("<td>%s</td>" % data['title'])
fout.write("<td>%s</td>" % data['summary'])
这里面不能加.encode('utf-8'),加了会乱码
fout.write("<head><meta charset = 'utf-8'></head>")这个写不写无所谓,不影响
win7 python3.6 遇到乱码的情况
同明磊
只需要在fout = open('output.html', 'w', encoding = 'utf-8')
fout.write("<td>%s</td>" % data['title'])
fout.write("<td>%s</td>" % data['summary'])
这里面不能加.encode('utf-8'),加了会乱码
fout.write("<head><meta charset = 'utf-8'></head>")这个写不写无所谓,不影响
2017-10-03
先学会怎么用,然后记住怎么用,最后慢慢理解消化。
能一下子理解看懂的,不是相关知识积累特别多,就是天才,而天才只是不断努力的结果。
能一下子理解看懂的,不是相关知识积累特别多,就是天才,而天才只是不断努力的结果。
2017-10-02