你看完再说好吗?介绍3种,是让你有个总体了解,后边会具体介绍,真2
比武鱼: 对于初学者来说太快了,很难理解。为什么要一次过介绍三种方法呢?为什么不能讲一个方法就演示一遍呢?感觉就是照着PPT读一样,那我不如直接看PPT算了,还需要老师干什么。
比武鱼: 对于初学者来说太快了,很难理解。为什么要一次过介绍三种方法呢?为什么不能讲一个方法就演示一遍呢?感觉就是照着PPT读一样,那我不如直接看PPT算了,还需要老师干什么。
2017-06-23
不用下载,直接在Scripts目录下输入pip install beautifulsoup4即可安装(电脑要联网,且Scripts目录下有pip.exe文件)
2017-06-22
1.到http://www.crummy.com/software/BeautifulSoup/网站上上下载,最新版本是4.6.0。
2.下载完后解压,放到python下。
3.cmd,切换到C:/Python27/beautifulsoup4-4.6.0/目录下(根据自己解压后的目录和下载的版本号修改)
cd C:/Python27/beautifulsoup4-4.6.0
4.运行命令
setup.py build
setup.py install
源自 http://kevinkelly.blog.163.com/blog/static/21390809320133185748442/
2.下载完后解压,放到python下。
3.cmd,切换到C:/Python27/beautifulsoup4-4.6.0/目录下(根据自己解压后的目录和下载的版本号修改)
cd C:/Python27/beautifulsoup4-4.6.0
4.运行命令
setup.py build
setup.py install
源自 http://kevinkelly.blog.163.com/blog/static/21390809320133185748442/
2017-06-22
老师讲的很好啊,说实话你想学爬虫html是必须的技能树啊。
建议老师开始前先说明下需要哪些前置课程,这样评论区就可以少很多抱怨的声音。
有些零基础的确实是不知道。
建议老师开始前先说明下需要哪些前置课程,这样评论区就可以少很多抱怨的声音。
有些零基础的确实是不知道。
2017-06-21
已采纳回答 / 华灯初上丶
楼主,我研究了一个晚上,from bs4 import BeautifulSoup报错No module named 'bs4'问题,琢磨了一个方法。首先,我使用的IDE是PyCharm Python版本3.6,在file选项中选择settings选项点进去<...图片...>然后选择Pro...
2017-06-20
P3改后实测有效
1. root_url = 'http://baike.baidu.com/item/Python'
2. with open('output.html','w',encoding='utf-8') as fout:
fout.write(unquote("<td>%s</td>" % data['url']))
fout.write("<td>%s</td>" % data['title'])
fout.write("<td>%s</td>" % data['summary'])
1. root_url = 'http://baike.baidu.com/item/Python'
2. with open('output.html','w',encoding='utf-8') as fout:
fout.write(unquote("<td>%s</td>" % data['url']))
fout.write("<td>%s</td>" % data['title'])
fout.write("<td>%s</td>" % data['summary'])
2017-06-20
GitHub: https://github.com/fengtimo/baike_spider
Python 3.6.1运行正常
保存1000条数据html打开不显示简介,不知道为啥
Python 3.6.1运行正常
保存1000条数据html打开不显示简介,不知道为啥
2017-06-19
已采纳回答 / mk充满爱与正义
如果是URL部分乱码/item/%E7%BC%96%,是因为url采用了再编码--&te(16进制编码解决方法:调用urllib.parse.unquote("/item/%E7%BC%96%")来变回中文注意:变回中文的URL无法用urllib.request.urlopen(URL)来访问,可以在最...
2017-06-18
使用第三方库
import requests
class HtmlDownloader(object):
def download(self, url):
if url is None:
return None
response = requests.get(url)
response.encoding = 'utf-8'
if response.status_code != 200:
return None
return response.text
import requests
class HtmlDownloader(object):
def download(self, url):
if url is None:
return None
response = requests.get(url)
response.encoding = 'utf-8'
if response.status_code != 200:
return None
return response.text
2017-06-18