-
DOM 解析
查看全部 -
Beautiful Soup
美丽的汤
查看全部 -
urllib2.HTTPError: HTTP Error 403: Forbidden
查看全部 -
# coding:utf8 __author__ = 'xray' import urllib2 import cookielib url = "https://rollbar.com/docs/" print '第一种方法' response1 = urllib2.urlopen(url) print response1.getcode() print len(response1.read()) print '第二种方法' request = urllib2.Request(url) request.add_header("user-agent", "Mozilla/5.0") response2 = urllib2.urlopen(request) print response2.getcode() print response2.read() print '第三种方法' cj = cookielib.CookiJar() opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj)) urllib2.install_opener(opener) response3 = urllib2.urlopen(url) print response3.getcode() print cj print response3.read()
查看全部 -
cookies
查看全部 -
HTTPS, Proxy
查看全部 -
data http header
request
查看全部 -
urllib2
urlopen
查看全部 -
Python Run
查看全部 -
开始运行爬虫
爬取结果展示
查看全部 -
URL 拼接
查看全部 -
# regex 正则表达式
查看全部 -
https://pypi.org/project/beautifulsoup4/
# DOM parser
查看全部 -
HTML解析器 html_parser
from bs4 import BeautifulSoup
soup
https://pypi.org/project/beautifulsoup4/
查看全部 -
Ctrl + S
Ctrl + 1
import urlib2
查看全部
举报
0/150
提交
取消