# coding utf_8
import urllib.error
import urllib.request
from pip._vendor.requests.api import request
from http.cookiejar import CookieJar
url="http://www.baidu.com"
print ("first")
response=urllib.request.urlopen(url)
print (response.getcode())
print (len(response.read()))
import urllib.error
import urllib.request
from pip._vendor.requests.api import request
from http.cookiejar import CookieJar
url="http://www.baidu.com"
print ("first")
response=urllib.request.urlopen(url)
print (response.getcode())
print (len(response.read()))
2017-04-16
For python 3.x:
import http.cookiejar
cj = http.cookiejar.CookieJar
import http.cookiejar
cj = http.cookiejar.CookieJar
2017-04-13
GitHub : https://github.com/PlayingWithFlame/imoocWebCrawler
本课程源码,运行环境Python3.6,纠正了一些错误以及浏览器显示中文乱码问题
本课程源码,运行环境Python3.6,纠正了一些错误以及浏览器显示中文乱码问题
2017-04-12
发现只抓取了一条就出错的或者运行不了的同学请把spider_main里面的异常捕捉先不要写,这样运行的时候就能知道错在哪里了。
2017-04-12
craw 1: http://baike.baidu.com/item/Python
craw 2: http://baike.baidu.com/item/史记·2016?fr=navbar
craw failed
craw 2: http://baike.baidu.com/item/史记·2016?fr=navbar
craw failed
2017-04-11
我终于运行成功了,出错在html_downloader.py,里面有个if url is None: 我写成了 if url in None: 然后运行后只出一条结果,然后报错argument of type 'NoneType' is not iterable。craw failed。可以参考我的博客,http://blog.csdn.net/stopcpp/article/details/69946607
2017-04-10
AttributeError: 'spiderMain' object has no attribute 'urls' 这个错误是def __init__(self)处要双下划线
2017-04-10
AttributeError: 'spiderMain' object has no attribute 'urls' 这个错误是 def __init__(self)处必须是双下划线!找了我一上午才找到。。
2017-04-10
我爬出来的结果是这样的。。。
craw 1 : http://baike.baidu.com/item/Python
craw failed
看来需要自己修改python的正则表达式
craw 1 : http://baike.baidu.com/item/Python
craw failed
看来需要自己修改python的正则表达式
2017-04-09
另外不用写class_ = 'title',直接写'title'也能正常打印结果,亲测可行,但是写name_ = 'p'就无法正常打印,必须写'p'
2017-04-09
亲测必须要在from bs4 import Beautifulsoup后面加上import re,不然会报错,多谢楼上大神指点
2017-04-09