Python开发简单爬虫_技术问答

首页免费课 Python开发简单爬虫问答

Python开发简单爬虫

全部评论问答未解决精华

为什么把第四行删除就没问题了，还有我输出print‘中文’ （‘中文’）都会报错

已采纳回答 / 慕雪4242923

你是python3吗？是的话urllib2要改成urllib<...code...>

1 回答 881 浏览 5-3 Python爬虫urlib2实例代码演示

2019-10-26

想问下<html>叫标签，那么</html>是叫一盒标签吗？没太听清

讲师回答 / 蚂蚁帅帅

哈哈哈哈哈哈哈哈哈

2 回答 830 浏览 7-6 HTML输出器

2019-09-16

为什么要把爬虫伪装成浏览器？

已采纳回答 / weixin_慕妹2345266

躲避反爬虫策略。

1 回答 671 浏览 5-3 Python爬虫urlib2实例代码演示

2019-09-09

import urllib2 出错

已采纳回答 / 慕粉7380412

<...code...>

2 回答 923 浏览 5-3 Python爬虫urlib2实例代码演示

2019-08-29

请问方法二的"request"请求和方法三的“cj"容器哪儿错了?

已采纳回答 / 慕九州4113299

第三个地方我还用了了

import http.cookiejar

cj = http.cookiejar.CookieJar()

2 回答 832 浏览 5-3 Python爬虫urlib2实例代码演示

2019-08-29

已经下载了beautisoup4模块为什么调取却失败

已采纳回答 / alone_shadow

我试了一下，我的也是报错的，应该是导入是 import bs4，而不是import beautifulsoup4

3 回答 994 浏览 6-2 BeautifulSoup模块介绍和安装

2019-08-25

请问哪里错了？结果出来了，但有个warning。

已采纳回答 / Authorcai

<...code...>

2 回答 797 浏览 6-4 BeautifulSoup实例测试

2019-07-24

正则表达式去匹配的时候，发现不能用find_all，只能用find呢，这是正常的吗？

已采纳回答 / mumu1233

find_all返回的结果是一个结果集，要用in去遍历里面的单个元素，直接操作这个结果集会报错，而find返回的是单个元素，你可以直接使用这个单个元素

2 回答 1481 浏览 6-4 BeautifulSoup实例测试

2018-12-30

为什么都是这个结果，哪里出问题了？求大神指点！！

最新回答 / 慕的地042143

<...图片...>应该是utf-8

6 回答 1234 浏览 8-1 课程总结

2018-12-15

python3，request.add_header("user-agent","Mozilla/0.5")

最赞回答 / 慕七七998

这个使用Python3.0写的，可以实现。import urllib.requestimport http.cookiejarurl = "http://www.baidu.com"print("--------------------------------------first------------------------------------------------------------")response1 = urllib.request.urlopen(url)print(respons...

6 回答 5824 浏览 5-3 Python爬虫urlib2实例代码演示

2018-12-03

print('lacie的链接')部分出现问题，AttributeError: 'NoneType' object has no attribute 'name'

已采纳回答 / weibo_骆驼爱上跳舞的Bud_0

你要看你爬的数据的标签比如：<div class=666></div>，你就需要改成

soup.find('div',class_='')

2 回答 1217 浏览 6-4 BeautifulSoup实例测试

2018-11-01

作者使用的Python的开发工具上什么吖

已采纳回答 / qq_拓展的拓_0

pyDev,你也可以用wing personal

2 回答 1110 浏览 6-3 BeautifulSoup的语法

2018-10-30

new_urls, new_data = self.parse.parse(new_url, html_cont)不明白

已采纳回答 / zhegao

这是 python 的赋值方式，可以把一个序列赋给对应的变量。在 python3中还支持如下的赋值方式：first,*middle,last = (1,2,3,4,5,6,7,8)这样 first=1, *middle=[2,3,4,5,6,7], last=8

4 回答 1324 浏览 7-2 调度程序

2018-10-22

python3.7 No module named 'baike_spider'

已采纳回答 / Yelena_Nic

你可以将spider_main.py移出文件夹，和baike_spider文件夹同级，这样就可以引入了，试试我和老师的一样没有出现这个问题

1 回答 1902 浏览 7-2 调度程序

2018-10-06

爬取页面url很复杂的情况

已采纳回答 / 我爱学习8

这一个问题问的太模糊了，能具体一点嘛

1 回答 1418 浏览 8-1 课程总结

2018-09-18

首页上一页1 2 3 4 5 6 7 下一页尾页

该课程已下架

课程须知: 本课程是Python语言开发的高级课程 1、Python编程语法； 2、HTML语言基础知识； 3、正则表达式基础知识；

老师告诉你能学到什么？: 1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块：URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码，修改本代码，你就能抓取任何互联网网页！

微信扫码，参与3人拼团

热搜

最近搜索清空

Python开发简单爬虫