为了账号安全,请及时绑定邮箱和手机立即绑定
  • request.meta['proxy'] = 'http-cla.abuyun.com:9030'

    如果按照视频中的写,其他都一样,运行main.py,那么会提示如下错误。

     File "/home/ubuntu16/.local/lib/python3.5/site-packages/twisted/web/client.py", line 1513, in endpointForURI

        raise SchemeNotSupported("Unsupported scheme: %r" % (uri.scheme,))

    twisted.web.error.SchemeNotSupported: Unsupported scheme: b''

    解决方法:request.meta['proxy'] = 'http://http-cla.abuyun.com:9030'

    即加上http://就可以了

    查看全部
  • 在content=i_item.xpath(".//div[@class='info']//div[@class='bd']/p[1]/text").extract()

    for i_content in content:

    content_s = "".join(i_content.split()),,,后面省略

    在视频中没有.extract(),本机ubuntu16+python3环境,运行提示没有split属性。必须加上extract()才可以

    查看全部
  • https://img1.sycdn.imooc.com//5c152c6e00013fdd08160469.jpg

    Scrapy框架构成

    查看全部
  • 77
    查看全部
  • 数据保存为CSV文件:

    scrapy crawl douban_spider -o test.csv

    查看全部
    0 采集 收起 来源:保存数据

    2018-12-10

  • scrapy是python的爬虫框架。

    查看全部
  • Scrapy抓取4步走:新建项目、  明确目标、  制作爬虫、  存储内容

    (1)新建项目:

    命令行输入:

          scrapy startproject douban

    将工程导入pycharm:

          打开PyCharm,然后选择open文件,找到刚刚创建的项目,直接打开,然后进行PyCharm的Preferences中,选择Project Interpreter,这时候会看到显示[invalid] Python 3.6(scrapy)...,选择右边设置按钮,选择show all,然后左下角➕按钮,在页面中,直接点OK即可。

    创建douban_spider文件:

        进入douban\spiders目录,输入scrapy genspider  douban_spider movie.douban.com


      

    查看全部
    0 采集 收起 来源:新建scrapy项目

    2018-12-06

举报

0/150
提交
取消
课程须知
1、具有一定的Python基础 2、具有一定的linux系统管理基础,编译安装软件,yum包管理工具等 3、具有一定的Mongdb数据库管理基础,增删改查
老师告诉你能学到什么?
1、scrapy框架简介、数据在框架内如何进行流动 2、scrapy框架安装、mongodb数据库安装 3、scrapy抓取项目如何创建 4、scrapy抓取项目如何进行数据解析 5、scrapy抓取项目如何绕过反爬机制抓取数据 6、scrapy抓取项目如何存储数据到不同的格式

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!