为了账号安全,请及时绑定邮箱和手机立即绑定

《python网络数据采集》--好书推荐

一个前辈推荐的一本新书,
书到后很快就觉得这是好书。

就想要系统的读这本书,
同时也想和大家分享一下。

下面是这本数的大致目录



第一部分 创建爬虫

第一章 复杂的HTML解析

    BeautifulSoup库   
    Lambda表达式       
    超越BeautifulSoup

第二章 开始采集

    遍历单个域名
    采集整个网站
    通过互联网采集
    用Scrapy采集

第三章 使用API

    API概述
    API通用规则
    服务器响应
    Echo Nest
    Twitter API
    Google API
    解析JSON数据

第四章 存储数据

    把数据存储到CSV
    把数据存储到MongoDB

第五章 读取文档

    文档编码
    纯文本
    CSV
    PDF
    微软Word和.docx

第二部分 高级数据清洗

第六章 数据清洗

    编写代码清洗数据
    数据存储后清洗数据

第七章 自然语言处理

    概括数据
    马尔代夫模型
    自然语言工具包
    其他资源

第八章 穿越网页表单与登录窗口进行采集

    Python Requests 库
    提交一个基本表单
    单选按钮.复选框和其他输入
    提交文件和图像
    处理登录和cookie
    其他表单问题

第九章 采集JavaScript

    Ajax和动态HTML
    处理重定向

第十章 图像识别与文字处理

    OCR库概述
    处理格式规范的文字
    读取验证码与训练Tessract
    获取验证码提交答案

第十一章 避免采集陷阱

    伪装爬虫
    常见表单安全措施
    问题检查表

第十二章 用爬虫测试网站

    测试简介
    Python测试单元
    Selenium单元测试
    Python单元测试与Selenium单元测试的选择

第十三章 远程采集

    Tor 代理服务器
    远程主机
点击查看更多内容
19人点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消