《python网络数据采集》--好书推荐
一个前辈推荐的一本新书,
书到后很快就觉得这是好书。就想要系统的读这本书,
同时也想和大家分享一下。下面是这本数的大致目录
第一部分 创建爬虫
第一章 复杂的HTML解析
BeautifulSoup库
Lambda表达式
超越BeautifulSoup
第二章 开始采集
遍历单个域名
采集整个网站
通过互联网采集
用Scrapy采集
第三章 使用API
API概述
API通用规则
服务器响应
Echo Nest
Twitter API
Google API
解析JSON数据
第四章 存储数据
把数据存储到CSV
把数据存储到MongoDB
第五章 读取文档
文档编码
纯文本
CSV
PDF
微软Word和.docx
第二部分 高级数据清洗
第六章 数据清洗
编写代码清洗数据
数据存储后清洗数据
第七章 自然语言处理
概括数据
马尔代夫模型
自然语言工具包
其他资源
第八章 穿越网页表单与登录窗口进行采集
Python Requests 库
提交一个基本表单
单选按钮.复选框和其他输入
提交文件和图像
处理登录和cookie
其他表单问题
第九章 采集JavaScript
Ajax和动态HTML
处理重定向
第十章 图像识别与文字处理
OCR库概述
处理格式规范的文字
读取验证码与训练Tessract
获取验证码提交答案
第十一章 避免采集陷阱
伪装爬虫
常见表单安全措施
问题检查表
第十二章 用爬虫测试网站
测试简介
Python测试单元
Selenium单元测试
Python单元测试与Selenium单元测试的选择
第十三章 远程采集
Tor 代理服务器
远程主机
点击查看更多内容
19人点赞
评论
共同学习,写下你的评论
评论加载中...
作者其他优质文章
正在加载中
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦