为了账号安全,请及时绑定邮箱和手机立即绑定

如何用 python 构建一个简单的分布式系统

如何用 python 构建一个简单的分布式系统

侃侃无极 2019-04-08 08:04:21
如何用 python 构建一个简单的分布式系统
查看完整描述

3 回答

?
慕运维8079593

TA贡献1876条经验 获得超5个赞

1. 出口IP数量,主要是考虑防止被封禁,带宽反而不是大问题,这个问题可以通过搭建NAT出口集群,或者单机多IP的方式实现
2. 本地端口号耗尽,由于爬虫是服务端编程不太常见的主动发起连接的应用,在普通只有一个IP绑定的机器上会受到65535的限制(一般在50000多就会受到限制)
3. 大容量存储的需求,一般都是通过开源或者自己研发的分布式存储系统来实现,像谷歌(GFS)和百度(百灵)都是自研,这里就不展开说了
4. 动态网页的支持,像京东这种网站,内容都是通过类似Facebook的bigpipe一样动态加载的,直接像curl这样抓取看到的页面几乎是空白的,这就要求爬虫能模拟JS的运行,这方面有很多基于v8引擎的开源项目:
CasperJS, a navigation scripting and testing utility for PhantomJS and SlimerJS
PhantomJS | PhantomJS
由于这个需求,爬虫成了CPU密集型的应用了,分布式的需求也就有了

查看完整回答
反对 回复 2019-04-09
  • 3 回答
  • 0 关注
  • 1908 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信