为了账号安全,请及时绑定邮箱和手机立即绑定

多进程+多线程+redis 构建简单分布式程序

标签:
Python

前言

最近把目光投向了,妹子图(你一看见这三个字是不是头都大了, 怎么又是这个网站,被这帮搞爬虫的都爬烂了吧),先不要着急,别人爬过不代表你也能爬,每个人写爬虫的思路都是不一样的。 重要的是自己动手做一遍。整体看这个网站的爬取难度并不大,而且还有福利,为啥不试试呢。单线程的毕竟是太慢了,那么多进程+多线程+redis ,做一个简易的分布式程序将是我接下来叙述的重点。

程序虽小,也要五脏俱全。

全军出击

抓取流程整理:
网站首页:

https://img1.sycdn.imooc.com//5d3127ec00012c5107220420.jpg

网站首页


抓取的方式就不多叙述了,使用浏览器抓取工具可以很容易获取到,如下图:

https://img1.sycdn.imooc.com//5d3127ef00017f9907310161.jpg

源码分析

之后点击标题,多点击几个分页,分析url生成规律,便于程序拼接网址链接,之后查看图片的地址,分析抓取规则,便于程序下载:

https://img1.sycdn.imooc.com//5d3127f20001e5fd07040192.jpg

标题详情


在该页面下,主要做两个分析,一个是分析该套标题下,一共有多少张图片,也就是图片中的64要抓下来,还有就是图片的链接地址,也要抓下来。

好了网站基本分析完了,开始写程序。

代码解析

下面只是部分主要的代码完整代码请见文后地址。
抓取所有的标题,并入库:
<pre>
def get_page_count(self ,url):
'''
根据首页地址,获取标题页面的总数,并拼接标题页网址
:param url:
:return:
'''
html = download(url)
soup = BeautifulSoup(html.text, 'lxml')
pageNum = soup.find('div', class_='nav-links').find_all('a')[-2].get_text()
for page in range(1 ,int(pageNum)+1):
url = 'http://www.mzitu.com/page/{}/'.format(page)
self.download_html(url)
def download_html(self ,url):
'''
下载单个页面
:param url:
:return:
'''
print 'download : %s ' % url
html = download(url)
self.parse_html(html.text)
def parse_html(self ,html):
'''
解析html,并入库
:param html:
:return:
'''
soup = BeautifulSoup(html, 'lxml')
li_list = soup.find('ul', id='pins').find_all('li')
valus = dict()
for li in li_list:
a = li.find('span').find('a')
valus[a.get('href')] = a.get_text()
self.save_in_hash('mzitu' ,valus)
</code></pre>
从redis获取信息,并完成下载保存:
<pre>
def getdownloadUrl(self):
'''
从redis 获取链接地址
:return:
'''
while True:
url = self.client.pop()
print 'download url : %s' % url
if not url:
break
html = download(url)
soup = BeautifulSoup(html.text, 'lxml')
a_list = soup.find('div', class_='pagenavi').find_all('span')[-2].get_text()
self.download_page(a_list ,url )
def download_page(self ,pageNum ,url):
'''
下载标题详情页面,创建保存图片文件夹,启用多线程下载图片
:param pageNum:
:param url:
:return:
'''
title = self.client.get_hashvalue(url)
path = title.strip().replace('?', '').replace(' ', '').decode('utf-8')
self.mkdir(path)
for page in range(1 ,int(pageNum)+1):
page_url = url+"/"+str(page)
time.sleep(0.8)
thread = threading.Thread(target=self.mutliprocess, args=(page_url ,))
thread.start()
def mutliprocess(self , page_url):
'''
多线程下载图片
:param page_url:
:return:
'''
page_html = download(page_url)
imgurl = BeautifulSoup(page_html.text, 'lxml').find('div', class
='main-image').find('img')['src']
self.down_img(imgurl)
def down_img(self , imgurl):
'''
保存图片
:param imgurl:
:return:
'''
with open(imgurl[-9:] ,'wb') as f :
f.write(download(imgurl).content)
</pre>
多进程启动程序:
<pre>
start = time.time()
proc_list = []
for num in range(5):
proc = Process(target=run, args=())
proc_list.append(proc)
for p in proc_list:
p.start()
for p in proc_list:
p.join()
end = time.time()
print end -start
</pre>

程序框架

https://img1.sycdn.imooc.com//5d3127f9000191d407040451.jpg

简易框架图

运行效果

https://img1.sycdn.imooc.com//5d31280600013e8b03060041.jpg

效果图

源码地址

github:https://github.com/topyuluo/MZiTu_Distributed
代理池:http://www.jianshu.com/p/fd92ca79c9c7


作者:起个名忒难
链接:https://www.jianshu.com/p/a563ab9e2b92


点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消