表中100万数据，多线程更新，怎么设计？

表中有100万+条数据，通过cate_id分成8类，并且在不停增加，默认status=1我现在需要写爬虫，从表中读数据，然后请求一个api，把返回的数据再更新回去，更新status=2。多线程不知道怎么设计目前这么写的，感觉这样写很扯淡 while True: for i in cate_ids: tp_items = TpItem.objects.filter(cate_id=i, status=1)[:1000] if tp_items: p.apply_async(info_parse(tp_items, proxy_list)) p.close() p.join() time.sleep(30) #每轮从表中各cate_id取1000条数据进行处理。因为不同cate_id的数据量不一样，这样跑到后面可能只剩下一个cate_id类别的数据没有处理完，相当于变成单线程在跑了。该怎么设计？

查看完整描述

4 回答

慕妹3146593

TA贡献1820条经验获得超9个赞

建议可以用生产者-消费者模式。

使用python的Queue队列，创建一个队列。
开启一个生产者线程，从数据库中读出status=1的数据，并一条一条的放入队列中。
开启多个消费者线程，数量按实际测试情况设置。消费者线程每次从队列中取出一条记录，发起API请求，当请求完成后写入数据库。

python的Queue自带线程同步机制，可以简化开发。
由于瓶颈应该在调用远程API，读取数据用一个线程就够了，如果嫌慢，可以开8个线程，每个线程读一个表。
生产者线程从数据库读数据时可以做流量限制，在往队列放status=1的数据时，如果队列中数量达到了1000条（或自定义阀值）时阻塞住，直到队列中任务数量少于1000条，防止队列被写爆掉。

反对回复 2019-03-04

汪汪一只猫

TA贡献1898条经验获得超8个赞

每次找出5000，多线程更新，分多次进行

反对回复 2019-03-04

qq_笑_17

TA贡献1818条经验获得超7个赞

不知道为什么要分cate_id进行数据块处理，直接读取一定数量的数据进行线程分割，如果要针对不同cate_id进行不同处理也可以放在线程里进行分割。

反对回复 2019-03-04

热搜

最近搜索清空

表中100万数据，多线程更新，怎么设计？

表中100万数据，多线程更新，怎么设计？

4 回答

添加回答