为了账号安全,请及时绑定邮箱和手机立即绑定

对爬虫爬取到的数据管理

对爬虫爬取到的数据管理

精慕HU 2018-07-15 11:08:22
大家在管理爬取到数据的时候,一般对异常数据是怎么进行防御的?比如对一个网站的商品爬取下来后,每天都自动更新最新的信息,但是如果目标网站大批量返回错误数据,这样一下子就把之前的正确数据洗掉了。而且这些错误数据比如说价格,原来是20块,一下子返回200块,数据类型一样,但是值的意义不同了。严格来说,这不是技术问题,所以请不要简单给个建议说用xx技术之类的。这不是技术问题,不是用干什么语言什么框架的问题 (2年前)
查看完整描述

3 回答

?
月关宝盒

TA贡献1772条经验 获得超5个赞

感觉你可以建立一个数据校验模块,在抓取完这些数据后通过数据校验模块 检查 数据的变动值,如果超过你设定的阈值 ,那么可以认为刚爬取的数据是异常的,则不更新原有数据

查看完整回答
反对 回复 2018-07-15
?
蝴蝶不菲

TA贡献1810条经验 获得超4个赞

没有一款爬虫是无敌的,但写爬虫用的Python却可能是无敌的

查看完整回答
反对 回复 2018-07-15
?
智慧大石

TA贡献1946条经验 获得超3个赞

爬虫 很简单,数据查询管理分类 比较难

查看完整回答
反对 回复 2018-07-15
  • 3 回答
  • 0 关注
  • 867 浏览

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信