一个任务的相关设计东西
1.0 采用爬虫(spider)机器人,爬取整个互联网。要通过一个有效的规律,从一个链接(url)爬行到另外一个链接。
爬取的速度和效率是必须考虑的。因为互联网上的数据是海量的,网页之间的链接可能会形成递归死循环。还有爬取时间太慢,会导致信息落后,搜索出的结果也差强人意。所以必须处理各种可能出现的问题。
爬取的速度,一是提高爬虫的网页处理能力,二是可以采用分布式系统,多个爬虫程序爬取。
爬取的效率:要优化爬取的内容,去掉无用的东西,减少重复的爬取,可采用相关的数据结构,比如集合,具有去重特性,或者采用判断(判断,需要查找算法,可以采用b树数据结构,提高效率),如果网页存在就丢弃,否则就放入数据库中。而且网页每时每刻可能都在变化(修改,删除,或者出现新的超链接)因此要保持爬取的页面的更新。
需要考虑网络的特点,尽量高效的利用网络宽带,在硬件和软件有限的条件下,尽可能的爬取到更多有价值的东西。还有需要遵守网络的各种协议,比如http,https,robots等。
2.0 爬取的网页,根据关键字,建立索引(index),放入数据库。
建立索引(index)和数据库
索引库分层级,优质的,权重高的网页放在重要索引库,普通网页放在普通库,差的网页会放在低级库去当补充材料,大部分搜索结果重要库中就可以满足需求。
索引系统,在浩如烟海中查找需要的网页,而且短暂的时间内需要给出结果,不然用户体验很差,这就需要建立高效的索引系统。
索引的更新,随着网页的修改删除,以及新增加的网页越来越多,需要对索引进行合理的更新,应该选取合适的方法,比如完全重建策略、再合并策略、原地更新策略和混合策略。等。
倒排索引的重要过程——入库写库
索引建立好以后,需要把网页的超链接,缩略图,等内容写入数据库,要考虑数据的大小问题,网页太多不可能全部存放,而且存放东西太多,成本太大,对数据需要压缩。
给出最优的搜索结果。
A 这个页面多么重要
B 与你的问题相关性。
网页的重要性,采取权重合算。
权重:一个网页的权重越大,在搜索结果越靠前。
相关的部分权重考虑:
PageRank算法,指向该网站的外部链接的数量,这些链接网站的重要性(链接网站的权重)。
时间,有些搜索结果具有信息的实效信,比如房价,物价,股票,新闻等,根据搜索的东西,设置时间的权重
关键字:在此网页出现搜索词的次数,关键词出现在标题中,URL中,还是文本中,网页的近义词出现的次数等,各设计权重。出许多,相对权重大
网页是否权威网站,是官方网站,是诚信度好的网站,大家信任的网站,还是野鸡网站等。
网页的相关性: 和你需要的搜索结果最相关的网页。
相关的思路如下
智能算法:根据客户的位置,搜索时间,以前的搜索内容,采用智能推荐的算法。给出最受客户欢迎的搜索页面。
机器学习:根据客户在提供的搜索结果的网页停留时间,点击网页的先后的循序,等东西反馈,测量搜索结果的有效性,每次做出调整,直到达到总体最好。
根据客户搜索历史,分析客户的身份,职业,年龄,爱好等,对客户自画像,搜索结果也根据客户的自画像,提供个性的搜索结果,以给出最
网页搜索的结果满意度
广告:虽然做搜索需要盈利,但是广告也需要合理化,绝不能像百度竞价排名,广告放在最前面,特别在医药等领域,要遵守准则不赚取不义之财,魏则西之死事件是一个血与泪的教训,广告不合理,会强烈的引起用户的反感,如果一旦有替代产品,自己的东西就不会被使用了。 广告可以放在搜索结果的右下边。注明广告。同时对于搜索网页的广告也要考虑,广告太多要列位劣质网页。
创新: 对于搜索网页中的广告,虚假消息,等可以提供网名举报,然后人工处理,公平呈现出搜索结果,修补爬虫的失误。
安全: 保护用户的隐私,对于用户的搜索记录等会有记录,便于提供个性化搜索,但是不会用于商业活动,不泄露出这些个人的隐私,以便别有用心的人或者组织谋取利益
Ai时代:更智能的搜索,不仅局限于文字,搜索还可以是语言,图像,等。比如图像搜索,
采用图像识别(orc)技术,语言搜索,采用语言识别。
反作弊: 对于根据搜索引擎的爬虫的权重,等,进行作弊的行为,比如SEO过度,要做相关的处理,降低权重
搜索引擎的工作原理是什么?为什么能找到我们想要的东西?
搜索引擎算法及工作原理
百度,google等搜索引擎的工作原理是什么?
百度搜索引擎的工作原理
搜索引擎原理(二)索引(1)
搜索引擎原理(一)网络爬虫
pagerank原理总结
浅谈PageRank
共同学习,写下你的评论
评论加载中...
作者其他优质文章