首页手记搜索引擎

搜索引擎

标签：

机器学习人工智能

一个任务的相关设计东西

1.0 采用爬虫（spider）机器人，爬取整个互联网。要通过一个有效的规律，从一个链接(url)爬行到另外一个链接。
爬取的速度和效率是必须考虑的。因为互联网上的数据是海量的，网页之间的链接可能会形成递归死循环。还有爬取时间太慢，会导致信息落后，搜索出的结果也差强人意。所以必须处理各种可能出现的问题。

爬取的速度，一是提高爬虫的网页处理能力，二是可以采用分布式系统，多个爬虫程序爬取。

爬取的效率：要优化爬取的内容，去掉无用的东西，减少重复的爬取，可采用相关的数据结构，比如集合，具有去重特性，或者采用判断（判断，需要查找算法，可以采用b树数据结构，提高效率），如果网页存在就丢弃，否则就放入数据库中。而且网页每时每刻可能都在变化(修改，删除，或者出现新的超链接)因此要保持爬取的页面的更新。

需要考虑网络的特点，尽量高效的利用网络宽带，在硬件和软件有限的条件下，尽可能的爬取到更多有价值的东西。还有需要遵守网络的各种协议，比如http,https,robots等。

2.0 爬取的网页，根据关键字，建立索引(index)，放入数据库。
建立索引(index)和数据库
索引库分层级，优质的，权重高的网页放在重要索引库，普通网页放在普通库，差的网页会放在低级库去当补充材料，大部分搜索结果重要库中就可以满足需求。

索引系统，在浩如烟海中查找需要的网页，而且短暂的时间内需要给出结果，不然用户体验很差，这就需要建立高效的索引系统。

索引的更新，随着网页的修改删除，以及新增加的网页越来越多，需要对索引进行合理的更新，应该选取合适的方法，比如完全重建策略、再合并策略、原地更新策略和混合策略。等。

倒排索引的重要过程——入库写库
索引建立好以后，需要把网页的超链接，缩略图，等内容写入数据库，要考虑数据的大小问题，网页太多不可能全部存放，而且存放东西太多，成本太大，对数据需要压缩。

给出最优的搜索结果。

A 这个页面多么重要
B 与你的问题相关性。

网页的重要性，采取权重合算。
权重:一个网页的权重越大，在搜索结果越靠前。

相关的部分权重考虑:
PageRank算法,指向该网站的外部链接的数量，这些链接网站的重要性（链接网站的权重）。
时间,有些搜索结果具有信息的实效信，比如房价，物价，股票，新闻等，根据搜索的东西，设置时间的权重
关键字：在此网页出现搜索词的次数，关键词出现在标题中，URL中，还是文本中，网页的近义词出现的次数等，各设计权重。出许多，相对权重大
网页是否权威网站，是官方网站，是诚信度好的网站，大家信任的网站，还是野鸡网站等。

网页的相关性: 和你需要的搜索结果最相关的网页。
相关的思路如下
智能算法：根据客户的位置，搜索时间，以前的搜索内容，采用智能推荐的算法。给出最受客户欢迎的搜索页面。

机器学习：根据客户在提供的搜索结果的网页停留时间，点击网页的先后的循序，等东西反馈，测量搜索结果的有效性，每次做出调整，直到达到总体最好。

根据客户搜索历史，分析客户的身份，职业，年龄，爱好等，对客户自画像，搜索结果也根据客户的自画像，提供个性的搜索结果，以给出最

网页搜索的结果满意度

广告:虽然做搜索需要盈利，但是广告也需要合理化，绝不能像百度竞价排名，广告放在最前面，特别在医药等领域，要遵守准则不赚取不义之财，魏则西之死事件是一个血与泪的教训，广告不合理，会强烈的引起用户的反感，如果一旦有替代产品，自己的东西就不会被使用了。广告可以放在搜索结果的右下边。注明广告。同时对于搜索网页的广告也要考虑，广告太多要列位劣质网页。

创新：对于搜索网页中的广告，虚假消息，等可以提供网名举报，然后人工处理，公平呈现出搜索结果，修补爬虫的失误。

安全：保护用户的隐私，对于用户的搜索记录等会有记录，便于提供个性化搜索，但是不会用于商业活动，不泄露出这些个人的隐私，以便别有用心的人或者组织谋取利益

Ai时代：更智能的搜索，不仅局限于文字，搜索还可以是语言，图像，等。比如图像搜索，
采用图像识别(orc)技术，语言搜索，采用语言识别。

反作弊: 对于根据搜索引擎的爬虫的权重，等，进行作弊的行为，比如SEO过度，要做相关的处理，降低权重

搜索引擎的工作原理是什么？为什么能找到我们想要的东西？
搜索引擎算法及工作原理
 百度，google等搜索引擎的工作原理是什么?
百度搜索引擎的工作原理
 搜索引擎原理（二）索引（1）
搜索引擎原理（一）网络爬虫
 pagerank原理总结
 浅谈PageRank