搜索引擎工作原理概述 发布时间:2015-11-30
搜索是查找,搜索引擎是查找工具。汽车发动机引擎能给汽车带来源源不断的动力,搜索引擎能给用户带来源源不断的信息。
搜索引擎可以简单的理解成:一套能够给用户提供检索服务的程序系统。这套系统的大致“工作”就是在浩瀚无穷的互联网上进行搜集并处理信息。信息搜集来后,根据用户的需求制定相关规则进行处理,存放,方便在用户查询检索的时候能够给予合理的排序来满足用户的要求。
搜索引擎的工作大致可以分成四个阶段:抓取、过滤、索引、展示排序。
1.抓取。
搜索引擎通过外部链接,或者用户提交到搜索引擎的路径,来对网页进行抓取,进而收集浩如烟海的信息。
抓取的时候,有广度抓取和深度抓取之分,按照重要性原则有限抓取,以便在无限资源之中给予用户最好的信息。深度一般不宜超过三级,权重高的网站更容易抓取到更深的页面。
   
搜索引擎抓取信息的时候,更容易识别文字信息,进而精确定位网页内容,这一点用过识图的朋友更能体会。
怎么看自己的网页有没有在搜索引擎收录呢?直接把相关页面链接放到搜索框查找即可。
2.过滤。
为什么要过滤?自然是为了甄别挑选出更好的东西,犹如海水变成淡水,不过滤就不能喝。对于搜搜引擎而言,也就是把那些高质量能解决用户需求的东西留下来,把那些无效的、虚假的、不能解决用户需求的东西遗弃掉。
过滤掉的页面比如以下几点:
(1).没有任何价值的低质量的页面。
(2).文不对题的页面。
(3).内容丰富度不高的页面,或者空白页面。
(4).不能解决用户需求或问题的页面。
3.索引。
抓取是收集资料,过滤是筛选资料,索引就是对资料整理和排序。索引库是把这些信息按照某些规则进行梳理和存放。
4.展示排序。
当用户在搜索框搜索东西的时候,搜索引擎从索引库里边调用出相关内容,这些内容的排序顺序是尽可能的按照用户的需求来排列,达到解决用户查询的目的。
整个搜索引擎的工作过程,可以类比我们熟知一句名言来理解:博学之,审问之,慎思之,明辨之,笃行之。博学之是采集的过程,审问、慎思、明辨是处理与排序的过程,而笃行就是坚决按照之前学习的结果来执行的过程,也就是搜索之后调用出来排序的过程。
过滤与索引也可以对比5s管理里边的整理和整顿来理解。整理是区别要与不要,只留下需要的东西,是过滤的过程。整顿是按照相关规则进行标识与排序,也就是索引的过程。

版权所有 合肥久润广告传媒有限公司 电话:0551-65956011、65956022 传真:0551-65956033、65956044
Copyright@ jiurunad.com地址:合肥市望江西路535号云掌大厦四楼 网址: www.jiurunad.com 信箱:jiurunad@jiurunad.com