搜索引擎工作原理

  • A+
所属分类:SEO基础知识

了解搜索引擎的工作原理对SEO的优化具有非常重要的指导意义。简单来说,我们可以类比日常购物流程。例如,顾客走进店里,想要买一件商品,首先就会向导购员描述想要购买的商品名称或者描述商品特征,导购员会根据顾客的描述进行最大程度的匹配,而后将符合顾客购买意愿的商品呈现给顾客,如果这件商品满足顾客的需求,那么交易结束。而搜索引擎也类似,当我们想要查找某一信息时,首先在搜索引擎页面上输出相关关键词,搜索引擎根据我们输入的关键词,从数据库中检索,呈现符合关键词特征的结果页面。在这个过程中,关键词就好比商品名称,搜索到的结果好比最终呈现给顾客的商品,而导购员根据描述引导顾客寻找最匹配的商品的过程就是搜索引擎搜索的过程。

搜索引擎工作原理

而实际上,搜索引擎的工作过程及其复杂,为便于大家的理解,我们去繁从简,将搜索引擎的大体工作过程做一下介绍。搜索引擎工作原理主要包括三个阶段:

第一阶段:爬行和抓取。这一阶段主要实现数据的收集。实现爬行和访问页面的程序我们普遍称之为蜘蛛,爬虫(spider),或机器人(bot)。百度的抓取程序我们通常称之为蜘蛛或爬虫,谷歌的抓取程序我们通常称之为机器人。

随着互联网的急速发展,即使是同一个关键词,搜索出来的网页也成千上万,搜索引擎要抓取到互联网上的所有网页几乎是不可能的。从网上公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的40%左右。在抓取网页的过程中,搜索引擎蜘蛛一般采取两种方式:广度优先和深度优先。所谓广度优先,是指会先抓取起始网页中的所有链接,然后选择其中的一个网页链接,再继续抓取此网页中链接的所有网页。简单的说,即先横向搜索一层,让后再逐个纵向搜搜。所谓深度优先,是指蜘蛛从起始页开始,发现链接后不断向前爬行,处理完这条线路之后再返回到第一个页面,沿着新的链接继续不断向前爬行,如此重复。简单理解,即第一层级优先纵向搜索。

第二阶段:预处理。索引程序对抓取来的页面数据进行文字提取,中文分词,去除停止词,消除噪声,去除重复,索引,倒排索引等处理,以备排名程序调用。在整个预处理过程中,索引是最主要的内容。

与前一阶段的爬行和抓取一样,预处理也是搜索引擎提前在后台完成的。在文字提取过程中,搜索引擎主要是提取出可以用于排名处理的页面文字内容,以及一些特殊的包含文字信息的代码。中文分词方法有两种:基于词典匹配的方法和基于统计的方法。实际使用过程中,分词系统是混合使用这两种方法的。去除停止词是指搜索引擎在索引页面之前去掉一些出现频率高,但对内容没有任何影响的词,比如中文“的”、“地”、“得”,英文中的定冠词等。消除噪声是指去除如版权声明文字、导航条等对页面主题没有贡献的区块内容。去除重复,指的是搜索引擎在索引前会识别和删除重复内容,避免用户在搜索时,同时显示重复率过高的文章。经过上述步骤之后,搜索引擎成功筛选出独特的能反映页面主题内容的字符串。而正向索引的过程就是将这些页面记录为一串关键词集合,存储进索引库,体现为文件到关键词的映射。倒排索引即对关键词进行进一步组合,将文件到关键词的映射转换为关键词到文件的映射,使每个关键词对应到一系列的文件。这样每当用户搜索到某个关键词时,搜索引擎可以马上找出所有包含这个关键词的文件。此外,链接关系计算,特殊文件处理,质量判断也都是预处理中的部分。

搜索引擎工作原理

正向索引结构

 

搜索引擎工作原理

倒排索引结构

第三阶段:排名。用户输入查询词后,排名程序调用索引库数据,计算相关性,然后按照一定的格式生成搜索结果页面。

用户在搜索引擎中输入搜索词后,搜索引擎首先会进行搜索词的处理,如中文分词,去停止词,指令处理,拼写错误校正和整合搜索触发。其次,搜索引擎会对经过处理以后的是以词为基础的关键词集合做文件匹配,即找到关键词对应的所有页面。然后,选择页面权重较高的一个子集,对子集中的页面进行相关性计算。最后,搜索引擎进行排名过滤及调整,确定排名后将原始页面的相关数据显示在页面上。

上面我们针对搜索引擎的工作原理做了大致的介绍,相信我们已经有了一个相对清晰的整体认识。但实际搜索引擎的工作步骤与算法是相当复杂的,并不如我们描述中的这么简单明了。另外,不同的搜索引擎的工作步骤可能会有差异,但基本原理大致相同。理解其中的原理,对SEO工作这来说,是不可或缺的。

weinxin
华熙网络
华熙网络微信扫一扫,欢迎大家关注!
华熙网络

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: