独立站运营人需了解的Google搜索引擎工作原理

奇赞

2022.12.20

阅读 2228

实际上Google搜索引擎技术的工作过程是非常复杂的，我在这里简单介绍下Google搜索引擎是怎样实现网页在SERP排名的，帮助做独立站SEO及从事互联网的朋友理解。

Google搜索引擎原理，最重要的三步:

一：蜘蛛爬行&抓取

爬行和抓取是Google搜索引擎工作的第一步，完成对网络上存在的网站页面数据的采集任务。Google官方解释是 —— “抓取” 是指Google 使用称为抓取工具的自动化程序从其在互联网上找到的页面下载文本、图像和视频。

执行抓取的程序称为Googlebot （也称为机器人或蜘蛛）。Googlebot 使用算法过程来确定要抓取哪些网站、抓取频率以及从每个网站抓取多少页面。

Googlebot 会遵循Robots.txt文件中的协议，某些页面可能被网站所有者禁止抓取，蜘蛛就不会抓取。比如无法在不登录状访问的页面（如购物车页、结账页等）、重复页面等（如许多网站都可以通过域名的 www（www.domain.com)和非 www(domain.com) 版本访问）

（某网站的Robots.txt文件）

Google可以通过对已知的页面实行深度和广度的遍历策略，去跟踪发现新页面和新内容，比如博客文章内发现产品链接（Inboud Links）等。

或者通过站长提交站点地图（Sitemap）到GSC（Google Search Console）， Google 会参考Sitemap进行抓取，这也会发现到其他页面。

Googlebot抓取还会涉及其他知识方面：

预处理就是分析及处理抓取的网站数据内容；收录就是搜索引擎把页面存储到数据库的结果，也叫索引（Index）。

Google 的官方解释是—— “抓取页面后，Google 会尝试分析该页面的内容。这个阶段称为索引，它包括处理和分析文本内容和关键内容标签和属性，例如meta title、meta description、alt 属性、图像、视频等。”

Google会对抓取的原内容经过文字提取、分词、消噪、去重等后，得到独特、反映页面主要内容的、以词为单位的字符串。接下来就是搜索引擎索引程序就可以提取文件中的关键词，将URLs页面转换成一个关键词的集合。如下方所示:

（正向索引示例）

接下来，搜索引擎会将正向索引数据库重新构造成为倒排索引，把URLs（或理解为URLs中内容文件）对应到关键词的映射关系转换为：关键词到URLs的映射。

在下面的倒排索引中，关键词是主键，每个关键词都对应着一些类文件或URLs，这些文件中都出现了这个关键词。这些数据会在下一阶段提供排名搜索结果中使用到。

（倒排索引示例）

Google收录还会涉及其他知识方面：

在上一步GoogleBot收录了你的内容到Google 自己的搜索引擎数据库，收录了不代表立马有排名，Google对于新网站有个考察期，考察期内网站内容更新节奏比较稳定，没有恶意垃圾外链操作，Google开始慢慢放开给你排名。

当用户输入查询时，Google搜索引擎会在索引中搜索匹配页面，并返回Google认为质量最高且与用户最相关的结果。

这个过程就会用到第二点索引部分提到的倒排索引，使得文件匹配能够快速完成。