谷歌SEO的抓取与收录是怎样的？如何避免它们出问题？

Kenyth 2024.08.12

阅读 878

抓取（Crawl）与收录（Index）是SEO领域里面非常非常基本的两个观念，是在学习SEO之前一定要理解的基本观念。但这两个概念都非常大，只通过一篇文章可能没有办法完全讲完，因此这篇文章我们只会针对基础的概念先进行解说，下面就直接进入正文吧~

1.谷歌SEO的“抓取”和“收录”是什么意思？

2.为什么理解“抓取”和“收录”对学习谷歌SEO很重要？

3.如何确定“抓取”或“收录”状况是否有问题？

4.在谷歌SEO上要如何避免“抓取”以及“收录”出问题？

谷歌SEO的“抓取”和“收录”是什么意思？

网络爬虫这个说法比较抽象，谷歌官方一般把它叫做Google Spider、Google Bot，你可以把整个世界的网络想象为一个巨大蜘蛛网，而搜索引擎本身有属于它的一只爬虫程序，这个程序会像蜘蛛一样在这巨大的网络上爬行，并在爬行的同时收集信息。

在做SEO工作的时候，维持搜索引擎爬虫与网站之间良好的关系是非常重要的，我们必须要尽量让它能够完整爬取你网站上的优质内容，否则会对你的网站 SEO 有影响（后面都会说到的），而搜索引擎运作原理我们可以简单分为四个阶段：

阶段1 – 抓取 Crawl（爬取）：搜索引擎的爬虫来你的网站上爬取、下载网站资料的这个动作我们叫做抓取，在谷歌官方的文件上一般被译为“抓取”，但业内也会把这个过程叫做爬取。在这个阶段谷歌的爬虫会在你的网站上爬取所有能爬到的资料，包含你的网页内容、程序代码、图片等所有的网页信息。

阶段2 – 索引 Index（收录）：将你的网页资料收录、建档到搜索引擎里面的这个动作我们叫做索引（通俗一点来说就是收录的意思）。但你的网站就算被收录到搜索引擎里面也不代表你会得到很可观的搜索流量，因为谷歌也许愿意收录你的网站，但未必愿意给你的网站很好的搜索排名。（取决于你的网站是否是一个优质的网站、是否有被很好的优化，否则就算收录了，也不一定能够经常被搜索到。）

很多人以为网站没有搜索流量就代表没有被谷歌收录，其实这观念是不对的，“是否有被收录”和“是否有排名有流量”这其实是两件事。但至少被谷歌收录进搜索引擎是迈向成功的第一步，因为如果谷歌连收录你的网站都不愿意，那更不用谈搜索流量以及 SEO 了。

阶段3 – 分析搜索意图：谷歌会透过算法来了解用户搜索的“关键字”是什么意思？用户的搜索意图到底是什么？

阶段4 – 曝光在搜索结果：当用户在查询关键字时，你的网站可能会被谷歌提供给他，而你的品牌也会因此获得搜索流量（但这取决于你的网站是否是一个优质的网站、是否有做 SEO）。

为什么理解“抓取”和“收录”对学习谷歌SEO很重要？

而我们在学习SEO时，会碰到很多网络上的文章主题都是环绕在所谓的“排名因素”，也就是你的网站该怎么做，才能被谷歌排在较前的位置。

但当我们根据这些文章说的去自己运营的网站实操的时候，所要面临的问题就不只有“排名因素”相关的了。网站的结构、网站所属的行业、所处的市场环境，这些也都会最终结果产生影响，单靠优化“排名因素”相关就不太够了。

而这一切的前提都是谷歌能够准确全面地爬取你网站的资料，如果谷歌连爬取都不能很好地完成，那优化得再好也没用。因为谷歌爬虫根本看不到你网站里面的资料，所以你要了解搜索引擎的爬虫到底是怎么爬取资料，然后又是怎么收录网站的。

举例来说的话就是，我们经常能看到有很多网站都用动态式的瀑布流形式展示网站内容，在你进入网站时会看到四个文章链接，接着你鼠标向下滚动时，程序则会触发并出现后面四个(简单来说就像是Meta现在的做法，俗称瀑布流)。

一般这种情况，谷歌爬虫只会爬取到一开始的前面几则文章而已，因为网络爬虫不会像真实用户一样去往下滚动、并触发瀑布流。在这种情况下，谷歌爬虫能看到的网页信息就很少了，当然就会影响到你的SEO啦。（这点请务必谨记：不管你的网站再棒、再好，只要谷歌爬虫看不到，那么根本没有意义）

因此作为SEOer，研究、了解爬虫的效能是很重要的，我们必须要了解搜索引擎的爬虫有哪些效能限制、哪些网页技术是爬虫无法好好地爬取（像瀑布流就是大多情况没办法被搜索爬虫很有效的爬到资料），而不同搜索引擎，他们爬虫的效能也是各有不同，所以如果你还想做除了谷歌以外，其他搜索引擎的SEO，记得也要花时间去研究一下哦~

如何确定“抓取”或“收录”状况是否有问题？

其实这是个很大的问题，能聊的方面非常多，这篇文章里我们先讲一些基础的。有关收录的更详细内容，大家可以看下这篇文章：《如何查询网页的谷歌收录？收录很差如何改善？》

首先，大部分情况下，只要你的网站被谷歌很健康的“爬取”了，收录就不太会有问题。而如果谷歌抓取了你的网站却没有收录，那就表示你的网站可能在用违规或作弊的方法做SEO，从而收到了谷歌的惩罚。

那么，要如何检查谷歌是否准确完整地爬取你的网站呢？常见的方法之一就是透过Search Console的报表（如下图）。

从Search Console的“设置>抓取统计信息”中，可以看到每日抓取的网页数目，这个图表可以清晰展现出谷歌每天来爬你网站的时候，都爬了多少个网页，一般图表会在一个区间范围内波动。大多数情况下，谷歌每天来爬多少网页取决于三件事情：

你的网站在市场上有多重要、网站的SEO权重有多高（也就是所谓的 Crawl Budget）
你的网站架构是否有使用不利于爬虫的技术，导致爬虫不容易爬到资料
你是否有主动阻挡谷歌爬你的网站，比如meta robots、robots.txt

还有一个要注意的是，如果谷歌爬取你网页的数量与你网站页面总数相差太大的话，对SEO也是不太好的，比方说你的网站共有 8,000 个网页，但谷歌每天只来爬取50 页~100 页左右，这就不太行了，500~1,000 之间才比较正常。

那“收录”呢？要如何检查谷歌是否有效地收录我们的网站呢？

你可以从Search Console的网页索引编制中，查看谷歌已收录的网页数量，下面也会完整列出哪些网页没被收录、以及发生的原因。

在谷歌SEO上要如何避免“抓取”和“收录”出问题？

排除掉违规、作弊行为而导致谷歌不愿意好好处理你的网站，我们可以从下面这几点注意优化：

1.尽量不要对谷歌过度使用不友善的 AJAX，尤其在重要的网页或内容上面

虽然说谷歌近年来宣称，搜索引擎现在已经能够满有效的解析 JavaScript、AJAX 技术，但实际上还是有很多网站的 JavaScript、AJAX 没办法被谷歌很有效的解析（前面提到的瀑布流就是 AJAX 的一种应用）。

因此，要尽可能避免在导航栏、面包屑、网站侧边栏、商品/文章列表这些重要的地方使用 JavaScript 以及 AJAX。

2.尽可能把“网站速度”优化好

根据谷歌官方的说明，谷歌针对每一个网站有所谓的“爬取额度（Crawl Budget）”，也就是说他在爬你的网站时只会给予你一定的时间额度，因此你必须要尽可能的优化网站速度，让爬虫在固定的时间内可以爬到尽可能多的网站，而这个爬取的额度会根据你的网站在市场上的重要性、以及SEO的网站权重而定。

举例来说，谷歌决定每天给你网站10分钟的额度，那么他每天就只会用10分钟来爬取你的网站，时间一到它就会自动离开。因此，如果你的网站速度优化得够好，可以帮助他在同样的 10 分钟内爬完你的网页，简单粗暴的举例如下：

当你的网站速度很慢时，他10分钟只能爬完100个网页。
当你的网站速度够快时，他可以在10分钟内爬完500个页面。

3.避免重复内容发生

重复内容、或者是关键词蚕食问题要尽量避免（尤其是因为网址参数而产生的重复内容），重复内容会让爬虫要去爬更多无效的网页。简单来说，如果你的网页总共 500 页，但你有很严重的重复内容问题而导致网页膨胀到了 1,200 页，那么当中有 700 页的网页会浪费掉爬虫的爬取额度，毕竟爬虫每天能爬的网页是很有限的。

4.最基础的网页问题以及SEO问题必须要避免

如果你有很多404的网页，或是网站上有很多不必要的内容，可能都会影响爬虫爬你网站的效能以及额度，因此在经营网站时一些最基础的事情你必须要尽量避免，像是：