为什么你的网站排名一直上不去?可能是抓取预算不够!

Google SEO:什么是抓取预算?以及如何进行优化实践(附详细操作步骤)

在前文“Technical SEO: 如何处理Google索引网页的相关问题?”中,我们介绍了GSC中“网页未被编入索引的原因列表”中索引相关的问题及解决方法。事实上,我们都清楚,搜索引擎的工作流程并不是从索引开始的,而是从抓取网页及相关内容开始的。

本文主要介绍GoogleBot的抓取,及抓取预算等相关概念,以及掌握这些技能对我们网站SEO的好处。让我们开始吧!

什么是Googlebot,以及Googlebot是如何抓取网页的?

Googlebot是Google用于爬取浩瀚网络中各个网页的一种程序,也叫网络爬虫。事实上,从1993年搜索引擎第一次使用网络爬虫到现在已经走过32年历程。在这30多年中,各大搜索引擎轮番进入大众视野,搜索引擎的运行机制也更加完善,但基本的工作原理却没有大的变化,主要是抓取,索引和排名。

我们所创建的页面对于Google来说是陌生的,它并不知道这些页面的存在,除非Googlebot抓取了我们的URL。Google会根据我们页面的内容、图片、视频等识别URL是新页面,还是已知页面。Google也会从页面上的URL去爬取另一个页面。但是,这样的爬取操作并不是无尽的。

为什么你的网站排名一直上不去?可能是抓取预算不够!

图片来源于raddinteractive

网络爬虫使用算法来确定要抓取的网站、抓取频率以及要从每个网站抓取的网页数量,而Googlebot在我们网站上抓取的最大网页数和时间就叫抓取预算(Crawl Budget)。它由抓取需求(即搜索引擎希望在我们的网站上抓取多少页面)和抓取速率(即它们可以抓取的速度)组成。

懂得搜索引擎工作原理是作为一名SEO的入门课程,这里我们就不详细介绍了。文末有贴Google官方的链接,想学习的可以去阅读,标题是:In-depth guide to how Google Search works。

这里需要提一下,越多的抓取并不意味着我们排名就越好,但是如果我们的页面不被抓取,就很难索引和排名了。

我们的网站是否需要关注抓取预算?

并不是所有网站都需要关注抓取预算,如果我们是以下类型的网站,那么,我们就需要关注网站的抓取预算了:

1.内容更新频率适中的大型网站(周更,100万级别的唯一页面);

2.内容更新很频繁的中型及大型网站(日更,1万+的唯一页面);

3.网站中大多页面被归类为“已发现 – 尚未编入索引”;

4.你的网站属于新闻站或者新建站;

5.你最近刚发布了数百个甚至数千的新页面,这些新页面需要有足够的抓取预算才能快速索引;

6.网站存在大量重定向消耗抓取预算;

7.大型电商站,通常会受到抓取预算的负面影响。

如果我们的网站是以上情况之一、或者若干,如果你有很多页面没有按照你想要的频率被抓取或更新,那么你可能想考虑加快抓取速度。我们先看看如何查看网站的抓取预算。

如何查看自己网站的抓取预算?

GSC的“设置”->“抓取统计信息”里向我们提供了Google的抓取报告。如下图

为什么你的网站排名一直上不去?可能是抓取预算不够!    图片来源于Ahrefs

这个报告向我们展示了过去两个月Googlebot的抓取情况,包括响应情况、文件类型、目的和Googlebot类型,点击可以查看相关链接。当然,如果你想查看更长时间和更多内容,可以通过工具访问日志文件。

Google如何为网站分配抓取预算?

抓取预算本质上是 Google 愿意花费在抓取你的网站上的时间和资源,每个网站都有不同的抓取预算。

抓取预算 = 抓取需求 + 抓取速率

抓取需求就是Google希望在你的网站上抓取多少页面。越热门的页面、有重大变化的页面或链接越多的页面越容易被Googlebot抓取。热门URL的抓取需求更高是因为Google希望为用户提供最新的内容。如果你的网站正在搬迁,Google也会增加抓取需求,使你的新URL更快地更新索引。Google根据各种标准判断网络上所有页面的抓取优先级。

抓取速率是Googlebot可以在你网站上抓取的速度,由于服务器性能稳定性和网站加载速度等原因的限制,抓取速率也会受到限制。理论上来说,抓取速率越高,抓取预算越高,但由于网站本身因素的限制,如果抓取速率太高,将会导致网站无法正常访问,得不偿失。

尽管如此,我们还是可以有针对性地进行抓取预算优化。

如何优化抓取预算?

1、统筹整站页面情况,筛选网站中所有高价值页面。高价值页面是需要参与排名转化的页面。我们要做的是让这些高价值页面快速抓取索引、并优化排名。

A、 对于一些非必要页面是不需要排名的(比如电商站的用户登录页面、购物车页面、结账页面等)。可以设置noindex nofollow,防止Google抓取收录;优化站点地图(将站点地图拆分成更小的站点地图),删除不需要收录的url。

B、 对于高价值页面、转化高和排名好的页面着重优化:首页链接;优化站点地图,让这些页面url更靠前;

C、 优化或者删除性能不佳页面。删除没有获得过任何自然流量的页面以及重复、低质页面,并将它们重定向到你网站上其他相关且确实获得流量的页面,优化页面内容质量。请注意,重定向会占用你的一些抓取预算,因此请尽量谨慎使用它们,切勿连续使用它们两次。

D、 优化内链结构。网站中的页面如何相互链接在抓取预算优化中起着重要作用。在高价值页面上进一步进行内链结构优化。优化失效链接;为那些高流量低权重的页面设置更多内链;对于那些内链很多,流量不行的页面,可以将链接链接到其他页面。确保你最重要的页面有大量的内部链接。

2、优化外链结构。Google抓取的页面数量大致与网站权重成正比。我们网站的外链越多,越容易被抓取。

3、优化服务器性能和网站性能

服务器响应时间和页面加载速度直接影响抓取。服务器和网站性能优化主要包括:A、 定期关注服务器运行情况,条件允许的情况下,可以单独购买使用服务器,而不是选择托管等;使用CDN来缩短服务器响应时间;B、 选用轻量主题,合理范围内尽量减少插件的使用;使用robots.txt减少Googlebot对大型非关键内容的爬取;C、 优化图片、视频、CSS、JS等资源;D、 控制重定向链接数量。

另外

这里需要提一下,谷歌的抓取速率设置工具已经在年初停用。

为什么你的网站排名一直上不去?可能是抓取预算不够!

如果我们遇到Googlebot大量抓取页面导致服务器返回5xx错误,自己又无法通过技术解决此类问题,可以向Google提交特殊请求(链接在文末)。

文中所述链接如下:

Large site owner’s guide to managing your crawl budget

https://developers.google.com/search/docs/crawling-indexing/large-site-managing-crawl-budget

What Crawl Budget Means for Googlebot

https://developers.google.com/search/blog/2017/01/what-crawl-budget-means-for-googlebot

Crawl Stats report

https://support.google.com/webmasters/answer/9679690?hl=en

报告过度抓取问题

https://search.google.com/search-console/googlebot-report

Upcoming deprecation of Crawl Rate Limiter Tool in Search Console

https://developers.google.com/search/blog/2023/11/sc-crawl-limiter-byebye?utm_source=wmx&utm_medium=deprecation-pane&utm_content=settings

In-depth guide to how Google Search works。

https://developers.google.com/search/docs/fundamentals/how-search-works

来源公众号: SINE独立站品牌运营(ID:Tiny_Sine)专注海外线上市场品牌运营分享。

本文由 @SINE独立站品牌运营 原创发布于奇赞平台,未经许可,禁止转载、采集。

该文观点仅代表作者本人,奇赞平台仅提供信息存储空间服务。

(0)

为你推荐

发表回复

登录后才能评论
李坤锦
公众号
视频号
小程序