在前文“Technical SEO: 如何处理Google索引网页的相关问题?”中,我们介绍了GSC中“网页未被编入索引的原因列表”中索引相关的问题及解决方法。事实上,我们都清楚,搜索引擎的工作流程并不是从索引开始的,而是从抓取网页及相关内容开始的。
本文主要介绍GoogleBot的抓取,及抓取预算等相关概念,以及掌握这些技能对我们网站SEO的好处。让我们开始吧!
什么是Googlebot,以及Googlebot是如何抓取网页的?
Googlebot是Google用于爬取浩瀚网络中各个网页的一种程序,也叫网络爬虫。事实上,从1993年搜索引擎第一次使用网络爬虫到现在已经走过32年历程。在这30多年中,各大搜索引擎轮番进入大众视野,搜索引擎的运行机制也更加完善,但基本的工作原理却没有大的变化,主要是抓取,索引和排名。
我们所创建的页面对于Google来说是陌生的,它并不知道这些页面的存在,除非Googlebot抓取了我们的URL。Google会根据我们页面的内容、图片、视频等识别URL是新页面,还是已知页面。Google也会从页面上的URL去爬取另一个页面。但是,这样的爬取操作并不是无尽的。
图片来源于raddinteractive
网络爬虫使用算法来确定要抓取的网站、抓取频率以及要从每个网站抓取的网页数量,而Googlebot在我们网站上抓取的最大网页数和时间就叫抓取预算(Crawl Budget)。它由抓取需求(即搜索引擎希望在我们的网站上抓取多少页面)和抓取速率(即它们可以抓取的速度)组成。
懂得搜索引擎工作原理是作为一名SEO的入门课程,这里我们就不详细介绍了。文末有贴Google官方的链接,想学习的可以去阅读,标题是:In-depth guide to how Google Search works。
这里需要提一下,越多的抓取并不意味着我们排名就越好,但是如果我们的页面不被抓取,就很难索引和排名了。
我们的网站是否需要关注抓取预算?
并不是所有网站都需要关注抓取预算,如果我们是以下类型的网站,那么,我们就需要关注网站的抓取预算了:
1.内容更新频率适中的大型网站(周更,100万级别的唯一页面);
2.内容更新很频繁的中型及大型网站(日更,1万+的唯一页面);
3.网站中大多页面被归类为“已发现 – 尚未编入索引”;
4.你的网站属于新闻站或者新建站;
5.你最近刚发布了数百个甚至数千的新页面,这些新页面需要有足够的抓取预算才能快速索引;
6.网站存在大量重定向消耗抓取预算;
7.大型电商站,通常会受到抓取预算的负面影响。
如果我们的网站是以上情况之一、或者若干,如果你有很多页面没有按照你想要的频率被抓取或更新,那么你可能想考虑加快抓取速度。我们先看看如何查看网站的抓取预算。
如何查看自己网站的抓取预算?
GSC的“设置”->“抓取统计信息”里向我们提供了Google的抓取报告。如下图
图片来源于Ahrefs
这个报告向我们展示了过去两个月Googlebot的抓取情况,包括响应情况、文件类型、目的和Googlebot类型,点击可以查看相关链接。当然,如果你想查看更长时间和更多内容,可以通过工具访问日志文件。
Google如何为网站分配抓取预算?
抓取预算本质上是 Google 愿意花费在抓取你的网站上的时间和资源,每个网站都有不同的抓取预算。
抓取预算 = 抓取需求 + 抓取速率
抓取需求就是Google希望在你的网站上抓取多少页面。越热门的页面、有重大变化的页面或链接越多的页面越容易被Googlebot抓取。热门URL的抓取需求更高是因为Google希望为用户提供最新的内容。如果你的网站正在搬迁,Google也会增加抓取需求,使你的新URL更快地更新索引。Google根据各种标准判断网络上所有页面的抓取优先级。
抓取速率是Googlebot可以在你网站上抓取的速度,由于服务器性能稳定性和网站加载速度等原因的限制,抓取速率也会受到限制。理论上来说,抓取速率越高,抓取预算越高,但由于网站本身因素的限制,如果抓取速率太高,将会导致网站无法正常访问,得不偿失。
尽管如此,我们还是可以有针对性地进行抓取预算优化。
如何优化抓取预算?
1、统筹整站页面情况,筛选网站中所有高价值页面。高价值页面是需要参与排名转化的页面。我们要做的是让这些高价值页面快速抓取索引、并优化排名。
A、 对于一些非必要页面是不需要排名的(比如电商站的用户登录页面、购物车页面、结账页面等)。可以设置noindex nofollow,防止Google抓取收录;优化站点地图(将站点地图拆分成更小的站点地图),删除不需要收录的url。
B、 对于高价值页面、转化高和排名好的页面着重优化:首页链接;优化站点地图,让这些页面url更靠前;
C、 优化或者删除性能不佳页面。删除没有获得过任何自然流量的页面以及重复、低质页面,并将它们重定向到你网站上其他相关且确实获得流量的页面,优化页面内容质量。请注意,重定向会占用你的一些抓取预算,因此请尽量谨慎使用它们,切勿连续使用它们两次。
D、 优化内链结构。网站中的页面如何相互链接在抓取预算优化中起着重要作用。在高价值页面上进一步进行内链结构优化。优化失效链接;为那些高流量低权重的页面设置更多内链;对于那些内链很多,流量不行的页面,可以将链接链接到其他页面。确保你最重要的页面有大量的内部链接。
2、优化外链结构。Google抓取的页面数量大致与网站权重成正比。我们网站的外链越多,越容易被抓取。
3、优化服务器性能和网站性能
服务器响应时间和页面加载速度直接影响抓取。服务器和网站性能优化主要包括:A、 定期关注服务器运行情况,条件允许的情况下,可以单独购买使用服务器,而不是选择托管等;使用CDN来缩短服务器响应时间;B、 选用轻量主题,合理范围内尽量减少插件的使用;使用robots.txt减少Googlebot对大型非关键内容的爬取;C、 优化图片、视频、CSS、JS等资源;D、 控制重定向链接数量。
另外
这里需要提一下,谷歌的抓取速率设置工具已经在年初停用。
如果我们遇到Googlebot大量抓取页面导致服务器返回5xx错误,自己又无法通过技术解决此类问题,可以向Google提交特殊请求(链接在文末)。
文中所述链接如下:
Large site owner’s guide to managing your crawl budget
https://developers.google.com/search/docs/crawling-indexing/large-site-managing-crawl-budget
What Crawl Budget Means for Googlebot
https://developers.google.com/search/blog/2017/01/what-crawl-budget-means-for-googlebot
Crawl Stats report
https://support.google.com/webmasters/answer/9679690?hl=en
报告过度抓取问题
https://search.google.com/search-console/googlebot-report
Upcoming deprecation of Crawl Rate Limiter Tool in Search Console
https://developers.google.com/search/blog/2023/11/sc-crawl-limiter-byebye?utm_source=wmx&utm_medium=deprecation-pane&utm_content=settings
In-depth guide to how Google Search works。
https://developers.google.com/search/docs/fundamentals/how-search-works
来源公众号: SINE独立站品牌运营(ID:Tiny_Sine)专注海外线上市场品牌运营分享。
本文由 @SINE独立站品牌运营 原创发布于奇赞平台,未经许可,禁止转载、采集。
该文观点仅代表作者本人,奇赞平台仅提供信息存储空间服务。