如何管理大型网站的抓取配额？

优化您的网站，让谷歌更快地发现和索引您的内容，有助于提高网站的可见度和流量。互联网是一个不断演进的虚拟宇宙，拥有着11亿多个网站。你认为谷歌可以抓取世界上的每个网站吗？虽然谷歌拥有大量资源、资金和数据，但它不能也不想抓取整个网络。

什么是抓取配额？抓取配额重要吗？

抓取配额指的是谷歌爬虫在一个域名中抓取页面所花费的时间和资源量。

优化您的网站非常重要，因为这样谷歌能更快地找到您的内容并对其进行索引，以此提高网站的可见度和流量。

如果您拥有包含数百万个页面的大型网站，那么管理抓取配额尤为重要，这将帮助谷歌更易抓到您网站的重要页面，并更好地理解页面的内容。

谷歌指出：

“如果您的网站没有大量快速变化的页面，或者您的页面在发布当天就被抓取，那么不断更新站点地图并定期检查索引覆盖范围就足够了。谷歌还规定必须对每个页面进行审查、整合和评估，以确定其抓取后的索引位置。

抓取配额主要由两个因素决定：抓取速度限制和抓取需求

抓取需求是指谷歌希望在您的网站上进行抓取的程度。较受欢迎的页面，例如CNN的热门报道和有显著变化的页面，会被抓取得更多。

谷歌爬虫希望在不给您的服务器带来过大负担的情况下抓取网站。为防止这种情况发生，谷歌机器人会计算抓取速度限制，即谷歌爬虫可用于抓取网站的最大并连数，以及抓取之间的时间延迟。

结合抓取速度和抓取需求，谷歌将抓取配额定义为谷歌爬虫可以且希望抓取的URL集合。即使未达到抓取速度限制，在抓取需求较低时，谷歌机器人也会减少对网站的抓取。

以下是管理大中型网站（拥有10,000个URL到数百万个URL）抓取配额的12个建议：

01 确定哪些页面重要，哪些页面不需要被抓取

确定哪些页面重要，哪些页面不值得抓取（谷歌会较少访问不重要的页面）。

通过分析确定这一点后，就可以知道网站上哪些页面值得抓取，哪些页面不值得抓取，并将其排除在抓取范围之外。

例如，Macys.com有200多万个已编入索引的页面。

2023年6月，谷歌搜索 [site:macys.com] 的截图

该网站通过在robots.txt文件中通知谷歌不要抓取站点上的某些页面来管理其抓取配额。谷歌爬虫可能会认为不值得花时间查看网站的其他部分或增加抓取配额。因此要确保通过robots.txt文件阻止分面导航和会话标识符的访问。

02 管理重复内容

虽然谷歌不会对重复内容进行处罚，但您还是希望向谷歌提供原创和独特的信息，以满足终端用户的搜索需求，并使其具有相关性和实用性。确保有使用robots.txt文件。

谷歌建议不要使用noindex标签，因为谷歌仍会请求但随后会放弃。

03 使用robots.txt文件阻止抓取不重要的URL，并告诉谷歌可以抓取哪些页面

对于拥有数百万个页面的企业级网站，谷歌建议使用robots.txt文件来阻止抓取不重要的URL。

此外，您还要确保谷歌机器人和其他搜索引擎可以抓取您的重要页面、包含重要内容的目录以及关键页面。

04 长重定向链

如果可能的话，请保持较少数量的重定向。过多的重定向或循环重定向可能会使谷歌产生困惑，并降低抓取限制。

谷歌指出，长重定向链可能会对抓取产生负面影响。

05 使用HTML

使用HTML可以增加任何搜索引擎爬虫访问您网站的几率。

虽然谷歌机器人在抓取和索引JavaScript方面已经有所改进，但其他搜索引擎爬虫并不像谷歌那样复杂，因此可能会在HTML以外的其他语言方面出现问题。

06 确保页面加载迅速，提供良好的用户体验

确保您的网站对网站核心指标（Core Web Vitals）进行了优化。

您的内容加载速度越快（即三秒以内），谷歌就能越快地向终端用户提供信息。如果用户喜欢您的网站，谷歌将继续索引您的内容，因为您的网站显示出良好的谷歌抓取健康状况，也可能会因此增加您的抓取配额。

07 确保内容有用

谷歌认为，内容是根据质量而非页面新旧评估的。必要时需要创建和更新内容，但通过微小的改动和更新页面日期来人为地让页面看起来更新并没有额外的价值。

如果您的内容满足终端用户的需求，那么新旧并不重要，只要它有帮助且相关即可。

如果用户认为您的内容没有帮助且无关，那么建议您更新和刷新内容，使其更新、相关且有用，并通过社交媒体进行推广。

此外，在主页增加链接到您的页面，这样可能增加重要性，被抓取的次数也会更多。

08 注意抓取错误

如果您删除了网站上的某些页面，请确保URL返回404或410状态，表示永久删除。404状态码表明将不再抓取该URL。

不过，被阻止的URL会在抓取队列中保留更长时间，并且将在阻止解除后被重新抓取。

此外，谷歌还规定要移除所有软404页面，这些页面将继续被抓取，浪费您的抓取配额。如要测试这一点，可以进入谷歌GSC并查看索引覆盖率报告，查找软404错误。

如果您的网站存在许多5xx HTTP响应状态码（服务器错误）或连接超时信号，抓取速度就会变慢。谷歌建议您密切关注搜索控制台中的抓取统计报告，并尽量减少服务器错误的数量。

另外，谷歌不会遵守非标准的“抓取延迟”robots.txt规则。

即使您使用了nofollow标签，但如果您网站上的其他页面或者任何其他页面未将该链接标记为nofollow，那么该页面仍可能被抓取，从而浪费抓取配额。

09 及时更新站点地图

XML站点地图对于帮助谷歌发现您的内容并加快抓取速度非常重要。

以下几点至关重要：保持站点地图URL的更新，使用<lastmod>标签标记已更新的内容，以及遵循SEO最佳实践，包括但不限于以下几点：

仅包含您希望被搜索引擎索引的URL。

仅包含返回200状态码的URL。

确保单个站点地图文件不超过50MB或少于50,000个URL。如果决定使用多个站点地图，请创建一个索引站点地图，列出所有站点地图。

确保您的站点地图采用UTF-8编码。

包含指向每个URL的本地化版本链接。

及时更新站点地图，即每当有新的URL，或者旧的URL已更新或删除时，都要更新您的站点地图。

10 建立良好的网络架构

拥有良好的网站架构对于SEO排名和索引以及用户体验至关重要。

网站架构可以在多方面影响搜索引擎结果页面（SERP）的结果，包括抓取能力、点击率和用户体验。

拥有清晰的网站架构可以有效利用抓取配额，从而帮助谷歌机器人找到任何新的或已更新的内容。

请始终牢记三次点击规则，即任何用户最多点击三次即可从网站上的任何页面跳转到另一个页面。

11 内部链接

网站越容易被搜素引擎抓取和浏览，抓取工具就越容易识别您的网站结构、上下文和重要内容。

建立指向某个页面的内部链接可以让谷歌知道该页面的重要性，有助于建立特定网站的信息层次结构，并有助于在整个网站中传播链接权益。

12 时刻监控抓取统计数据

始终查看和监控GSC，以了解网站在抓取过程中是否存在任何问题，并寻找提高抓取效率的方法。

您可以使用抓取统计报告来查看谷歌机器人在抓取您的网站时是否遇到任何问题。

如果GSC报告了您网站的可用性错误或警告，请在主机可用性图表中查找谷歌爬虫请求超过红色限制线的情况，点击进入图表查看哪些URL存在问题，并尝试将其与您网站上的问题联系起来。

此外，您还可以使用URL Inspector工具来随机测试网站上的几个URL。

如果URL检测工具返回主机负载警告，这就意味着谷歌爬虫无法从您的网站中抓取到它所发现的多个URL。

总结

由于大型网站规模庞大、结构复杂，因此抓取配额优化对于大型网站来说至关重要。

由于页面和动态内容众多，搜索引擎爬虫在高效抓取和索引网站内容方面面临挑战。

通过优化抓取配额，网站所有者可以优先抓取重要和更新的页面并编制索引，确保搜索引擎合理有效地利用资源。

这一优化过程包括改进网站架构、管理URL参数、设置抓取优先级和消除重复内容等技术，从而提高搜索引擎的可见度，改善用户体验，增加大型网站的有机流量。

原文链接：

https://www.searchenginejournal.com/crawl-budget-for-large-sites/

来源公众号：CrossBorderDigital（ID：CrossBorderDigitalSZ）谷歌数字整合营销专家，专注于跨境数字营销全案。

本文由奇赞合作媒体 @Cross Border Digital 发布，未经许可，禁止转载、采集。

该文观点仅代表作者本人，奇赞平台仅提供信息存储空间服务。