熟悉搜索引擎工作原理的都知道,索引页面是排名的必要条件,你的页面只有被搜索引擎索引以后,才有可能进一步参与排名。在搜索引擎索引的过程中会遇到很多问题,本篇文章将以Google为例,介绍搜索引擎索引的相关问题及解决方法。文章较长,建议收藏一下。
背景
本文主要是基于已经添加GSC验证的网站的“编制索引”板块的相关索引问题进行展开。
如上图,在我们查看GSC的“网页”板块时,会发现很多网页未被编入索引的原因,这些原因以表格的形式展示,当你点击某个原因时,会跳转到相关问题url列表。
我们首先要说一下,这里只是列出了我们页面未被索引的原因,并不是说我们要处理列表里的所有原因,例如:
1,已经处理过,但是Google还没来得及再次索引的页面;
2,根据网站或者公司发展,经过技术特意排除索引的页面;
3,由于安装某些插件而产生的Noindex页面,而这些页面是否index不是基于设置,而是基于其他原因的;
以上这些问题实际上已经不是技术SEO所涉及的范畴,我们需要做的只能是按部就班的工作以及等待。
此外,原因列表里的“来源”字段标记了产生问题的来源,作为技术,我们主要需要解决的是“网站”来源导致的noindex问题。
下面我们开始一个个讲解各个问题及解决方法,如果大家想找特定问题的解决方法,可以快速滑到相关问题。
被“noindex”标记排除了
如果你的“网页未被索引的原因”类别里有这个条目,那么谷歌会给你提供一个帮助文档指导你如何操作。如下图,点击“了解详情”可以查看谷歌帮助文档。
另外,GSC为每个url提供了测试的入口,以及不被编入索引的原因。你可以在位于GSC上方的网址检查里直接输入网址进行查看,如下图,
也可以点击示例列表里的单个url,点击“检查网址”就会出现如下图结果,
一旦你确定了问题原因并付诸解决,就可以点击“验证修正情况”进行验证。
事实上,出现noindex标记的原因有很多,谷歌帮助文档里只是指导我们找到了页面的noindex标记,但需要我们进一步去查验具体原因。包括:
1,公司出于某种特定原因故意noindex掉的,这种是不需要我们处理的;
2,由于插件的使用不当而产生的,这里就需要你去寻踪,看到底是哪里设置的问题;
3,Robots.txt的错误配置使得页面被noindex掉,检查robots.txt页面进行修正;
4,JS实施不当,检查JS文件
未找到 (404)
404页面通常是由于之前的页面被删除而产生的,但也可能是你建站时存在的url设置或者拼写错误,还有可能是用户在访问时产生的错误url导致的。如下图,我们可以去谷歌文档查看原因。
解决方法:
1,对于删除页面而产生的404页面,需要我们去查找一下是否有来到这个页面的内链和外链,如果有的话,可以修改这些链接到新页面,或者将404页面做301跳转;
2,如果是url设置或者拼写错误的原因,需要找到具体的页面,进行修改;
3,对于用户访问时产生的404页面,建议在建站时尽量制作一个用户友好的页面,使这些用户可以去到想去的页面,而不是流失掉。
服务器错误 (5xx)
HTTP 500错误很多时候是服务器有问题,而不是网站、网络等有问题,这种情况下,你需要和服务商联系询问某个时段的网络情况。
如何确定这个时段呢?
你可以点击url列表里的某个url,进行“检查网址”查看上次抓取时间,如下图,
你需要询问谷歌抓取时间的前后几分钟是否出现过服务器问题。另外,并不是所有500错误页面都是由于服务器问题产生的,以下几个原因也可能网页导致500错误:
1,.htaccess文件损坏或者某些特定配置也会导致网页访问发生500错误;
2,权限问题,有可能网站管理员设置了页面访问权限,你被排除在外;
3,PHP响应超时,数据库无法正常连接,导致500错误页面产生;
4,如果你使用的是Wordpress这类的CMS系统,也可能是你的主题或者插件出了问题,可以尝试更换升级主题或者停用插件来解决这个问题;
5,网站流量高并发,流量高峰期服务器无法即时响应也会导致500错误,这时就需要你考虑扩容升级服务器,或者更换服务器了。
网页会自动重定向和备用网页(有适当的规范标记)
“网页会自动重定向”和“备用网页”这两个导致未被索引的原因我归到了一类中,是因为如果是这两种原因导致的不被索引,你只需要查看是否有声明规范网址,如果谷歌给你的结果是已经有规范网址。并且“检查”已经收录规范网址,那么这里就不需要对网站本身进行修改了。
比如我这里的url有规范网址,并且“检查”显示已经编入索引,那么就可以了。
另外, 要记得定期检查是否有重复页面,如果存在重复页面,一定要做好规范化,以防时间太久,出现太多相似页面导致关键词蚕食以及无法做好权重分配和集中。
这里需要说一下备用网页和重复网页的区别:
如果谷歌发现同一个网站上有多个网址显示的内容基本相同,就会将这些网址视为重复内容,比如一些toC站通过不同的筛选方式会出现相同结果列表的页面,这些页面就属于重复页面。对于这些重复页面,你需要设置规范网址,非规范网址一般不会参与排名,除非这个非规范页面是备用页面。
当谷歌发现某个页面适配特定设备(比如手机等移动设备)时,或者被标记为同一网页的其他语言版本的类似网址时,可能会将这些网址标记为针对相应设备类型或语言的备用网址。系统会根据用户使用的语言或设备视情况提供备用网址。当然,备用网址也可以进行标记。备用网址是重复网址的一部分。
软404
不同于404页面直接返回404状态码,软404虽然向用户返回的页面显示是“不存在”,但是返回的状态码是200状态码,这种情况下,软404页面实际上向用户展示的是一个空页面。之前有转载过SEOTEA的一篇软404文章,介绍比较全面,不懂的可以点击这里查看。
导致Google索引结果显示软404的原因有很多,包括
1,服务器缺少包含(SSI)的文件
2,数据库连接中断
3,网站搜索结果为空产生的空页面
4,未加载或者缺少JS文件
5,网站中途修改,某些页面模板丢失或者删除
虽然页面返回的是200状态码,但这类型页面实际上单薄而无物,是我们需要修正的页面。
对于软404的修正你需要考虑:
① 页面是否存在?
② 内容是否留存?
1,如果网页和内容都不存在了,可以直接返回404 not found;
2,如果网页和内容已经移到别处,可以301重定向到该页面;
3,如果网页和内容依然存在,那就需要你通过网址检查工具进一步查看页面内容和返回码。如果存在大量的无法加载的资源,比如图片、视频、JS等非文本内容,要尽量对这些资源进行优化,或者替换。
已发现 – 尚未编入索引
如果你的网站较新,会存在很多这类页面,不要着急,可以多做一些外链吸引谷歌机器人加快抓取。如下图,谷歌也提供了帮助文档帮你了解谷歌正在积极的抓取你的页面。
已抓取 – 尚未编入索引
Google 已抓取相应网页,但尚未将其编入索引。日后,该网页可能会被编入索引,也可能不会被编入索引;无论如何,您都无需重新提交该网址以供抓取。
对于已抓取但迟迟未被索引的页面,要考虑是否内容过于单薄,可以尝试优化内容获取索引。谷歌对于页面不索引有很多原因,并不至于以上原因,可以查看谷歌帮助文档的“网页索引编制”报告查看更多解决方法。文末附相关文档链接。
使用工具促进索引
如果你尝试了所有这些导致页面不索引原因的解决方式之后,还是无法解决你的索引问题,可以尝试使用一些促进索引的工具。
A.使用GSC的“请求编入索引”按钮
GSC网址检查结果里有一个“请求编入索引”按钮,如果你已经对不索引的页面进行了修改,可以手动请求编入索引。
但需要注意,手动请求的次数有限制,多次请求相同的网址也不会为此开绿灯,而且不是说你请求了就会被索引,需要耐心等待。此外,谷歌也强调只有高质量有用的内容才会被索引。
B.提交站点地图
如果你修改了大量了问题,可以在GSC中提交站点地图。如果你的网站缺少站点地图,是时候创建一个并提交了。
C.使用网络工具
Tag Parrota是一款加快谷歌索引的网络工具,你只要连接GSC设置好,就可以一键自动索引,不过需要付费,网站上有价格表,大家可以参考,网址我放文末了。
对于新站,这样的工具会有一定的帮助,但对于老站,就需要我们考虑是否值得。
这里需要提一句,谷歌索引并不代表参与排名,更不代表会有好的排名,谷歌索引只是表示你的页面有参与排名的机会。所以,是否需要花钱促进索引是你需要考虑的问题。
D.通过各个平台引流
从社媒,Google Ads等平台来引流,以及发布外链,来增加网站互动,将会促进网站被收录的速度。
最后
网页被索引不是我们建立网站的最终目标,而是第一步,尽量积极的解决索引问题才能让我们的网站更健康。
文中相关网址:
谷歌帮助文档的“网页索引编制”报告
https://support.google.com/webmasters/answer/7440203#crawled
Tag Parrota
https://tagparrot.com/pricing
来源公众号: SINE独立站品牌运营(ID:Tiny_Sine)专注海外线上市场品牌运营分享。
本文由 @SINE独立站品牌运营 原创发布于奇赞平台,未经许可,禁止转载、采集。
该文观点仅代表作者本人,奇赞平台仅提供信息存储空间服务。