5 月 5 日,Google 搜索的某个内容 API 文档被意外曝光。这份文档已被前 Google 员工确认,而且更新日期显示是今年 3 月份,还是相当新的。
从这份泄漏的文档中能看到,Google 的排名系统包含 2,596 个模块,以及 14,014 个排名因素。这次可以说是 Google 有史以来最大严重的泄密事故了。
我汇总了 iPullRank 创始人 Mike King 和 Rand Fishkin 的第一手资料,发现很多排名算法的细节。跟 Google 之前公布的一对照,真的是“假假真真、真真假假”。
假假真真
“我们没有域名权重的数值”
Google 一直说,并不存在域名权重这种数值(类似 Semrush 和 Ahrefs 的 AS 和 DA 值),但实际上文档中确实有 siteAuthority
这个参数,完全就是域名权重/站点权重。
“我们不使用点击次数用于排名”
Google 一直称“并不使用点击次数用于排名”,但实际从这份文档来看并不是这样。
从上次反垄断调查时,Google 就暴露出有 NavBoost 排名系统的存在,NavBoost 是专门依靠点击数据驱动来调整排名的系统。
这次的内部文档有更详细的点击参数,比如:
badClicks
和goodClicks
:主要是用户在搜索结果中的点击行为,如果满足需求,不再点击其他结果,算是加分,否则是减分lastLongestClicks
和lastGoodClicks
:主要是衡量点击是否会随着时间衰减,有时效的考虑unsquashedClicks
和unsquashedImpressions
和unsquashedLastLongestClicks
:主要是数据做了规范,保证不会有极端数据影响整体数值
另外,其中并没有点击率、停留时间的参数。
各种资料都表明,依靠点击数据的 NavBoost 系统是 Google 排名信号中最重要的因素之一。所以可以看出,Google 是将点击次数和点击后行为作为排名算法的一部分。
“沙盒并不存在”
John Muller 之前说过,并不存在沙盒。
但内部文档中是有 hostAge
这个参数,主要是 “对新鲜垃圾网页/网站进行沙盒处理”。
“不使用 Chrome 的数据”
这个是一直宣称的,但实际上是有 ChromeInTotal
这个参数,表示网站在 Chrome 的整体浏览量(以此了解网站的访问规模)。
甚至网站子链接都可能是利用 Chrome 数据。
真真假假
作者是一个明显特征
关于 EEAT,Google 一直没有公布明显的优化方法,也说作者模块并没有正向帮助。
但实际上文档中有 author
作者这个参数,而且也会判断是否真的是网页的作者。
算法降级
文档中提到了几种方式的算法降级,包含:
- 锚点不匹配 – 当链接锚文本与它所链接的目标网站不匹配时,该链接在计算中会被降级
- SERP 降级 – 从 SERP 的点击情况来了解用户的满意程度,不满意时被降级
- 导航降级 – 网站的导航链接的体验较差
- 精确匹配域名降级 – 搜索词跟域名精准匹配,不会有排名提升作用(在 2012 年的 Google Exact-Match Domain (EMD) Update上线 )
- 产品评价降级 – 跟产品评价算法 Product Review 有关
- 位置降级 – 跟位置有关联的搜索时,无位置的网页会降级
- 成人内容降级
- 其他链接降级
外链似乎仍很重要
外链跟网页的索引层级有关
Google 索引分为几个层级,其中最重要的、定期更新和访问的内容存储在闪存中。不太重要的内容存储在固态硬盘上,而不定期更新的内容存储在标准硬盘上。所以外链的索引层级越高,价值就越高。
垃圾链接的识别
Google 有用 phraseAnchorSpamDays
来识别垃圾链接,会识别垃圾链接的频率、数量、起始时间,很容易把这部分数据忽略。
Google 会参考近 20 次修改的历史版本
Google 会保留网页的历史版本,就像是 Wayback Machine 做的那样。
但在参考网页内容时,主要参考其近 20 次修改的历史版本。
新网页都会获取首页的初始PR
网页新上线会获取初始PR,就是首页的PR,直到网页通过用户数据和网页数据获取自己的 PR。
首页信任度
Google 根据对首页的信任程度来决定如何评估外链的价值。
所以,SEO 应该关注链接的质量和相关性,而不是数量。
链接和内容的字体大小仍有帮助
早期 SEO 都会要求加粗文本和下划线,现在看来仍有帮助,且不光是对内容,还有锚文本。
其他重要信息
还有一些零碎的算法信息,包含:
- 网页文档会被截断。在 Mustang 系统中,考量的字符数量是有限的,网页内容过长会被截断,所以重要内容要往前放
- 短篇内容的原创度可获得评分。
OriginalContentScore
表明较短内容是靠原创度来获取得分 - Title 跟关键词的匹配仍很重要。
titlematchScore
参数仍在衡量标题与关键词的匹配程度 - Title 和 Description 没有字符长度的限制
- 日期很重要。Google 通过 3 个参数来判断网页的时间:
bylineDate
是网页中显示的日期,syntacticDate
是 URL 或标题中提取的日期,semanticDate
是从内容中分析出的日期 - 域名注册信息有使用。Google有存储域名的过期时间和创建时间,用于新域名的判断,比如最近的“过期域名滥用”肯定会用到这个字段
- 视频网站会被特别对待。如果超过 50% 的页面包含视频,会被判断为视频网站,收到不同对待。
- YMYL 会有特别评分机制。这个符合之前公布的信息
Google 反应
此次泄露事件仍在发酵,预计很快就会被一些互联网媒体报道。Google 仍未对此次泄漏事件做出任何回应。
我的看法
- 我完全理解 Google 员工宣讲时的立场,他们主要是引导站长良性发展,本身就不会讲算法细节
- 看了之后对算法细节更了解,不过 SEO 该做什么还是做什么
- 在长期 SEO 策略上,我还是选择更高的内容质量、更好的用户体验的方向,短期内会尝试一些技巧,比如标题会嵌入关键词,更长一些,文章增加作者模块等
如果你有好的想法,也欢迎留下评论,一起讨论更多优化方法~❤️️
参考链接
- 《Secrets from the Algorithm: Google Search’s Internal Engineering Documentation Has Leaked》https://ipullrank.com/google-algo-leak
- 《An Anonymous Source Shared Thousands of Leaked Google Search API Documents with Me; Everyone in SEO Should See Them》https://sparktoro.com/blog/an-anonymous-source-shared-thousands-of-leaked-google-search-api-documents-with-me-everyone-in-seo-should-see-them/
来源公众号: SEO技术流(ID:seotechie)专注于SEO流量增长领域。
本文由 @SEO技术流 原创发布于奇赞平台,未经许可,禁止转载、采集。
该文观点仅代表作者本人,奇赞平台仅提供信息存储空间服务。