数千份谷歌搜索 API 的泄露文件曝光,SEO 从业者必看 [译]

数千份谷歌搜索 API 的泄露文件曝光,SEO 从业者必看

Rand Fishkin 于 2024 年 5 月 27 日发布

2024 年 5 月 5 日,我收到一封电子邮件,发件人称得到谷歌搜索部门大量泄漏的 API 文档集的访问权限。邮件还提到,这些泄露文件已经得到前谷歌员工的验证,证实其真实性,并且这些前员工及其他人还透露了更多关于谷歌搜索操作的秘密信息。

这些文件中的描述与谷歌多年来对外发布的声明形成鲜明对比,尤其是关于不会利用以点击为中心的用户行为信号、子域名的排名处理、新网站的沙盒效应、以及域名年龄因素的多次否认。

面对如此惊人的爆料,我不免产生了怀疑。这位不愿透露姓名的消息人士所提出的,确实是一些非凡的主张。

  • Google 的搜索团队在早期就意识到,为了提高搜索引擎的结果质量,他们需要掌握大量用户的完整点击流数据 (即浏览器访问的每个 URL)。

  • 一个名为“NavBoost”的系统应运而生 (搜索副总裁 Pandu Nayak 在他的 DOJ 案件证词 中提到过),最初这个系统从 Google 的 Toolbar PageRank 收集数据。对更多点击流数据的需求,直接推动了 2008 年 Chrome 浏览器的推出

  • NavBoost 通过分析某个关键字的搜索次数来识别热门搜索需求,还会记录搜索结果的点击次数 (我在 2013-2015 年间进行了 几次 实验),并区分长点击和短点击 (我在 2015 年的视频中 提出了相关理论)。

  • Google 通过 cookie 历史记录、登录的 Chrome 数据和模式检测 (在泄露的文件中称为“未压缩”点击与“压缩”点击) 有效地对抗手动和自动点击垃圾邮件。

  • NavBoost 还会对用户意图进行评分。例如,当视频或图片的关注度和点击量达到一定阈值时,系统会为该查询及相关的 NavBoost 关联查询触发视频或图片功能。

  • Google 会分析用户在搜索过程中及主要查询之后的点击和互动情况 (称为“NavBoost 查询”)。例如,如果许多用户搜索“Rand Fishkin”没有找到 SparkToro,然后立即改搜“SparkToro”并点击 SparkToro.com,那么 SparkToro.com (以及提到“SparkToro”的网站) 将在“Rand Fishkin”关键字的搜索结果中排名提升。

  • NavBoost 的数据还会用于评估一个网站的整体质量 (我的匿名消息来源猜测这可能就是 Google 和 SEOs 所称的“Panda”)。这种评估可能会导致网站排名的提升或下降。

  • 在进行质量评估时,Google 也会考虑一些次要因素,比如针对那些与非品牌搜索完全匹配的域名(如 mens-luxury-watches.com 或 milwaukee-homes-for-sale.net)的处罚,新增的“BabyPanda”评级,以及垃圾信息的标识。

  • NavBoost 利用地理围栏技术对点击数据进行区域性过滤,涉及到不同国家及地区级别,同时区分移动设备和桌面设备的使用情况。然而,如果 Google 缺乏特定地区或特定用户设备的数据,他们可能会对所有查询结果采用同一标准处理。

  • 在 Covid-19 大流行期间,Google 设置了一个白名单,用于标识在 Covid 相关搜索中可以优先显示的网站。

  • 类似地,在选举期间,Google 也为那些应展示或应当降低显示优先级的与选举相关的信息网站设置了白名单。

这些仅仅是冰山一角。

非同寻常的论断需要非同寻常的证据。虽然一些信息在 Google/DOJ 的案件中已经被披露(你可以在这个 2020 年的帖子 上了解到一些),但许多信息是新的,显示了内部人士的了解。

因此,就在上周五,5 月 24 日(此前有几封电子邮件往来),我通过视频与一位匿名人士交谈了。

Rand 和消息源进行通话时的匿名屏幕截图

在此次邮件和通话之前,我从未遇见过这位泄密者。他们请求匿名,只希望我引用以下话语:

鹰利用风暴升至难以想象的高度。 —— Matshona Dhliwayo

通话结束后,我确认了他们的工作经历,我们共同认识的营销界人士,以及他们声称参与过的一些行业内部事件(包括与 Google 员工的),虽然我无法具体确认那些会议或讨论的内容。

在我们的通话中,这位联系人向我展示了泄露的文件:超过 2500 页的 API 文档,包含 14014 个特征,来自于 Google 内部的“内容 API 仓库”。根据文档提交的历史记录,这些代码于 2024 年 3 月 27 日上传至 GitHub,直到 2024 年 5 月 7 日才被删除。

这些文件并未透露如搜索排名算法中各个元素的权重等信息,也没有证明哪些元素参与了排名系统。然而,它们确实展示了 Google 收集的数据的惊人细节。这里有一个文档的示例:

关于“好点击”和“坏点击”的屏幕截图,包括点击持续的时间(即访客在从 Google 搜索结果点击进入网页后停留的时长,然后返回搜索结果)。

在向我介绍了这些 API 模块之后,消息来源表达了他们的动机(透明度提升、要求 Google 负责等)和期望:我能发表一篇文章,分享这次泄漏,揭露其中包含的许多有趣数据,并反驳 Google 员工多年来散布的某些谎言。

Google 代表(Matt Cutts、Gary Ilyes 和 John Mueller)多年间否认使用基于点击的用户信号进行排名的声明样本

这个 API 泄露真实吗?我们能相信它吗?

为了验证 API 内容仓库文档的真实性,我联系了一些前谷歌员工朋友,分享了泄露的文档并征求他们的意见。三位前谷歌员工回复了我:一位表示不愿意查看或评论。另两位匿名地分享了他们的看法:

  • “我在谷歌工作时没有接触过这段代码。但这看起来确实像是真的。”
  • “它具有 Google 内部 API 的所有特点。”
  • “这是一个基于 Java 的 API。有人花了很多时间遵循 Google 自己的内部标准编写文档和命名。”
  • “我需要更多时间来确认,但这与我熟悉的内部文档一致。”
  • “在简短的审查中,我没发现任何表明这不是真的的迹象。”

接下来,我需要帮助来分析和解读这些文档的命名规则和技术细节。我对 API 有一定了解,但已经 20 年没写代码了,而且 6 年没有专业从事 SEO 了。因此,我联系了世界顶尖的技术 SEO 之一:Mike King,他是 iPullRank 的创始人。

在星期五下午的一次 40 分钟电话会议中,Mike 审查了泄露内容,确认了我的怀疑:这似乎是一组来自 Google 搜索部门的真实文档,其中包含大量以前未确认的关于 Google 内部运作的信息。

让一个人(尤其是一个父亲、丈夫和企业家)在一个周末审查 2500 份技术文档是不现实的。但这并没有阻止 Mike 尽最大努力。他已经整理了一份**非常详细的 Google API 泄露初步审查**,我将在下面的发现中引用更多内容。同时,他也同意加入我们在 10 月 8 日于西雅图举行的 SparkTogether 2024 活动,届时他将详细介绍这次泄露的全部经过,并结合未来几个月的分析成果。

我的资格和动机

首先,请允许我做几点声明:我已不再从事 SEO 工作,关于 SEO 的知识和经验已经停留在六年前。我没有足够的技术背景或对 Google 内部机制的了解,足以分析 API 文档泄露的真伪(这也是我求助于 Mike 以及前 Google 员工的原因)。

那么,我为何还要写关于这个话题呢?

这是因为我与那些向我提供信息的人进行了深入的交流,他们不仅可靠、考虑周到,而且对此领域了解透彻。虽然我最初是持怀疑态度参与对话的,但我没有发现任何问题或恶意动机。这个人的主要目的与我自己非常一致:希望 Google 对其公开声明与私下的对话和泄漏文件负责,并增加搜索营销领域的透明度。尽管离开 SEO 已久,他们认为我是最合适的人来公开这些信息。

这些都是我近二十年来非常关注的目标。尽管我的职业生涯已经转变(我目前运营两家公司:SparkToro,一家提供观众研究软件的公司,和 Snackbar Studio,一家独立视频游戏开发商),但我仍然非常关心搜索引擎优化领域,感到有责任分享有关全球主导搜索引擎运作方式的信息,尤其是那些 Google 希望保密的信息。遗憾的是,我不知道还有什么其他渠道可以发布如此重要的信息。

多年前,在 Danny Sullivan 离开新闻界成为 Google 的搜索联络官之前,他本是我处理此类重要信息泄露的首选联系人。他拥有足够的威信和经验,能够在公众舆论中公正地处理此类问题。过去几年,我多次希望 Danny 能以其一贯的平和、公正且对 Google 既严格又公平的态度处理这类新闻性事件——这类事件的影响可能与公司在法庭上的声明一样广泛(例如,他关于 Google 有关有机关键词数据隐私权辩护的精彩文章 https://martech.org/dark-google-search-terms-not-provided-one-year-later/)。

无论 Google 给他支付了多少,都显然不够。

很抱歉,亲爱的读者,现在的陈述者是我。但既然如此,我假设你可能不了解我的背景或资历,因此我在这里简要介绍一下。

  • 自 2001 年起,我开始为西雅图地区的小企业提供搜索引擎优化服务,2003 年与人共同创立了后来发展成为 Moz(初名 SEOmoz)的 SEO 咨询公司。

  • 在随后的 15 年中,我一直活跃在搜索营销行业,作为该领域的领军人物频繁获得认可。我撰写或合作撰写了几本书,包括《失落与创始人:创业世界的坦诚向导》(Lost and Founder: A Painfully Honest Field Guide to the Startup World)、《SEO 艺术》(The Art of SEO)以及《引进营销与 SEO》(Inbound Marketing and SEO)。

  • 华尔街日报福布斯等多家知名媒体报道了我的故事,并引用了我主持的一系列受欢迎的视频节目《白板星期五》(Whiteboard Friday),这个节目已经持续了十年。

  • Moz 的客户基数增至超过 35,000 名付费用户,年收入超过 5000 万美元,团队规模也扩展到大约 200 人,在 2021 年被一个私募股权公司收购。2018 年,我离开了 Moz,随后在 2023 年创办了 SparkToro 和 Snackbar Studio。

  • 虽然我在 2001 年未完成华盛顿大学的学业并未获得学位,但我在 Google 和 SEO 方面的研究成果已受到了包括美国国会(cited by the United States Congress)、联邦贸易委员会(Federal Trade Commission)、华尔街日报(Wall Street Journal)、纽约时报(New York Times)和 John Oliver 的《上周今夜》(Last Week Tonight)等众多知名机构的引用。

  • 我持有数项设计网规模链接索引的专利(patents),并创造了多个链接索引指标,其中包括广泛应用于数字营销领域的领域权威(Domain Authority),这是一个基于机器学习的评分系统,用来评估网站在 Google 搜索引擎中的排名潜力。

好的,我们继续讨论关于 Google 的泄露事件。


什么是谷歌 API 内容仓库?

当你浏览庞大的 API 文档时,你可能会问:这是什么?有什么用途?为何会存在?

这些信息似乎是从 GitHub 泄露的。根据我匿名来源的说法,这是一次意外的公开。文档中的链接大多指向需要谷歌登录凭证的 私有 GitHub 仓库谷歌内部页面。在 2024 年 3 月到 5 月间,这些 API 文档被意外公开并迅速传播到了 Hexdocs,并由此被更多人得知和分享。

我的前谷歌同事告诉我,谷歌的几乎每个团队都有类似的文档,它们详细说明了各种 API 的属性和模块,帮助团队成员了解他们可以使用的数据元素。此次泄漏与谷歌云 API 的公共文档相符,它们采用相同的标记风格和格式,甚至包括过程、模块、功能的名称和引用。

如果这听起来太技术化,那么简单来说,这些文档就像是谷歌搜索团队的使用手册,像是图书馆的书目记录,指导需要的员工了解可用资源及其获取方式。

然而,与公共图书馆不同,谷歌搜索被视为世界上最隐秘、保护最严格的技术黑匣子。在过去的 25 年中,谷歌搜索部门从未发生过如此大规模和详细的信息泄露。

我们如何确定谷歌搜索引擎是否使用了这些 API 文档中详述的所有功能?

这有待解释。谷歌可能已经淘汰了某些功能,有些则可能仅用于测试或内部项目,甚至有些 API 功能可能从未被实际使用过。

但文档中对于已废弃功能的提及和一些特别说明表明这些功能不应再使用。这显然意味着那些未被特别标记的功能在 2024 年 3 月的资料泄露时仍在使用。

此外,我们无法肯定这份泄漏的文档是否是最新的版本。API 文档中我找到的最新日期是 2023 年 8 月:

相关文字说明:

“例如 google.com 的‘Google’,即网站的域级显示名称。更多详情,请查看 go/site-display-name。截至 2023 年 8 月,此字段已开始废弃,改用 info.[AlternativeTitlesResponse].site_display_name_response 字段,后者还包含了带额外信息的主机级站点显示名称。”

理智的读者会认为,至少在去年夏天此文档还是最新的,它还提到了 2023 年及以前其他年份的更改,甚至可能在 2024 年 3 月泄露时仍是最新的。

谷歌搜索显然每年都在大幅变化,最近引入的如其备受批评的 AI 概览并未在此次泄露中出现。目前究竟哪些功能在谷歌的排名系统中仍在使用,这还是未知数。这份资料中含有许多有趣的内容,对于非谷歌搜索引擎工程师来说是全新的。

不过,**我要提醒读者,不应该单凭泄漏中的某个 API 功能就断言:‘看!这证明谷歌在排名中使用了 XYZ。’**这不是确凿的证据,虽然比专利申请或谷歌员工的公开声明更为有力,但依然无法确定。

尽管如此,自从谷歌高管去年在美国司法部的审判中作证以来,这可能是最接近“直接证据”的东西了。而且,关于那次证词,许多内容在这次文件泄露中得到了证实和扩充,正如 Mike 在他的文章中所述。👀

数据仓库泄露教会了我们什么?

我认为,这一庞大的文件集在未来几年会不断被挖掘,产生许多既有趣又具市场价值的见解。文件庞大而信息密集,一个周末的时间远远不够全面理解其内容。

接下来,我要分享五个在初步探索中发现的最有启发性的点。这些发现中,有的让我们对 Google 长期被认为进行的某些行为有了新的理解,有的则显示出公司的公开声明(特别是关于他们所“收集”的数据)可能存在错误。鉴于直接对比 Googlers 的言论和文件内容可能看起来像是个人抱怨(特别是考虑到 Google 曾对我的工作进行过攻击),我不打算详细展开这一部分。毕竟,Mike 在他的帖子中已经做了很好的对比分析。

相反,我将集中讨论那些有趣或有用的观点,以及我从审查的各个模块中得出的总结,结合 Mike 对泄露事件的分析 Mike 的文章,和我们已知的关于 Google 的其他事实。

#1: Navboost 和点击数据的使用:点击率、长短点击及用户行为分析

文档中提到的几个模块介绍了诸如“好点击(goodClicks)”,“坏点击(badClicks)”,“最长持续点击(lastLongestClicks)”等多种用户互动数据,以及展示次数、压缩与未压缩状态、独角兽点击等概念。这些术语与 Navboost 和 Glue 这两个可能被业内人士熟知的名词相关,特别是那些熟悉 谷歌对美国司法部的证词 的人。以下是 Google 搜索质量团队副总裁 Pandu Nayak 接受司法部律师 Kenneth Dintzer 交叉审问时的对话节选:

Q. Navboost 是从 2005 年开始使用的吗?A. 是的,大约那个时期,甚至可能更早。

Q. 它进行过更新吗?现在的 Navboost 还和以前一样吗?A. 已经不同了。

Q. Glue 是另一个与之相关的术语对吧?A. 对,Glue 本质上是 Navboost 的一个延伸,涵盖了网页上的其他各种功能。

Q. 明白了。我们本来打算稍后讨论这个,不过现在谈也可以。Navboost 主要处理网页搜索结果对吧?A. 没错。

Q. 而 Glue 则处理页面上的其他所有内容,不包括网页搜索结果,对吗?A. 正确。

Q. 这两个工具共同作用于我们搜索结果页面上显示的内容的筛选和排序吗?A. 是的,它们都对此有贡献。

深入阅读这些 API 文档的人会发现,这些内容不仅支持 Nayak 先生的证词,还与 Google 的 网站质量专利 相呼应。

#1: Navboost 和点击行为的影响,以及对点击率和用户行为数据的分析

文档中的几个模块提到了如“优质点击”、“劣质点击”、“持续最长点击”、展示次数、压缩、未压缩和独角兽点击等特征。这些都与 Navboost 和 Glue 相关,这两个词对熟悉谷歌司法部证词的读者来说可能并不陌生。以下是司法部律师 Kenneth Dintzer 对谷歌搜索质量团队副总裁 Pandu Nayak 的交叉询问摘录:

Q:请提醒我,navboost 是从 2005 年开始的吗?A:大约是那个时间,甚至可能更早。

Q:它进行了更新。它不再是当年的老式 navboost 了吧?A:不是了。

Q:还有一个是 glue 对吧?A:Glue 只是包含了页面上所有其他特性的 navboost 的另一个名称。

Q:对,我本来打算稍后再提,但现在就讨论吧。Navboost 负责网页结果,就像我们讨论的那样,对吗?A:是的。

Q:而 glue 则处理页面上非网页结果的所有其他内容,对吗?A:没错。

Q:它们一起帮助查找并排名最终出现在我们的搜索结果页面上的内容?A:确实如此。它们都是那里的信号。

精通 API 文档的读者会发现这些文件支持 Nayak 先生的证词(并与谷歌关于站点质量的专利相符)。

#2:利用 Chrome 浏览器的点击流数据强化 Google 搜索功能

据我匿名消息来源透露,Google 自 2005 年起就渴望掌握数十亿互联网用户的详尽点击流。现在,通过 Chrome,他们实现了这一目标。据 API 文档显示,Google 根据 Chrome 的浏览数据计算出与单个页面及整个域相关的多种指标。

此文档详述了 Google 如何创建站点链接的方法,特别引人注目。它展示了一个名为 topUrl 的功能,用于列出基于“chrome_trans_clicks”得分最高的顶级 URL 列表。这表明,Google 可能利用 Chrome 中网页的点击数来识别网站中最重要的 URL,并将这些数据用于决定哪些 URL 应包含在站点链接中。

例如,在 Google 搜索结果的上图中,如“定价”、“博客”和“登录”等页面便是我们最常访问的几个,而 Google 能通过追踪数十亿 Chrome 用户的点击流得知这一信息。

#3: 在旅行、疫情和政治领域中的白名单使用

“优质旅行网站”模块的存在,使得读者合理地推测 Google 在旅行领域设立了白名单(尚不清楚这是否仅限于 Google 的“旅行”搜索或是更广泛的网络搜索)。在多个地方提及的“isCovidLocalAuthority”和“isElectionAuthority”标志,进一步暗示 Google 对于那些高度争议或潜在问题的查询,特别挑选了合适的域名加入白名单。

比如说,在 2020 年美国总统选举后,一位候选人未提供证据地声称选举被盗,并号召其支持者冲击国会,对议员采取潜在的暴力行动,即试图发动一场叛乱。

在这种情况下,Google 几乎是人们获取事件信息的首选平台。如果 Google 的搜索结果链接到了误导性的宣传网站,那么可能直接引发更多的争议和暴力,甚至威胁到美国的民主制度。对于那些支持自由公正选举的人们来说,应当感激 Google 的工程师在此情况下采用白名单的决策。

#4: 利用质量评估员的反馈

Google 一直拥有一个名为 EWOK 的质量评估平台,SEO 领域的知名人士 Cyrus Shepard 曾在该平台工作多年,并在这篇文章中进行了介绍。目前,我们已经能够证实搜索系统中确实使用了质量评估员的一些评估元素。

这些基于评估的信号具体有多大的影响力,以及它们的具体用途目前尚不完全清楚。但我预计,一些细心的 SEO 研究者会深入探索这次泄露的信息,学习其内幕,并对此进行详细的解读。令人着迷的是,EWOK 的质量评估员所生成的评分和数据可能直接应用于 Google 的搜索系统,而不仅仅是作为实验的训练资料。当然,这些数据有可能仅用于测试目的,但如果真是这样,相关的说明通常会在泄露文档的注释和模块详情中明确指出。

此处提到了基于 EWOK 评估的“文档级相关性评分”。尽管没有具体的说明,但我们可以推测,这些人工评估的重要性何在。

另一点说明了“人工评分(例如 EWOK 提供的评分)”,并指出这些评分“通常只用于评估流程中”,这表明它们可能主要用作此模块的训练数据。我认为这仍是一个非常重要的功能,营销人员不应忽视质量评估员对其网站的评价和感知的重要性。

#5: 谷歌如何利用点击数据来调整网页链接的排名权重

这一点极具吸引力,源自最初泄露这一信息的匿名人士。他们这样描述:“谷歌将其链接索引分为三个等级:低、中、高质量。根据点击数据来判定网页应该属于哪个等级。具体可以查看 链接类型这里,以及 点击总量这里。”总之,情况如下:

  • 如果 Forbes.com/Cats/ 未获得点击,它将被归入低质量索引,该链接被忽视
  • 如果 Forbes.com/Dogs/ 的点击量高,且主要来源于可验证的设备,它将被归入高质量索引,链接因此能传递重要的排名信号

一旦链接因属高等级索引而获得信任,它就能够传播网页排名和链接锚文本,或者可能因为链接垃圾而被过滤或降级。低质量索引中的链接不会影响网站排名,只会被忽视

为关心自然搜索流量的营销者提供的重要洞察

如果您策略性地看重自然搜索流量的价值,却对谷歌的技术细节不甚关注,本节内容专为您设计。这是我对谷歌在 2005 至 2023 年间的发展演变的概述,而不完全局限于已确认的泄露内容。

  1. 品牌的重要性超乎一切 谷歌通过多种方式识别实体并进行排序和筛选。这些实体包括品牌(如品牌名称、官方网站及相关社交帐户等)。正如我们通过与 Datos 合作的点击流研究所展示的,谷歌越来越倾向于只向那些在网络上占主导地位的大品牌推送流量,而不是小型独立网站和企业。对于希望在自然搜索排名和流量上取得显著提升的营销人员,我的建议是:在您的领域中建立一个知名且广受欢迎的品牌,而不仅仅是在谷歌搜索内部。

  2. 经验、专业性、权威性和可信度(“E-E-A-T”)可能并不像某些 SEO 专家所认为的那样直接重要。迄今为止,我们在泄漏资料中发现的唯一与主题专业知识相关的提及是关于谷歌地图评论贡献的简要记录。E-E-A-T 的其他方面要么难以直接识别,要么与谷歌所使用和重视的因素相关,而不是排名系统中的明确元素。正如 Mike 在其文章中所述,泄漏资料显示谷歌能够识别作者,并在其系统中将他们视为实体,这可能确实带来排名优势。但具体是什么构成了“E-E-A-T”,以及这些因素的影响力如何,还有待商榷。我略感忧虑,因为 E-E-A-T 可能 80% 是宣传,20% 是实质。正如 HouseFresh 最近的一篇广为流传的文章所揭示的那样,许多实力雄厚的品牌在谷歌的排名表现出色,尽管他们在经验、专业知识、权威性或可信度上所占比例不大。

  3. 当用户的导航意图及其形成的模式显现时,内容和链接就变得次要了。 例如,在西雅图地区,许多人搜索“Lehman Brothers”并翻阅到搜索结果的第二、三或四页,直到他们找到 Lehman Brother 舞台剧的剧场信息并点击进去。很快,Google 就会识别出这一地区搜索者的真正需求。即使是描述 Lehman Brothers 在 2008 年金融危机中所扮演角色的维基百科文章,哪怕大量投入链接建设和内容优化(link building and content optimization),也难以超越西雅图剧院观众的这种强烈用户意图信号。通过这个例子可以看到,如果你能在目标区域内为你的网站创造足够的需求,就可能绕开传统的 SEO 技巧,如链接、锚文本、内容优化等。Navboost 和用户的意图可能是 Google 排名系统中最为强大的因素。正如 Google 副总裁 Alexander Grushetsky 在 2019 年向其他 Google 高层发送的一封电子邮件中提到的(包括 Danny Sullivan 和 Pandu Nayak):“我们已经知道,某个单一信号的效果可能超过整个庞大系统的其他所有因素。比如,我相信 NavBoost 单独的影响就在点击率(甚至可能在精度/实用性指标上)上超过了其他所有排名因素(顺便说一下,不在 Navboost 团队的工程师也对 Navboost 的强大作用表示不满,因为它抢走了很多胜利)”。想要进一步了解的人,可以查看 Google 工程师 Paul Haahr 的详细履历,其中提到:“我负责基于日志的排名项目。团队目前的工作重点分布在四个领域,其中之一就是 Navboost,它已经成为 Google 最强大的排名信号之一。目前我们正在努力实现 Navboost 数据自动化建设。

  4. 经典排名因素:PageRank、锚文本(基于链接的主题性 PageRank)和文本匹配的重要性多年来已经逐渐减弱。然而,页面标题的重要性依然不减。 这是 Mike 的精彩分析中的一个重要发现,不提及它将是我的疏忽。虽然 PageRank 仍在搜索索引和排名中有一席之地,但它已显著演变,不再是 1998 年论文中的原版。文件泄露显示,多个版本的 PageRank(rawPagerank,一个废弃的 PageRank 引用“最近的种子”,以及 firstCoveragePageRank)已经被开发并废弃。尽管泄露文件中提到了锚文本链接,但它们并没有我早期从事 SEO 时预期的那样关键或普遍。

  5. 对于大多数中小企业和新晋创作者/出版者,只有当你建立了信誉、导航需求和在大量观众中的良好声誉后,SEO 才可能带来良好的回报。 SEO 是大品牌和热门网站的游戏。作为企业家,我没有忽视 SEO,但我确实预见到,除非 SparkToro 成为更大、更受欢迎、更多搜索和点击的品牌,否则在未来几年内,这个网站还是会被老牌聚合者和出版商压过一头,即使是在原创内容方面也是如此。对其他创作者、出版商和中小企业来说,这一点几乎可以确定。如果存在大型、知名的网站竞争,你创造的内容在 Google 上的表现可能不佳。Google 不再奖励那些懂得所有正确技巧的机敏和精明的 SEO 操作者。他们更看重已建立的品牌、可通过搜索量化的流行度以及搜索者已熟知并常常点击的域名。从 1998 年到大约 2018 年,可以通过 Google 的 SEO 启动一个强大的市场营销飞轮。但到了 2024 年,在竞争激烈的英语网站领域,这种做法似乎已不太现实。

搜索行业的未来动向

看到具备最新经验和深厚技术背景的从业者如何解读这次信息泄露,令人期待。我鼓励对此感兴趣的人深挖文件背后的内容,将其与其他公开的文件、声明、证词及排名实验相联系,并公开他们的研究成果。

过去,搜索行业内部分声音强大且发表频繁的人士经常会不加批判地重复 Google 的公开声明。他们常常发布“Google 表示 XYZ 属实”这样的标题,而不是“Google 声称 XYZ,但证据显示并非如此”。

SEO 行业对这类标题并无好处。

请务必改进。如果这次泄露和 DOJ 审判能带来任何改变,我希望就是这个。

当新人阅读 Search Engine Roundtable、Search Engine Land、SE Journal 及其他众多关注 SEO 新闻的机构网站和博客时,他们往往不清楚应如何对待 Google 的声明。媒体工作者和作者们不应假设读者能够识别出 Google 官方曾数次发表过后来证实错误的公开评论。

这种责任不仅仅是为了帮助搜索行业,更是为了帮助全世界。Google 作为全球最具影响力的信息和商务传播力量之一,直到最近才开始受到政府和新闻界的一定程度的监督。搜索营销领域的记者和作家们的工作,在公众舆论的法庭、政治官员的议会及 Google 员工的心中都具有重大影响,他们拥有使世界变得更好或对现状视而不见的能力。


感谢 Mike King 在本次文件泄露报道中提供的不可多得的帮助,感谢 Amanda Natividad 的编辑协助,以及匿名分享此次泄露信息的消息源。随着本文在接下来几天到几周内触及更多读者,预计会有更多更新。如果您有任何支持或反驳本文观点的发现,请在下方评论区分享。