谷歌正使用一种叫做RankBrain的机器学习技术帮助其搜索结果分类。以下是我们对RankBrain的了解。
谷歌使用“RankBrain”(一种机器学习的人工智能系统)帮助其搜索结果进行排序。想一下它是怎样工作和适应谷歌整个排序系统的。以下是我们对于RankBrain的了解。
下边的信息是我们的长期的了解,主要有三个来源,并且我们已经表明上传地址。来源如下:
第一个是Bloomberg story首先爆出RankBrain的消息。第二个信息来源是谷歌在其搜索引擎版块发布的消息。第三个是根据我们自己的知识和假设对于谷歌没有提供的答案进行的猜测。当确实需要的时候,我们会清晰的标明使用的这些信息来源,与大众的背景信息相区分。
什么是RankBrain?
RankBrain是谷歌为其机器学习的人工智能系统所起的名字,该智能系统是用来帮助其搜索结果排序的,正如Bloomberg所报道的,后来也被谷歌所证实。
什么是机器学习?
机器学习是电脑自己告诉自己应该做什么,而不是由人类或更多的细致的代码所告诉电脑的技术。
什么是人工智能?
真正的人工智能,简单的说,是使得电脑同人类一样聪明,至少是在像人类一样获得被教授的知识和建立自己的知识体系时创立的新的连接方面。
当然,真正的人工智能只在科幻小说里存在。事实上,人工智能被用来指向学习和创立连接的电脑系统。
人工智能和机器学习的区别是什么呢?就RankBrain排序而言,对我们来说,他们是同一件事物的代名词。你也许能听到他们互相替换使用,或者你也许能听到用机器学习来描述使用的人工智能方法。
那么RankBrain是谷歌搜索结果排序的新方法吗?
不是。RankBrain是谷歌全部搜索算法的一部分,是一个对数百亿页面的搜索结果排序并找到最接近于特定搜索条目的结果的计算机项目。
谷歌搜索算法的名字是什么?
正如我们在过去所报道的一样,它叫做Hummingbird。随着近几年的发展,全部的算法并没有一个确定的名字。但是在2013年年中,谷歌修整了算法并把它叫做Hummingbird。
那么RankBranin是谷歌Hummingbird搜索算法的一部分吗?
这是我们的理解。Hummingbird是全部的搜索算法,就像一辆车里有所有的引擎。引擎本身是由不同的部分所组成的,比如机油滤清器,油泵和散热器等。同理,Hummingbird包括不同的部分,RankBrain是其中最新的部分之一。
尤其是,当我们知道RankBrain是全部Hummingbird算法的一部分时,正如Bloomberg的文章说明的一样,RankBrain不能处理所有的搜索结果,只有所有的算法才能。
Hummingbird在SEO领域也包括和它名字相似的其他部分,比如设计对抗垃圾邮件的Panda,Penguin和Payday,提高本地结果的Pigeon,降级广告页面重的Top Heavy页面,奖励移动友好页面的Mobile Friendly和对抗版权侵犯的Pirate。
我认为谷歌算法曾叫做“PageRank”
PageRank是全部谷歌算法的一部分,对于所得到的搜索页面,以特定的方式给予这些搜索到的页面信用分,信用分的标准是指向这些页面的来源于其他网页的链接。
PageRank是特别的,因为他是谷歌第一个给予排序算法的部分的名字,可以追溯到搜索引擎开始的时间,1998年。
那么谷歌用来排序的这些信号呢?
信号是谷歌用来帮助决定怎样排序网页的东西。比如,他将会在网页上读取一个单词,那么这个单词就是信号。如果一些单词是粗体的,这也许是另一个标注的信号。作为PageRank部分的计算器给这个页面一个PageRank分数,这个分数可以被用作一个信号。如果一个页面被标注为移动友好型,是登陆的另一个信号。
所有的这些信号是通过Hummingbird算法的不同部分来确定的,对于不同的搜索内容应该呈现哪一个网页。
有多少信号呢?
谷歌生成有超过200多条的用来评估的主要排序信号,反过来,也许有高达10000个不同信号或者次信号。更典型的说,有上千个因素,正如在昨天的Bloomberg文章里所提及的一样。
如果你想对排序信号有一个视觉了解,查看我们的文章SEO成功因素周期表,我们认为它是一个相当不错的向导,对于大多数事情From out of nowhere,像谷歌一样的搜索引擎使用他来帮助网页排序。
RankBrain是第三重要的信号吗?
完全正确。谷歌声明,无处不在的新系统已经成为网页排序的第三重要因素。摘自Bloomberg article:“RankBrain是上千条排序信号中的一个,它决定着谷歌页面出现的搜索结果和他们的排序,Corrado说道。在过去的几个月里,已经对它进行部署,RankBrain已经成为搜索结果序列的第三重要的信号,他说道。”
第一和第二重要的信号是什么?
这个故事最开始写的时候,谷歌并没有告诉我们。我们假设如下:
“我个人猜测链接仍然是最重要的信号,谷歌把这些链接当做选票,正如我过去在:“链接:谷歌和必应使用的破坏性的“Ballot Box””一文中所提到的一样,它是一个可怕的老化系统
至于第二重要的信号,我猜测是单词,这个单词能包含一切,从网页上的单词到用户输入搜索框的单词和框外RankBrain的分析。”
这样的论述相当正确,在2016年3月,谷歌认为前两个重要的因素是文章和链接。或者链接和文章,因为他从未说过哪个更重要。想要了解更多,请阅读我们的文章“现在我们知道:谷歌的前三个搜索排名因素”
RankBrain到底是做什么的?
从谷歌的邮件中推测:我了解到的RankBrain主要的用处是被当做一种方法解释搜索结果,这些搜索结果是用户上传的找到答案的网页,这些网页里也许没有搜寻的特定的单词。
谷歌还没有发现找到不含输入词条的页面的方法吗?
不,谷歌已经发现找到不含输入词条的页面的方法很长时间了。比如,多年以前,如果你输入像“鞋”一样的单词(英文中鞋分单数和双数,这里是鞋的单数),谷歌也许不会找到像鞋(这里是鞋的复数)这样的页面,因为这是两个不同的单词。但是“stemming”允许谷歌变的更聪明,让机器理解这是鞋的不同形式,就好像跑步有不同形式一样(英语中,动词有一般形式和动名词形式)。
谷歌也成为了聪明的代名词,所以当你搜索“球鞋”,他会理解为你也许意思是“跑步鞋”。它甚至有概念智慧来理解有些网页是技术公司“苹果”,有些是水果“苹果”。
知识图又是什么样的呢?
知识图是在2012年登陆的,是一种使得谷歌在单词链接上更智能的方式。更重要的是,正如谷歌所描述的一样,它知道怎样搜索非字符串的单词。
字符串仅仅是字母串的搜索,就像匹配“Obama”网页的拼写,事物的意思被替换了,当一个人搜索“Obama”时,谷歌理解为美国总统“Barack Obama”,一个实际存在的与其他人、地方或事有联系的人。
知识图是一个关于世界事的事实和事与事之间关系的数据库。这是你为什么能做像“Obama妻子什么时候出生”这样的并没有使用她的名字的搜索,但是能得到关于“Michele Obama”的答案。
RankBrain怎样重定义词条?
谷歌已经在用的重定义词条的方法都流向一些人在什么时候做什么事,并且也已经创立了词干列表或之类的列表或事物之间的数据库的联系。当然,也包含一些自动化,但很大程度上,取决于人类的工作。
问题是谷歌每天拥有30亿搜索结果。在2007年,谷歌说有20%到25%的搜索词条以前从未出现过。在2013年,数字下降到15%,谷歌已经向我们重新确认。但是30亿的15%仍然占搜索词条的很大一部分,这些从未进过人类搜索结果的词条每天大约是4千5百万。
这些可能是复杂,多词的词条,也叫作“长尾”词条。RankBrain用来更好的解释这些词条并且有效的翻译他们,在屏幕后一特定的方式为搜索者找到更好的页面。
正如谷歌告诉我们的,它可以找到看似无关的复杂的搜索词条之间的模式帮助其理解实际上他们之间是如何相似的。这种知识,反过来说,允许它更好的理解未来的复杂的搜索结果和他们是否关联到特定的话题。更重要的是,从谷歌告诉我们的内容中了解到,它可以联系到这些搜索结果的组,它认为这也许是搜索者最喜欢的。
谷歌并没有提供搜索条目的组的例子或者在RankBrain怎样猜测最适合的网页方面的细节。但是后者是有可能的,因为如果它能将模糊词条翻译的更精确,它能呈现更好的答案。
举个事例怎么样?
当谷歌没有给出搜索群的时候,Bloomberg文章一个搜索的RankBrain能提供帮助的简单的例子。事例如下:
食物链最高等级的消费者的标题是什么?
对于像我这样的外行来说,“消费者”听起来像是买东西的人。但是,消费者也是消耗食物的一个科学术语。在食物链中也有消费者的等级,消费者是最高等级吗?题目—名字—是“捕食者”。
在谷歌中输入的词条能有好的答案,即使词条本身听起来相当奇怪:
食物链最高等级的消费者的标题是什么?
现在想一下,搜索“食物链的顶端 ”的结果与上述有多相似。
想象RankBrain正在把原始的长且复杂的词条和更短的更普遍的词条连接。它理解他们是非常相似的。结果,谷歌能利用所有它知道的关于答案的更普遍的词条帮助提高它呈现给不普遍的词条的结果。
我要强调我并不知道RankBrain正连接这两个搜索词条。我只知道谷歌举了第一个例子。这只能简单的说明RankBrain也许是用来把不普遍使用的词条连接到普遍使用的词条来提高搜索结果的一种方式。
必应也能用“RankNet”这样做吗?
追溯到2005年,微软开始使用它自己的机器学习系统,叫做“RankNet”,已经成为今天必应搜索引擎的一部分。事实上,RankNet的首席研究者和创立者最近刚被承认。但是过去几年,微软几乎不提及RankNet。
你可以打赌这很可能改变。但也有趣的是,当我在必应搜索上述词条时,即展示谷歌的“RankBrain”是多么厉害的例子,必应给了我很好的结果,包括谷歌也返回的一个清单。
一个词条并不意味着必应的RankNet和谷歌的RankBrain一样好,或者两者等价。不幸的是,很难相处一个表单来做这种类型的比较。
还有更多的例子吗?
谷歌新给出一个例子“在一个杯子里有多少个汤匙”。谷歌说RankBrain对于同一条搜索条目在美国和澳大利亚能给出不同的答案,因为即使有相同的名字,但是每个国家的标准是不一样的。
我通过在Google.com和Google Australia搜索来测试。我自己并没有看到有很大的区别。即使没有RankBrain,这种方式的结果也因为“过时”经常是不同的,“过时”对于使用Google Australia的这些搜索者来说,意味着偏爱这些来源于熟知的澳大利亚的网站。
RankBrain真的有帮助吗?
尽管我上边举的两个例子作为证据证明RankBrain的伟大有些牵强,但我真的相信,就像谷歌说明的一样,它很有可能有好的效果。公司对于添加入排序算法的部分是相对保守的。它总是在做小的测验,只有当他有很大自信的时候才会上传大的改变。
加入的RankBrain,一定程度上是第三重要的信号是一个巨大的改变。它不仅仅是我认为的,只有它是有帮助的,谷歌才会这样做。
RankBrain什么时候开始?
谷歌告诉我们早在2005年已经展示过RankBrain,到目前为止它已经被充分广泛的使用了几个月。
什么样的词条是有影响的?
在2015年10月,谷歌告诉Bloomberg以前从未见过的15%的词条的很大一部分是由RankBrain所负责的,总的说来,15%或更少。
在2015年6月,新闻报道RankBrain在谷歌处理的每一个词条当中都被使用。参看我们的故事:谷歌在每一条搜索中使用的RankBrain,他们中的很多的印象排序。
RankBrain一直在学习吗?
谷歌告诉我们,RankBrain的所有学习都是线下的。它给出了几批历史搜索并且学习从这些结果里进行预测。
这些预测正在被检验,如果证明是好的,那么RankBrain最近的版本将会被激活。那么学习—离线—检验循环被重复。
RankBrain比词条重定义还多吗?
典型的说,一个词条怎样被重定义——它会通过词干,代名词或者现在的RankBrain—还没有被当做是一个排序因素或者信号。
信号是典型的连接内容的因素,就像网页的单词,指向网页的链接,是否是在秘密的服务器上的网页等等。他们也被连接到用户,就像一个搜索者被定位到哪儿或者他们的搜索结果或者浏览历史。
所以当谷歌把RankBrain作为第三重要的信号时,它真的以为着一个排序信号吗?是的,谷歌重新向我们确认RankBrain一某种方式直接影响到网页搜索结果的排序。
怎么影响呢?类似于“RankBrain分数”能评估质量吗?也许,但是更有可能是RankBrain以某种方式帮助谷歌更好的以网页包含的内容为基础进行分类,RankBrain也许能比谷歌现存的系统所做的更好的总结一个网页的相关内容。
或者不是。谷歌除了说包含排序成分之外再没有说任何内容。
我怎样更多的了解RankBrain呢?
谷歌告诉我们想了解向量的人—数学上使用单词或词组的方法—应该查阅博文,讲述了系统(过去并不叫做RankBrain)怎样仅仅通过检索新闻报道的文章学习城市的首都的概念。
一篇更长的搜索文章是以此建立的。你甚至能使用谷歌的Word2vec工具自己玩转机器学习项目。除此之外,谷歌像微软一样,在它的人工智能和机器学习文章里有它全部的领域。
一定要看我们的文章“谷歌所解释的机器学习怎样工作”。