Google:0.2秒和80亿张网页的谜团
从对于浏览者而言,Google 系统内部的运算机制永远是个不可知的谜团。
随手打开一个Google 技术迷的网络日志,你会看见这些叫人眼花缭乱的组合单词:“HillTop”,一种“专家系统”排名机制,决定着各个页面在搜索结果中的位置;“PageRank”,某张网页在Google 搜索引擎内部所拥有的等级,其数值与网页的重要性正相关;“AdSense”目前最受欢迎的互联网关键词广告系统,在众多参与该计划的页面上投放⋯⋯这些专利支撑着Google 的高速运转,夜以继日地为浏览者提供最实用的反馈信息。
这听起来叫人晕头转向,但实际上,用户需要学会的只是:输入关键词,并点击“Google 搜索”。对结果页面的等待,大约将会花去0.2 秒的时间。在这个过程中,你应该可以迅速完成眨眼的动作。是的,几乎所有的门户网站都在强调用户的“眼球滞留时间”,而Google 却坚持让浏览者在最短时间内离开自己的页面。
让时间倒回2005 年8 月。在那个不太安宁的夏天,Yahoo!宣称自己的可搜索页面已经达到192 亿,远远超过Google 的80 亿,是全球最大的搜索引擎。尽管学术界迅速对Yahoo!的说法提出了质疑,但Google 还是回应将减少搜索引擎可搜索网页的数量,同时宣称今后不会再在首页下方即时公布这一数字。Google 消费网络产品部门主管玛丽莎·梅耶((Marissa Mayer)表示:“用户很容易就能发现Google 的搜索数据库更有价值。”毕竟,大部分用户只需要更有用的搜索结果,他们从不关心这些毫无意义的数字。对于浏览者而言,Google 系统内部的运算机制永远是个不可知的谜团。
那么,在这0.2 秒的平均时间里,到底发生了什么呢?作为一个以算法取胜的搜索引擎,“Google自然不会将这些机密与世人尽数分享。否则,希望通过作弊手段提高搜索排名的网站管理员就会有机可乘。但是,也正因为如此,外界对这个“黑匣子”的争论始终不绝于耳。
2003 的11 月16 日,在那次被称为“Google Florida”的更新中,Google 对其排名算法进行了大规模改动,并导致众多排名靠前的网站在一夜之间被打入冷宫。实际上,在每个更新周期中,Google 都可能会对排名算法做一些细微的调整。但面对如此大刀阔斧的变动,整个行业都始料不及。但这也并非无迹可寻,从公司创始人拉里·佩奇((Larry Page)创造的“PageR-ank”机制,再到两年前浮出水面的“HillTop”算法和“TSPR”理论,Google 始终在向“完美的搜索引擎”稳步逼近——如拉里·佩奇所定义的那样,可以“确解用户之意,切返用户之需”。
在刚刚过去的2 月,Google 将旗下的即时通讯产品Google Talk 和电子邮箱系统Gmail 进行了成功的对接,被网民们称为“完美之举”。而此前推出的“Google 搜寻记录”功能也平滑地实现了用户和公司间双赢的局面——用户最终获得了便利,而公司则得到了宝贵的用户上网数据。
人们很难想象,Google 这样一个精妙而伟大的系统竟然构建在几万台极不稳定的普通PC 电脑上。2002 年2 月,由于某个数据中心的主电源跳闸,Google 瘫痪将近1 个小时。此后,Google就改变了自己的文件系统,任何数据都被存放在分别首控于3 个电闸并位于3 个不同支架的3 台电脑上。当正常运作时,数据在网页服务器、索引服务器、文件服务器间高速轮转,并且瞬间传回客户端。如果遭遇损坏,即便一个拥有80 台电脑的支架被断开连接,Google 也能迅速完成再一次的备份,而且,并不中断正常的服务。
这不禁叫人想起比尔·盖茨在2004 年提出的“无缝运算((SeamlessComputing)”概念。当我们再度审视这个假想,Google 已经在不经意间实现了对手纸上谈兵的构思。面对Google.com 首页上的文本框,即便我们已经略知皮毛,却依然难以将其与背后庞大的支撑系统相联系。