Google官方Blog在昨天的一篇文章中写道,Google的独立URL索引数量又达到了一个新的里程碑:1万亿(1 trillion):
Google最初在1998年的时候拥有2600万页面索引,到了2000年这个数字已经增长到10亿。过去8年中我们已经看到互联网的内容是如何增长的。最近,哪怕是我们的研究人员都对这个巨大的互联网顿生敬畏,Google的独立URL索引数量又达到了一个新的里程碑:1万亿(1 trillion)。
我们是如何得到这些页面呢?从最初一些精心设计的网页开始,我们追踪它们的每一个链接,然后顺着这些链接继续走下去,直到尽头。事实上我们已经发现了远超过万亿的URL,但是并非每个都指向独立的页面,许多URL指向相同的页面或者自动生成的页面拷贝。去伪存真后我们得到了1万亿这个数字。并且这个数字还在以每天几十亿的速度增长。
事实上严格来说,页面的数字是无穷尽的,例如”Web日历“,只要顺着”下一天“走下去,总会有一个链接,这些页面被我们排除在外了。
为了跟上信息的增长,Google所做的每件事都要分成几步:一台工作站用几小时时间计算2600万个页面的PageRank图表,然后它们被Google索引使用,每隔几小时再修正一次。就像此时Google仍在不断更新页面信息,每天数次重新处理整个网络的链接图,就像是有1万亿个交叉口的地图。
ZDNet 和 CNET 科技资讯网是CNET Networks公司注册服务商标。CNET 科技资讯网 标识是 CNET Networks公司注册服务商标。
用户评论