硬件业
新闻日历
图片新闻
科学家用冷冻10年精液培育出濒危黑脚雪貂(图)
而近期在美国南达科塔州爆发的淋巴腺鼠疫导致大批的草...
2008/09/05
惊心动魄太空大冒险 揭秘“哈勃”拯救任务(图)
“亚特兰蒂斯”号航天飞机计划于10月8日发射,前往太空...
2008/09/04
科学家深入哥斯达黎加森林搜寻罕见金蟾蜍(图)
曼彻斯特大学光子科学研究所的物理学家马克·狄金森(M...
2008/09/03
英科学家构思洗云船 向天喷水减缓全球变暖(图)
斯蒂芬·索尔特在最新一期英国《自然科学汇报》发表论...
2008/09/03
分析评论
联强EMBA:到隔壁便利商店买东西,不要开车!
汽车,是一项非常便利好用的代步工具,现代人几乎不可...
2008/08/29
炳叔IT路况:方正集团的金钱帝国
方正集团发行20亿元人民币的短期融资债券,只需向全国...
2008/08/27

Google已索引1万亿独立URL




作者: Kaiputer 驱动之家
CNETNews.com.cn
2008-07-26 23:05:02

  Google官方Blog在昨天的一篇文章中写道,Google的独立URL索引数量又达到了一个新的里程碑:1万亿(1 trillion):

  Google最初在1998年的时候拥有2600万页面索引,到了2000年这个数字已经增长到10亿。过去8年中我们已经看到互联网的内容是如何增长的。最近,哪怕是我们的研究人员都对这个巨大的互联网顿生敬畏,Google的独立URL索引数量又达到了一个新的里程碑:1万亿(1 trillion)。

  我们是如何得到这些页面呢?从最初一些精心设计的网页开始,我们追踪它们的每一个链接,然后顺着这些链接继续走下去,直到尽头。事实上我们已经发现了远超过万亿的URL,但是并非每个都指向独立的页面,许多URL指向相同的页面或者自动生成的页面拷贝。去伪存真后我们得到了1万亿这个数字。并且这个数字还在以每天几十亿的速度增长。

  事实上严格来说,页面的数字是无穷尽的,例如”Web日历“,只要顺着”下一天“走下去,总会有一个链接,这些页面被我们排除在外了。

  为了跟上信息的增长,Google所做的每件事都要分成几步:一台工作站用几小时时间计算2600万个页面的PageRank图表,然后它们被Google索引使用,每隔几小时再修正一次。就像此时Google仍在不断更新页面信息,每天数次重新处理整个网络的链接图,就像是有1万亿个交叉口的地图。

用户评论

  • 用户名
  • 评论内容