Tag Archives: 搜索引擎

Twitter推出新版搜索引擎:查询量半年增长63%

北京时间10月7日上午消息,据国外媒体报道,Twitter周三通过官方博客宣布,已经推出了全新的搜索引擎,过去半年的查询量增长了63%。

事实上,该公司几周前就已经启用了新版搜索引擎,但本次改版并未着眼于外观,而是重点改进底层技术。Twitter称,该公司的新技术可以满足几年内的数据规模,足以应对相当于现有Twitter信息量50倍的数据。

Twitter搜索引擎的一大缺点在于,随着时间的推移,越来越难寻找过去的信息。截至9月中旬,用户最多还只能搜索前四天的 Twitter信息。而在周三的文章中,Twitter表示,该公司的搜索引擎目前已经将这一时限延长了两倍。对此进行过测试的业内人士表示,现在的确可 以搜索到7天前的Twitter信息。但是如果要查找更早的信息,则必须要借助谷歌和Topsy等搜索引擎来实现。

除此之外,Twitter还在博客文章中透露了以下重要数据:

– 每秒发送的Twitter信息达1000条;

– 每秒进行的Twitter查询达到1.2万次;

– 每天进行的Twitter查询超过10亿次(每天1,036,800,000次)。

按照上述数据计算,Twitter每月的查询达到310亿次。

值得注意的是,Twitter在对数据进行描述时,使用的是“查询”(query)而非“搜索”(search)。这是因为谷歌、雅虎和必 应等常规搜索引擎的“搜索”基本都是人工进行的,而Twitter的很多“搜索”则是由客户端自动展开的,所以用“查询”更为恰当。

但业内人士认为,如果Twitter能够公布“搜索”次数,就可以更好地与主流搜索引擎进行对比。

以下为Twitter最近公布的几次月查询量数据:

– 2010年4月14日,月查询量达190亿次;

– 2010年7月6日,月查询量达240亿次;

– 2010年10月6日,月查询量达310亿次。

按照上述数据计算,Twitter查询量6个月内增长了63%。

按照comScore公布的2009年12月各大主要搜索引擎的全球搜索请求数据计算,Twitter仅次于谷歌,位列第二。具体数据如下:

– 谷歌:每月880亿次

– Twitter:每月310亿次

– 雅虎:每月94亿次

– 必应:每月41亿次

需要注意的是,谷歌、雅虎和必应都是2009年12月的搜索数据(comScore尚未公布最新数据),而Twitter是最新的查询数 据,因此并不具备完全的可比性,只能作为参考。而且谷歌有很多通过API(应用编程接口)开展的搜索,尽管Twitter也有类似的数据,但如果进行加 总,谷歌的实际数据还将进一步领先Twitter。

另外,Facebook此前曾经公布,用户通过其服务发送的状态更新数量达到每秒700条,落后于Twitter每秒1000条的最新数据。但Facebook此后没有公布最新数据,因此无法对二者的现状进行对比。(书聿)

Twitter升级内部搜索引擎 每天处理超10亿查询

凤凰网科技讯 10月8日上午消息,据国外媒体报道,Twitter改造了其搜索引擎的后台,提高了速度并且增加了索引帖子、处理查询和提供搜索结果的容量,同时使Twitter搜索引擎稳定和更适合增加的这些新功能。

据Twitter称,在用大约6个月的时间研制这个新的后台系统之后,Twitter最近几个星期把自己的搜索引擎转移到了一个新的平台。

Twitter的搜索引擎在一个基于Summize的MySQL的系统上运行。但是,这个系统的升级一直很困难。Summize是Twitter在2008年年中收购的一家公司。

负责这个项目的工程师团队决定使用不同的技术彻底改造这个搜索引擎,使用的技术包括开源软件和用Java编写的文本搜索引擎Lucene。

Twitter修改了Lucene的一些技术,包括垃圾回收、查询终止、邮件列表以及数据结构和算法,保留了一个反向的基于索引的搜索引擎。这个搜索引擎进行了升级并且拥有更好的性能。

Twitter每秒处理1.2万个搜索查询,每天处理超过10亿个搜索查询。Twitter网站的微博发表10秒钟之后就会成为搜索索引的一部分。

Twitter官员Michael Busch在博客中称,我们预计我们仅仅使用了大约5%的后台可用资源。这就意味着我们有很大的发展空间。我们新的索引程序比我们目前使用的程序每秒处理微博的速度提高了大约50倍。

虽然Twitter将其微博的索引提供给谷歌微软必应等外部搜索引擎,但是,Twitter内部的搜索引擎是其微博服务的关键组件。

为了最大限度提高微博库的价值,Twitter必须拥有一个快速、全面和可伸缩的搜索引擎。Twitter大规模升级其搜索技术表明该公司已经认识到内部搜索能力的重要性。(编译/杨柳风)