| robinliu's profile柳焕斌:搜索引擎优化SEO研究BlogLists | Help |
|
|
May 30 搜索引擎的发展史之中文搜索引擎介绍Openfind搜索引擎 www.openfind.com.tw
Openfind 创立于1998年1月,其技术源自台湾中正大学吴升教授所领导的GAIS实验室。Openfind起先只做中文搜索引擎,鼎盛时期同时为三大著名门户新浪、奇摩、雅虎提供中文搜索引擎,但2000年后市场逐渐被Baidu和Google瓜分。2002年6月,Openfind重新发布基于GAIS30 Project的Openfind搜索引擎Beta版,推出多元排序(PolyRankTM),宣布累计抓取网页35亿,开始进入英文搜索领域,此后技术升级明显加快。
天网搜索引擎 www.keepso.com
北大天网 是国家"九五"重点科技攻关项目"中文编码和分布式中英文信息发现"的研究成果,由北大计算机系网络与分布式系统研究室开发,于1997年10月29日正式在CERNET上提供服务。2000年初成立天网搜索引擎新课题组,由国家973重点基础研究发展规划项目基金资助开发,收录网页约6000万,利用教育网优势,有强大的ftp搜索功能。
百度搜索引擎 www.baidu.com
Baidu 2000年1月,两位北大校友 超链分析专利发明人、前Infoseek资深工程师李彦宏与好友 徐勇(加州伯克利分校博士后)在北京中关村创立了百度(Baidu)公司。2001年8月发布Baidu.com搜索引擎Beta版(此前Baidu只为其它门户网站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索。Baidu搜索引擎的其它特色包括:百度快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、mp3搜索、Flash搜索。2002年3月闪电计划(Blitzen Project)开始后,技术升级明显加快。
中国搜索 www.zhongsou.com
中国搜索(原慧聪搜索)2002年正式进入中文搜索引擎市场,2003年8月24日 慧聪搜索(现中国搜索)正式推出第三代智能中文搜索引擎.2003年12月23日 慧聪搜索正式独立运作,成立中国搜索,陈沛出任CEO,同时推出中国搜索新闻中心。2004年2月26日 中国互联网新闻中心、IDG集团注资中国搜索,成立合资公司。并提出"个人门户时代"的创新理念。2004年2月26日 中搜桌面搜索引擎网络猪1.0版公开发布。实现主要功能:桌面搜索、个性化定制新闻专题、行业资讯、对接即时通(IMU)、自写短信功能、智能搜索(按照用户天气预报设置的城市,在目标城市范围内进行搜索),目前最新版本是3.0beta。中搜目前提供网页、新闻、行业、网站、Mp3、图片、购物、地图等搜索,其中行业搜索较有特色。
搜狗搜索 www.sogou.com
搜狗是搜狐公司于2004年8月3日推出的完全自主技术开发的全球首个第三代互动式中文搜索引擎,是一个具有独立域名的专业搜索网站--“搜狗”(www.sogou.com)。以一种人工智能的新算法,分析和理解用户可能的查询意图,给予多个主题的“搜索提示”,在用户查询和搜索引擎返回结果的人机交互过程中,引导用户更快速准确定位自己所关注的内容,帮助用户快速找到相关搜索结果,并可在用户搜索冲浪时,给与用户未曾意识到的主题提示。
爱问搜索 www.iask.com
“爱问iAsk”是新浪完全自主研发的搜索产品,采用了目前最为领先的智慧型互动搜索技术,充分体现人性化应用的产品理念,为广大网民提供全新搜索服务。
SOSO搜索 www.soso.com
soso.com并没有全新的中文名称,只是称为“QQ搜索”,后面有“想你 所想,搜你所搜”的字样。soso.com主要提供网页、图片、音乐、文档、新闻等搜索方式,此外还可以单独搜索QQ.com站内的内容。
以上信息搜集于网络。 搜索引擎的发展史之英文搜索引擎介绍Yahoo搜索 www.yahoo.com 1994年4月,Stanford University的两名博士生,美籍华人 Jerry Yang (杨致远)和David Filo共同创办了Yahoo (Jerry Yang Alerts a Usenet group to the Yahoo Database , 1996年的Yahoo )。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。Wanderer只抓取URL,但URL信息含量太小,很多信息难以单靠URL说清楚,搜索效率很低。Yahoo!中收录的网站,因为都附有简介信息,所以搜索效率明显提高。(注:Yahoo以后陆续使用Altavista、Inktomi、Google提供搜索引擎服务;2002年10月9日,Yahoo放弃自己的网站目录默认搜索,改为默认Google的搜索结果,成为一个真正的搜索引擎。并于2002年12月23日收购inktomi,于2003年7月14日收购包括Fast和Altavista在内的Overture。) 1994年初,Washington大学CS学生 Brian Pinkerton 开始了他的小项目 WebCrawler (Brian Pinkerton Announces the Availability of Webcrawler )。1994年4月20日,WebCrawler正式亮相时仅包含来自6000个服务器的内容。WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字。后来webcrawler陆续被AOL和Excite收购,现在和excite一样改用元搜索引擎Dogpile) 。
Lycos搜索 www.lycos.com Lycos (Carnegie Mellon University Center for Machine Translation Announces Lycos )是搜索引擎史上又一个重要的进步。Carnegie Mellon University的 Michael Mauldin 将John Leavitt的spider程序接入到其索引程序中,创建了Lycos。1994年7月20日,数据量为54,000的Lycos正式发布。除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量:1994年8月--394,000 documents;1995年1月--1.5 million documents;1996年11月--over 60 million documents。(注:1999年4月,Lycos停止自己的Spider,改由Fast提供搜索引擎服务) Infoseek (Steve Kirsch Announces Free Demos Of the Infoseek Search Engine )是另一个重要的搜索引擎,虽然公司声称1994年1月已创立,但直到年底它的搜索引擎才与公众见面。起初,Infoseek只是一个不起眼的搜索引擎,它沿袭Yahoo!和Lycos的概念,并没有什么独特的革新。但是它的发展史和后来受到的众口称赞证明,起初是否第一个登台并不总是很重要。Infoseek的友善用户界面、大量附加服务(such as UPS tracking, News, a directory, and the like) 使它声望日隆。而1995年12月与Netscape的战略性协议,使它成为一个强势搜索引擎:当用户点击Netscape浏览器上的搜索按钮时,弹出Infoseek的搜索服务,而此前由Yahoo!提供该服务。(注:Infoseek后来曾以相关性闻名,2001年2月,Infoseek停止了自己的搜索引擎,开始改用Overture 的搜索结果,目前Infoseek属于The Walt Disney Internet Group (WDIG)迪斯尼互联网集团,网址改为Go.com,使用google的搜索结果。) 1995年,一种新的搜索引擎形式出现了——元搜索引擎(A Meta Search Engine Roundup )。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。第一个元搜索引擎,是Washington大学硕士生 Eric Selberg和 Oren Etzioni 的 Metacrawler 。(注:元搜索引擎概念上好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。)
Altavista搜索 www.altavista.com DEC的 AltaVista (2001年夏季起部分网友需通过p-roxy访问,无p-roxy可用 qbseach 单选altavista搜索,只能显示第一页搜索结果)是一个迟到者,1995年12月才登场亮相(AltaVista Public Beta Press Release )。但是,大量的创新功能使它迅速到达当时搜索引擎的顶峰。Altavista最突出的优势是它的速度(比较搞笑,设计altavista的目的,据说只是为了展示DEC Alpha芯片的强大运算能力)。 而Altavista的另一些新功能,则永远改变了搜索引擎的定义。 然后到来的是 Inktomi 。1995年9月26日,加州伯克利分校CS助教 Eric Brewer 、博士生Paul Gauthier创立了Inktomi(UC Berkeley Announces Inktomi ),1996年5月20日,Inktomi公司成立,强大的 HotBot 出现在世人面前。声称每天能抓取索引1千万页以上,所以有远超过其它搜索引擎的新内容。HotBot也大量运用cookie储存用户的个人搜索喜好设置。(注:Hotbot曾是随后几年最受欢迎的搜索引擎之一,后被Lycos收购;inktomi于2002年12月23日被Yahoo收购) Northernlight 公司于1995年9月成立于马萨诸塞州剑桥,1997年8月,Northernlight搜索引擎正式现身。它曾是拥有最大数据库的搜索引擎之一,它没有Stop Words,它有出色的Current News、7,100多出版物组成的Special Collection、良好的高级搜索语法,第一个支持对搜索结果进行简单的自动分类。(注:2002年1月16日,Northernlight公共搜索引擎关闭,随后被divine收购,但在 Nlresearch ,选中"World Wide Web only",仍可使用Northernlight搜索引擎)
Google搜索 www.google.com 1998年10月之前, Google 只是Stanford(斯坦福)大学的一个小项目 BackRub 。1995年博士生 Larry Page 开始学习搜索引擎设计,于1997年9月15日注册了google.com的域名,1997年底,在 Sergey Brin 和 Scott Hassan、Alan Steremberg 的共同参与下,BachRub开始提供 Demo 。1999年2月,Google完成了从 Alpha 版到 Beta版的蜕变。Google公司则把1998年9月27日认作自己的生日。 (注:2004年8月份Google上市,到2004年底,Google股价达到了185美元,赢利额增加222倍。2005年2月3日,在Google公布了高于预期的第四季度财报后,以股票市场价值为标准,它已取代eBay成为了市值第一的网络公司。目前Google的市值高达560亿美元,已接近美国媒体巨头迪斯尼的市值,甚至超过了通用汽车及美国铝公司(Alcoa)市值的总和。2月2日Google在纳斯达克的股价一度升高到每股216.80美元,再次刷新了它的股价记录,随后以205.96美元收盘,当天整体上涨了7.3%。)
Fast搜索 www.fastsearch.com Fast(Alltheweb)公司创立于1997年,是挪威科技大学(NTNU)学术研究的副产品。1999年5月,发布了自己的搜索引擎AllTheWeb。Fast创立的目标是做世界上最大和最快的搜索引擎,几年来庶几近之。Fast(Alltheweb)的网页搜索可利用 ODP 自动分类,支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、MP3、和FTP搜索,拥有极其强大的高级搜索功能。(2003年2月25日,Fast的互联网搜索部门被Overture收购,目前支持中文搜索。)
Teoma搜索-Search with Authority www.teoma.com Teoma 起源于1998年Rutgers大学的一个项目。 Apostolos Gerasoulis 教授带领华裔 Tao Yang 教授等人创立Teoma于新泽西Piscataway,2001年春初次登场,2001年9月被提问式搜索引擎 Ask Jeeves 收购,2002年4月再次发布。Teoma的数据库目前仍偏小,但有两个出彩的功能:支持类似自动分类的Refine;同时提供专业链接目录的Resources。目前不支持中文搜索。2006年2月26日,Teoma 与ask搜索合并,不再作为一个独立的搜索引擎。
Wisenut搜索-search exactly www.wisenut.com Wisenut 由韩裔Yeogirl Yun创立。2001年春季发布Beta版,2001年9月5日发布正式版,2002年4月被分类目录提供商 looksmart 收购。wisenut也有两个出彩的功能:包含类似自动分类和相关检索词的WiseGuide;预览搜索结果的Sneak-a-Peek。目前不支持中文搜索。
Gigablast搜索-Information Acceleration www.gigablast.com Gigablast 由前Infoseek工程师Matt Wells创立,2002年3月展示pre-beta版,2002年7月21日发布Beta版。Gigablast的数据库目前仍偏小,但也提供网页快照,一个特色功能是即时索引网页,你的网页刚提交它就能搜索(注:这个spammers的肉包子功能暂已关闭)。目前不支持中文搜索。
MSN搜索 search.msn.com 微软公司一直以来通过雅虎公司旗下Inktomi支持其搜索服务,但早在2003年,看到Google引领搜索广告并从中获得大量利润之时,位于华盛顿雷蒙德的微软公司就有了创建自己搜索引擎的决定。凭借微软雄厚的软件技术实力,2004年11月微软推出MSN搜索测试版,经过三个月的初步测试,2005年2月1日微软终于推出了MSN搜索正式版。目前MSN搜索提供Web、News、Images、Music、Desktop.BETA、Encarta等的搜索,比较有特色的是可以直接进入Encarta(微软的百科全书)进行答案搜索。虽然微软如此之晚才进入搜索领域,但凭借它的技术、市场、资金等优势,势必将对现今的搜索格局产生重大影响。
2005年市场研究公司Keynote进行的一项调查显示,目前全球五大搜索引擎排名为:
这五大公司基本上把搜索引擎发展历史上出现过的有些名气的搜索引擎悉数收归所有。其中:yahoo收购了Inktomi,Overture(该公司收购了Fast,Altavista),Ask Jeeves收购了Teoma,excite。
未完待续,下一篇文章将会介绍中文搜索引擎。
以上信息搜集于网络。 May 29 搜索引擎的发展史Robin说明:由于很多朋友对搜索引擎的一些基本常识不是很清楚,从今天起特别开设搜索引擎常识栏目,将会陆续介绍一些搜索引擎发展的信息。
由于Archie深受欢迎,受其启发,Nevada(美国的内华达州) System Computing Services大学于1993年开发了一个Gopher(Gopher FAQ )搜索工具Veronica(Veronica FAQ )。Jughead是后来另一个Gopher搜索工具。 Robot(机器人)一词对编程者有特殊的意义。Computer Robot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为spider( Spider FAQ )程序。世界上第一个Spider程序,是MIT Matthew Gray 的Worldwide Web Wanderer,用于追踪互联网发展规模。刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址(URL)。 与Wanderer相对应,1993年10月 Martijn Koster 创建了 ALIWEB (Martijn Koster Annouces the Availability of Aliweb ),它相当于Archie的HTTP版本。ALIWEB不使用网络搜寻Robot,如果网站主管们希望自己的网页被ALIWEB收录,需要自己提交每一个网页的简介索引信息,类似于后来大家熟知的Yahoo。 随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此,在Wanderer基础上,一些编程者将传统的Spider程序工作原理作了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从一个网站开始,跟踪所有网页上的所有链接,就有可能检索整个互联网。到1993年底,一些基于此原理的搜索引擎开始纷纷涌现,其中最负盛名的三个是:Scotland的JumpStation、Colorado 大学Oliver McBryan的The World Wide Web Worm(First Mention of McBryan's World Wide Web Worm )、NASA的Repository-Based Software Engineering (RBSE) spider。JumpStation和WWW Worm只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果,因此毫无信息关联度可言。而RBSE是第一个索引Html文件正文的搜索引擎,也是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎。 Excite 的历史可以上溯到1993年2月,6个Stanford(斯坦福)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。到1993年中,这已是一个完全投资项目Architext,他们还发布了一个供webmasters在自己网站上使用的搜索软件版本,后来被叫做Excite for Web Servers。(注:Excite后来曾以概念搜索闻名,2002年5月,被Infospace收购的Excite停止自己的搜索引擎,改用元搜索引擎 Dogpile 。目前Excite隶属于Ask Jeeves公司。) 1994年1月,第一个既可搜索又可浏览的分类目录EINet Galaxy (Tradewave Galaxy)上线。除了网站搜索,它还支持Gopher和Telnet搜索。
未完待续。。。
版权:以上信息搜集于网络,非原创,作者信息在多次转载中遗失。 |
|
|