搜索引擎

Google搜索引擎(截图,2010年7月)
Google搜索引擎(截图,2010年7月)
  中文名称:搜索引擎  英文名称:search engine  定义:万维网环境中的信息检索系统(包括目录服务和关键字检索两种服务方式)。  所属学科:通信科技(一级学科) ;交换选路(二级学科)   搜索引擎指自动从因特网搜集信息,经过一定整理以后,提供给用户进行查询的系统。因特网上的信息浩瀚万千,而且毫无秩序,所有的信息像汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎则为用户绘制一幅一目了然的信息地图,供用户随时查阅。从使用者的角度看,搜索引擎提供一个包含搜索框的页面,在搜索框输入词语,通过浏览器提交给搜索引擎后,搜索引擎就会返回跟用户输入的内容相关的信息列表。

历史

  1990年初当时万维网还未出现,为了查询散布在各个分散的主机中的文件,曾有过Archie、Gopher等搜索工具,随着互联网的迅速发展,基于HTTP访问的web技术的迅速普及,他们就不再能适应用户的需要。在1994年1月,第一个既可搜索又可游览的分类目录EINet Galaxy(Tradewave Galaxy)上线,它还支持Gopher和Telnet搜索。同年4月,Yahoo目录诞生,随着访问量和收录链接数的增长,开始支持简单的数据库查询。这就是我们说的早期的目录导航系统,他们的缺点是网站收录/更新都要靠人工维护,所以在信息量剧增的条件下,就不是非常受用了。  1994年7月,Lycos推出了基于robot的数据发掘技术,并支持搜索结果相关性排序,并且他第一个开始在搜索结果中使用了网页自动摘要。Infoseek也是同时期的一个重要代表,他们是搜索引擎史上一个重要的进步。  1995年,一种新的搜索引擎工具出现了——元搜索引擎,第一个元搜索引擎是华盛顿大学的学生开发的Metacrawler。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。  1995年12月才登场亮相的AltaVista推出了大量的创新功能使它迅速到达当时搜索引擎的顶峰,它第一个支持自然语言搜索的搜索引擎,具备了基于网页内容分析,智能处理的能力,第一个实现高级搜索语法的搜索引擎(如AND、OR、NOT等),同时AltaVista还支持搜索新闻组,搜索图片等具有划时代意义的功能。同时期还有inktomi、HotBot等搜索引擎。  1997年8月Northernlight公司正式推出搜索引擎,它第一个支持对搜索结果进行简单的自动分类,也是当时拥有最大数据库的搜索引擎之一。  1998年10月,Google诞生。它是目前世界上最流行的搜索引擎之一,具备很多独特而且优秀的功能,并且在界面等实现了革命性创新。  1999年5月,Fast(Alltheweb)公司发布了自己的搜索引擎AllTheWeb,它的网页搜索可利用ODP自动分类,支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、MP3、和FTP搜索,拥有极其强大的高级搜索功能。它曾经是最流行的搜索引擎之一,后在2003年2月被Overture收购。  在中文搜索引擎领域,1996年8月成立的搜狐公司是最早参与作网络信息分类导航的网站,曾一度有“出门找地图,上网找搜狐”的美誉。由于其人工分类提交的局限性,随着网络信息的暴增,逐渐被基于robot自动抓取智能分类的新一代信息技术取代。  台湾中正大学吴升教授所领导的GAIS实验室1998年1月创立了Openfind中文搜索引擎,是最早开发的中文智能搜索引擎,采用GAIS实验室推出多元排序(PolyRankTM)内核技术,截止2002年6月,宣布累计抓取网页35亿,开始进入英文搜索领域。  北大天网是教育网最流行的搜索引擎,它由北大计算机系网络与分布式系统研究室开发,于1997年10月29日正式在CERNET上提供服务, 2000年初成立天网搜索引擎新课题组,由国家973重点基础研究发展规划项目基金资助开发,收录网页约6000万,利用教育网优势,有强大的ftp搜索功能。 
百度搜索引擎(截图,2010年7月)
百度搜索引擎(截图,2010年7月)
 百度中文搜索由超链分析专利发明人、前Infoseek资深工程师李彦宏和好友徐勇2000年1月创建,目前支持网页信息检索,图片,Flash,音乐等多媒体信息的检索。并且百度在中文领域第一个开始使用ppc经营模式。  2002年开始很多公司受搜索市场前景和Google神话的吸引,积极进入搜索引擎市场,谋求一席之地。但是不幸的是他们当中很多公司尤其是不少中国公司采用流氓手段进行自己搜索引擎的推广工作,常用的手段是游览器劫持、恶意捆绑adware/spyware等等,比较恶劣的典型公司是中搜、3721等等。中搜是由慧聪国际主持开发的,自称是搜索领域的后起之秀。目前处于起步阶段,但是采用流氓软件手段推广后,强占了不少用户的搜索引擎选择。2003年年底慧聪搜索改名为中国搜索,推出第三代智能搜索引擎。最近中国搜索主推桌面搜索——网络猪,是备受争议的流氓软件之一。  2003年11月,Yahoo全资收购3721公司。2005年8月,阿里巴巴和Yahoo达成战略合作,全资收购雅虎中国,并更名为阿里巴巴雅虎,并将其业务重点全面转向搜索领域。  2004年8月3日,搜狐公司推出中文搜索引擎搜狗。  2006年9月,微软公司正式推出了拥有自主研发技术的Live Search,宣布进军搜索引擎市场,挑战Google在网络搜索领域的霸主地位。  2006年12月,网易公司推出中文搜索引擎有道。  2009年6月1日,微软正式上线原名为Kumo的搜索引擎Bing,中文名“必应”,但是由于不久后的“六四事件”20周年,Bing只在中国上线了1天即被防火长城封锁,6月6日,Bing解封。  2009年11月,微软学术搜索Microsoft Academic Search beta版激活,该搜索引擎目前主要提供计算机学科及相关领域的学术论文、作者、会议和学术期刊。

搜索引擎的工作原理

  搜索引擎的工作原理大致可以分为:
  搜集信息:搜索引擎的信息搜集基本都是自动的。搜索引擎利用称为网络蜘蛛的自动搜索机器人程序来连上每一个网页上的超链接。机器人程序根据网页链到其中的超链接,就象日常生活中所说的“一传十,十传百……”一样,从少数几个网页开始,连到数据库上所有到其他网页的链接。理论上,若网页上有适当的超链接,机器人便可以遍历绝大部分网页。
  整理信息:搜索引擎整理信息的过程称为“创建索引”。搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则进行编排。这样,搜索引擎根本不用重新翻查它所有保存的信息而迅速找到所要的资料。想象一下,如果信息是不按任何规则地随意堆放在搜索引擎的数据库中,那么它每次找资料都得把整个资料库完全翻查一遍,如此一来再快的计算机系统也没有用。
  接受查询:用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回资料。搜索引擎每时每刻都要接到来自大量用户的几乎是同时发出的查询,它按照每个用户的要求检查自己的索引,在极短时间内找到用户需要的资料,并返回给用户。目前,搜索引擎返回主要是以网页链接的形式提供的,这样通过这些链接,用户便能到达含有自己所需资料的网页。通常搜索引擎会在这些链接下提供一小段来自这些网页的摘要信息以帮助用户判断此网页是否含有自己需要的内容。
  整理信息及接受查询的过程,大量应用了文本信息检索技术,并根据网络超文本的特点,引入了更多的信息。

搜索引擎分类

各类搜索引擎
各类搜索引擎

·全文索引

  全文索引引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。    根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的网页抓取、索引、检索系统(Indexer),有独立的“蜘蛛”(Spider)程序、或爬虫(Crawler)、或“机器人”(Robot)程序(这三种称法意义相同),能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google和百度就属于此类;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。

·目录索引

  目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo、新浪分类目录搜索。

·元搜索引擎

  元搜索引擎(META Search Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如 Vivisimo。

·垂直搜索引擎

  垂直搜索引擎为2006年后逐步兴起的一类搜索引擎。不同于通用的网页搜索引擎,垂直搜索专注于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索等等),在其特定的搜索领域有更好的用户体验。相比通用搜索动辄数千台检索服务器,垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样。

·其他非主流搜索引擎形式

  1、集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot在2002年底推出的搜索引擎。  2、门户搜索引擎:AOL Search、MSN Search等虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。  3、免费链接列表(Free For All Links简称FFA):一般只简单地滚动链接条目,少部分有简单的分类目录,不过规模要比Yahoo!等目录索引小很多。

搜索引擎怎样判断网页所使用的语言

  人们喜欢以他们所知道的语言列出的搜索结果,这对搜索营销人员是十分重要的。当一个搜索者输入上面图中的搜索请求时,只有用中文写的网页将被显示在搜索结果里面。  在有些国家,例如日本和中国,大部分搜索者想要结果限制在母语上。但是在其他地方例如瑞典,搜索可以采用瑞典语和英语来进行。不同国家的搜索者有不同的语言偏好。  对搜索营销人员而言,重要的是搜索引擎知道网页所使用的语言,如果网页没能被正确地识别,可能就会从本应发现它的搜索者面前消失,从而降低你的引荐访问。  那么搜索引擎是怎样判断网页所使用的语言呢?这里有很多不同的方法:

·语言meta标签

  很多网页通过一个HTML标签来表明网页使用的语言,例如<META http-equiv=”content-language” content="ja"> 表示使用的是日语,看起来简单,搜索蜘蛛程序读取标签,于是搜索引擎知道是什么语言了。但是相对多的语言meta标签是完全错误的,没有标签,句法错误,以及语言编码错误等等。搜索引擎确实查看这些标签,但是它们很少只从这些标签来判定网页的语言。

·字符编码

  计算机文件(包括HTML网页)需要“对译本(Key)”正确翻译文件中的字符(字母,数字等等)。这种对译本被称为字符编码。由网页中meta标签里声明,例如<META http-equiv=content-type content="text/html; charset=GBK">。  网站浏览器和搜索蜘蛛程序假定网页按照西方语言编码,因此使用这些语言写的网页不需要这个标签。为了浏览器显示正确,亚洲、阿拉伯和古代斯拉夫语的文本确实需要这个标签。因此,当搜索引擎看到针对这些语言的表情,它对正确显示网页的语言有了很高的保证。

·内容分析

  搜索引擎通过研究内容中的字符模式来最终判定网页的语言,哪怕是短到只有两句话的网页,内容分析的精确度也非常高。Meta标签只有在内容分析后还不确定的情况下才被使用。  多数情况下,搜索引擎会自行正确地判断网页的内容,对于只有很少几个词的网页,要保证网页被正确识别,正确的编码语言和meta语言标签很重要。

搜索引擎的商务

  搜索引擎的商务是一种新的商业模式,在中国大陆还有很多人用网址大全去寻找商业平台网站的时候,搜索引擎营销的方式慢慢的兴起,越来越多的买家又或卖家通过搜索引擎来寻找自己的需要。其中以Google最为出名,可以说是一代搜索引擎的楷模。Google以其优秀的搜索算法,不被竞价排名所笼罩的口碑成为全世界最为出名的搜索引擎。  在搜索引擎发展早期,多是作为技术提供商为其他网站提供搜索服务,网站付钱给搜索引擎。后来,随着2001年互联网泡沫的破灭,大多转向为竞价排名方式。     现在搜索引擎的主流商务模式(百度的竞价排名、Google的AdWords)都是在搜索结果页面放置广告,通过用户的点击向广告主收费。这种模式最早是比尔·格罗斯(Bill Gross)提出的。他于1998年6月创立GoTo公司(后于2001年9月更名为Overture),实施这种模式,取得了很大的成功,并且申请了专利。这种模式有两个特点,一是点击付费(Pay Per Click),用户不点击则广告主不用付费。二是竞价排序,根据广告主的付费多少排列结果。 2001年10月,Google推出AdWords,也采用点击付费和竞价的方式。2002年,Overture起诉Google侵犯了其专利。2004年8月,和Yahoo!(Yahoo!于2003年7月收购Overture)达成和解,向后者支付了270万普通股(合3亿美元不到)作为和解费。     AdSense是Google于2003年推出的一种新的广告方式。AdSense使各种规模的的第三方网页发布者进入Google庞大的广告商网络。Google在这些第三方网页放置跟网页内容相关的广告,当浏览者点击这些广告时,网页发布者能获得收入。AdSense在blogger中很受欢迎。同时,Google武断地删除一些帐号,引起部分人的不满。类似的广告方式,其他搜索引擎也先后推出。雅虎的广告方式是YPN(Yahoo Publisher Network),YPN 除了可以在网页上显示与内容相关的广告以外,还可以通过在 RSS 订阅中来显示广告。微软的广告计划叫AdCenter。百度也推出主题推广。

搜索引擎的未来展望

  随着互联网的发展,网上可以搜索的网页变得愈来愈多,而网页内容的质素亦变得良莠不齐,没有保证。所以,未来的搜索引擎将会朝着知识型搜索引擎的方向发展,期以为搜索者提供更准确及适用的数据。目前,网上的百科全书如雨后春笋般发展起来;另一方面,近年来亦有不少公司尝试在搜索方面改进,务求更符合用户的要求。当中诸如Copernic Agent之类的搜索代理就是其中之一。