邢志宇
在浩瀚无序的网络世界查找特定信息,无疑需要借助网络资源整序及其查询工具。搜索引擎是打开网络之门的钥匙,是发掘和利用网络资源最有效的工具。资源整序技术和查询方式不同,决定了搜索引擎的不同类型。依据整序和查询的原理与工作方式,我们可以把搜索引擎分为全文搜索引擎(Full Text Search Engine)和分类搜索引擎(Directory)两种类型。
全文搜索引擎利用“蜘蛛”(Spider)或“机器人”(Robot)程序(类似程序还有:crawler、agent、wanderer等等)自动漫游Internet,遍历网页,根据特定规则索引并生成网页数据库,接到搜索请求时,在数据库中进行检索符匹配运算,按照一定的排序规则提交搜索结果。
分类搜索引擎采用网站登录/收录方式,依据主旨、用户对象及网络资源状况构建分类体系,把收集到本地的网站页面进行人工编辑,层层类分,形成纵向隶属、横向关联的网站目录数据库。用户依据类目体系及其规则分类检索,逐类浏览,直至获得所需资源。
1、分类搜索引擎的产生和发展
首先应该明白,当我们使用搜索引擎时,我们并不是在搜索互联网,而是在搜索引擎的数据库中提取所需信息。分类的网页搜索与关键词的全文搜索的本质区别是,前者的数据库由人工建立,而后者的数据库则是Robot之类的程序自动生成。
英国软件工程师Martijn Koster第一个提出人工描述网页并编制网页索引数据库的构想,他于1993年11月30日创建了AliWeb(Archie Like Indexing In The Web)。当时,FTP搜索是一种主要的网络搜索方式,Archie是著名的FTP搜索引擎。AliWeb数据库由网站管理员提交的网站列表和站内各个网页的简介构成。与“蜘蛛”程序生成的索引(spider indexe)不同,AliWeb只能查找进入数据库的文件,而不能对文件的具体内容进行检索。由于管理等方面的原因,向AliWeb提交网站列表和网页简介的管理员缺乏热情,而数据库的的空乏又使用户逐渐对它失去了兴趣,“无鸡便无蛋无蛋便无鸡”的结果,使它无疾而终。在AliWeb之前,尚无人涉足人工索引和分类浏览检索,Martijn Koster人工描述网页,建立索引数据库屏弃无用结果的方法,至今被广泛采用,最终诱发了分类导航网站和分类搜索引擎的诞生。(1)(2)
1994年对分类搜索引擎有着划时代的意义,这年的1月,美国德克萨斯大学推出了第一个可供检索的网络分类目录---EINet Galaxy。研发Galaxy 的最初动因是为了用于电子商务的大型目录指南服务。1995年4月Galaxy由一个研究项目演变为商业实体,1997年Galaxy被著名的网络安全公司CyberGuard收购,1998年9月CyberGuard 把Galaxy买给美国健康网(AHN.COM), 1999年5月Fox/News公司介入Galaxy,2000年5月几经变故的Galaxy,终于成为以galaxy.com而为令人注目的,以分类目录搜索而著名的自主独立的公司。(3)
Yahoo!(www.yahoo.com)是美国斯坦福大学的两名博士生不经意间创造出来的奇迹,开创了分类目录导航搜索的新时代,
1994年2月大卫·费罗(David Filo)和杨致远(Jerry Yang)把他们平时搜集的与个人兴趣和学习相关的网络资源在校园网上建立了一个网络资源指南。他们花费大量时间编制资源列表,当最终由于列表太长而难以处理时,只得把资源列表分割为若干相关的单元归入若干大类,大类内容过于庞大而不便查找和管理时,又在大类下划分子类,子类下再依次划分更小的类目...。这时,支持今天Yahoo!的核心理念诞生了。(4)
Yahoo!最初以“Jerry互联网指南”(Jerry's Guide to the World Wide Web)为世人所知,1994年底Yahoo!的访问量首次突破100万人次。1995年4月美国Sequoia Capital风险投资公司向Yahoo!注资近200万美元,
Yahoo!从此步入快速发展时期。(5)。现在,Yahoo!在全球共有24个网站,12种语言版本,雅虎中国(www.yahoo.com.cn)于1999年9月开通上线。
Yahoo!作为著名的分类搜索网站,很长一个时期几乎成了“搜索”的代名词,她的分类体系和搜索模式对互联网的发展产生了巨大而深刻的影响。1998年9月7日Google问世以前,Yahoo!一直稳坐网络搜索的第一把交椅。这一时期,目录浏览式搜索风光无限,诸如www.About.com、www.Looksmart.com等颇具代表性的分类搜索网站应运而生,分类搜索成为网络搜索的主流。
1998年2月搜狐(www.sohu.com)推出了第一个大型中文分类搜索引擎,这是一个土生土长的完全“中国化”的搜索引擎,她的诞生对中文网络搜索有着非凡的意义。
搜狐推出分类搜索引擎,使中国网民拥有了查找中文网络资源的工具。在2000年6月百度正式推出中文搜索引擎,2000年9月GOOGLE提供中文搜索以前,搜狐是唯一能与雅虎中国抗衡的中文分类搜索引擎,占据着中文搜索的半壁江山。由于搜狐的本土优势,它的分类体系、立类原则和类目设置更符合中国网民的检索习惯,也为国内分类搜索网站树立了典范。搜狐在提高中文网络资源的社会利用水平,中文分类搜索网站的兴起与发展等方面功不可没。“出门靠地图,上网找搜狐”,搜狐至今仍是中文分类搜索网站的旗舰与中坚。
继搜狐之后,国内分类搜索网站厚积薄发,一枝独秀。较为知名的有新浪(www.sina.com)、网易(www.163.com)、雅虎中国(www.yahoo.com.cn)、蓝帆搜索(www.search163.com)、139探索器(www.china139.com)和北极星(www.beijixing.com.cn)等等,随着分类体系的逐步完善,搜索流量巨幅增长,搜索引擎对网站效益的贡献率不断提高,分类搜索引擎已成为开发和利用中文网络资源的主要工具。
1998年6月5日ODP网站www.Gnuhoo.com问世,这是分类搜索引擎革命性变革的转折点,它伴随着ODP的诞生永远载入了互联网史册。
ODP(Open Directory Project),即“开放式分类目录搜索系统”,“是一个本着建立一个无偏见的、为大众服务的、阐述各种不同观点的,以及全面描述人类智慧为宗旨的,并由来自不同国家、不同文化背景、不同兴趣爱好的编辑共同维护的社区所组成。”(6)
ODP的产生来源于两个年轻人的敏锐的观察和大胆的实践。美国加州Sun Microsystems公司的计算机程序师Rich Skrenta和Bob Truel认为Yahoo目录更新慢,死链多,致力寻求一种新的方法,创立一种全新的分类检索体系。他们受由志愿者编辑、维护的网络分类指南Godirectory(已消亡)和Zeal(2001年8月并入LookSmart数据库)的启发,基于最广泛地收集资源、最便捷地检索、最广泛地利用的理念,试验性的推出了Gnuhoo---一个完全开放的、网民共建的、网络共享的分类搜索系统。令人意想不到的是,www.Gnuhoo.com上线的13天后,即6月18日,已有志愿编辑200人,把数据库分为2000个类目,索引了27000个网页。其间,由于Gnuhoo与自由软件开发组织GNU名称雷同,在其抗议下更名为Newhoo。1998年7月2日,志愿者增至400人,索引约网页31000个,目录扩充至3900类,1998年11月17日网景收购了Newhoo.com,正式将系统命名为ODP,并将网站改名为Dmoz.org。此时,ODP已有4500个志愿者编辑,索引了大约100,000网页,1999年10月5日,索引的网页达到100万,2000年4月达到160万,2000年8月14日达到200万,2001年11也18日达到300万,2004年6月达到440万,所有网页分为590,000类,志愿者编辑已多达63,000 多人。Gnuhoo创立之初仅收录英文网站,2003年7月已有67个语种,英文网站占75%。现在,包括Google、Netscape、Lycos、Hotbot、Dogpile、Thunderstone、Linux、Mars Society(http://www.marsnews.com/directory)等20多家搜索引擎和分类指南网站都在使用ODP的数据库。
(7)、(8)
2000年9月14日网易公司在国内率先推出了ODP,http://search.163.com 做为开放式目录的示范和“中国最大的开放式引擎”,受到众多网民的瞩目和热情参与。
在功能齐全的分布式编辑和管理系统的支持下,网易已拥有近万名义务目录管理员,创建了一个拥有多达一万个类目,超过25万条活跃站点信息,日增加新站点信息500~1000条,日访问量超过500万次的专业权威的目录查询体系。(9)有力地印证了“网聚人的力量”的网易宗旨。
网易虽开中文ODP先河,为中国的ODP事业做出了卓越贡献,但网易ODP在志愿者人数、数据库规模、索引网页文种、访问流量、管理机制以及网站效益等等方面远不及Gnuhoo,稚嫩的网易ODP需要有一个完善与成熟过程,需要网广大网民积极热情的参与。我们欣喜地看到,近年来为了ODP的发展,网易不懈努力、执着追求,先后为管理员设置了“优秀管理奖”,指定了《社会与文化管理员暂行条例》、《个人主页/世界各国/综合类管理员签到制度》、《新管理员指导手册》等多种规章,已初步构建起较为完整的管理体系。(10)(11)(12)(13)2004年7月2日网易与Google达成战略合作协议,将在其ODP系统中采用Google的专有搜索技术,网易ODP与Google的强强联合,将为网民提供最完美的搜索体验。(14)
ODP与传统的分类搜索引擎形式上如出一辙,确有着本质的区别。ODP的编辑和管理人员广泛、随机地分布于网络世界,大多是某一方面的专家,相对于传统分类网站的雇员,他们能准确地把握某一领域网络资源状况,搜集的网站列表更加专业,质量更高,数量也更大;在人文精神的体现上,ODP收录的网站充满了活力,注释、简介洋溢着人性化的体贴与关爱,而蜘蛛程序抓取的网页是机械“匹配”的结果,永远是机器一样的冰冷;在目录的维护上,ODP的管理员能够随时地掌握其类目下的网站动态,及时增加条目、调整类目、删除死链;在系统管理与运作上,ODP较之传统的分类目录更需要诸如注册登陆、收录与归类标准、类目调整、增删审核、管理权限等等科学、详细、严谨的条款与规章。ODP是在开放型、可无限扩张的网络平台上,由网络社区共同建设、共同维护的网络资源整序中心和网络资源检索工具,ODP实践及其成就,向人们昭示了网络搜索工具互动性、开放性的发展趋向。
2、分类体系的构建及其特点
由于分类搜索引擎的索引内容与范围以及用户群体不同,在类目划分、类目设置、类目序列及其检索方式上,亦有着各自的差异,在分类体系的构建上既各有特色,又具有本质的共性特征。
2.1类目划分强调易用性
类目划分是构建分类体系的基础,划分的原则和标准决定着分类体系的性质和功能。体系分类法坚持划分的学科系统性原则,在同一个等级上采用唯一的标准划分类目,形成上下位类层层隶属,同位类相互排斥的能够揭示事物发展规律及其内在联系的严密的体系结构。而网络分类体系类目的划分,首先考虑的是尽可能地减少点击次数和直观揭示,为突出类目体系的通俗性和易用性,不惜以牺牲系统性为代价,在同一划分过程中采用多个不同的划分标准,造成类系内涵交叉,类列外延重叠。以此形成的体系结构,尽管比较 “时尚”,也确实方便易用,但在方法论上缺乏科学认识的意义。
例如,在yahoo大类“Entertainment(娱乐)”的二级类目“Movies and Film(电影)”、搜狐“文学”大类等类目的划分中,分别采用了题材、载体、体裁、类型、时代、地区等标准进行划分,若按照每一次划分必须采用同一个标准的严格的体系分类原则,这些类目需要进行多次划分,形成较多级次的类系。又如,yahoo对其大类“Reference”的二级类目“Libraries(图书馆)”,搜狐对其大类“公司企业”等类目采用了多重列类法,分别按性质与国家等区分图书馆,按经营内容与地域区分公司企业,搜狐还采用分面组配的方法,在“国家与地区”类下把其它15大类收录的网站按地域重新进行分类。诸如此类的类目划分方法,打破了传统的分类规则,在同一类目层面上揭示和反映隶属关系的概念和事物,对同一类目进行多角度的揭示和反映,无疑更符合网民的要求,更能突出非类体系的易用性。
2.2类目设置以实用性为主
体系分类法(如DDC和《中国法》)以学科立类为主,强调体现类目的系统性,而网络分类则以主题立类为主,注重类目的实用性。国外的分类搜索引擎(如yahoo等)大都按主题立类,追求的是直观与实用,很少考虑类目的系统性,这样的类目体系称之为“可浏览式主题索引(subject index)”,(15)(16)国内的分类搜索引擎(如搜狐等)多采用以主题立类为主,学科立类为辅,主题与学科相结合的立类方法,其分类体系兼具学科的系统性和主题的直接性特点。
网络分类体系按主题立类的实用性是显而易见的,它打破了体系分类法严格的隶属关系,不受学科系统性约束,常常把一些在学科分类中必然处于较低级位的类目,提升为基本大类或二级类目,把基本大类或上位概念类目分拆降列于较低位类,更有一些在学科分类中根本不可能立类的主题,也堂而皇之地挤身于二、三级类目之中。
如在yahoo的14个大类中,只有“Science(自然科学)”、“Social Science(社会科学)”和“Arts & Humanities(艺术与人文科学)”与DDC的一级类目相同或相近,大类“News & Media(新闻与媒体)”在DDC中位于二级类目,大类“Reference(参考资料)”中的内容分散在DDC的若干二--五级类目之中。又如,搜狐大类“公司与企业”在《中国法》为====级类目(F27),“生活与服务”为====级类目(TS97),“娱乐与休闲”则处于==级类目(F719.5),在《中国法》中属于基本大类的哲学、生物科学和航空航天等在搜狐中降列于二级和三级类目,“留言板/BBS/论坛”、“第53届世界小姐(2003年)”、“打工文学”、“大学BBS”等等二、三级类目,在《中国法》中原本是不可能立类的,也赫然在搜狐中占有一席之地。
网络分类体系以实用性为主的立类原则,把热门主题或点击率高的类目置于显著位置,吸引了网民的关注,方便了浏览与检索。但也正是实用性的立类原则,造成了不同搜索引擎分类体系的差异,分类体系的差异即提供了多角度认识和组织网络资源的方法,也给网民熟悉和利用分类搜索引擎带来一定的困难。
2.3类目序列以检索频次与检索习惯为主要依据
类目序列即序类,是指同位类的排列。在体系分类法中,同位类的序列坚持逻辑次序原则,或按自然进化顺序(低级--高级),或依复杂性及数量渐增(简单--复杂、少--多),或按时空顺序(先--后、近--远)等等排列,而网络分类则着重考虑网民的检索习惯,按检索频次或字顺排列。如yahoo首举“Business & Economy(贸易与经济)”,后列“Reference(参考资料)”,搜狐从“娱乐与休闲”到“国家与地区”无不明显地体现着重要性递减的原则。yahoo的“Regional(地区)”,搜狐的“国家与地区”、“公司与企业”的二级类目等等具有地域性和不便区分先后次序的类目均采用字顺序列。
在同位类的序列中,网络分类体系首先列举检索频次高的类目,突出重要主题,迎合了网民的检索习惯与检索偏好,但也不可避免地削弱了类列次序的逻辑性。网络永远是一个无法把握的动态世界,网民的检索习惯与检索偏好无不处于变化之中,类目的检索频次也无不随之发生改变,极易造成分类体系的动荡。任何分类体系都需要相对稳定,尤其网络分类体系更需要客观地分析和把握网络资源和网民兴趣的变化,着重提高分类的科学性、立类的系统性和序类的合理性,在不断满足网络检索需求的同时,力求分类体系的相对稳定。
3、分类搜索的方法与途径
分类搜索引擎与关键词搜索引擎有着不同的功能、不同的用途和不同的检索方法,也有着各自的优势和弊端。我们根据不同的搜索目的,选择不同类型的搜索引擎。一般来说,分类搜索引擎常用于族性检索,适合查询具有同一特征的多个目标和主题范围广、概念宽泛的问题,而关键词搜索引擎的特性检索功能更为突出,多用于查询主题范围狭小而不甚明了的信息和交叉性、细节性问题。
3.1逐级浏览,渐近目标
分类逐级浏览是分类搜索引擎最基本的检索功能,它不用考虑关键词准确与否,无需构建检索式,使用方法简单,符合人们的思维和查询习惯。分类逐级浏览检索首先要熟悉分类体系,确定所需资料的大类归属,“即类以求”、“顺藤摸瓜”,逐步缩小查找范围,直至达到检索目的。
如在Yahoo查找“New York Times”(《纽约时报》),首先确定它属于“News & Media(新闻与媒体)”大类,按照其类目结构,在其下位类中,依次Newspapers(报纸)--By Region(按地区查找)--U.S. States(美国)--New York(纽约)--Complete List(完全列表)逐级浏览,New York Times按字顺排列在Complete List之中。在搜狐中查找“中国人民保险公司河南省分公司”,从地域属性入手,按照“国家与地区--河南--公司企业--金融/投资--保险”的顺序,一检即得。
为方便查找,搜索引擎对一些交叉学科、总论性或多属性类目等从不同的角度进行重复揭示,采用设置交替类目,以@符号标识、指示的方法(新浪等少数搜索引擎,虽设置交替类目,但无@标识符号),尽可能提供适合网民查找习惯的多种检索入口。
上例查找“New York Times”是从内容性质入手,我们还可从其地域特征,按
“Regional--U.S. States--New York--News and Media--Complete List@”的路径得到同样结果。同样,搜狐除了“国家与地区”大类之外,还可以从“公司企业--金融/投资--保险按地区分类--河南@”、“工商经济--金融/投资--保险--保险公司@”、“社会科学--经济学--金融/投资/保险@”等路径找到“中国人民保险公司河南省分公司”的网站。
了解分类体系及其类目涵义,准确判断查询目标在分类体系中的类目归属,是有效利用分类搜索引擎的前提,但由于搜索引擎没有统一的分类标准,类目的隶属关系不尽合理,横向关系交叉、重复,分类深度不一,类名缺乏准确性等固有弊端,希望普通用户都能熟悉庞大的类目体系及其复杂多变的结构,准确把握检索路径是不现实的。为此,分类搜索引擎大多采用智能搜索技术(如Yahoo采用OpenText公司先进的检索软件,搜狐采用自主开发的中文分词、模糊检索技术),提供关键词检索功能。
3.2使用关键词,检索目录数据库
关键词检索与逐级分类浏览是相辅相成的,是分类搜索引擎不可分割的两种功能。较为成熟和知名的分类搜索引擎(如Yahoo、搜狐等)都提供“Directory”、“类目”或“网站”的关键词检索途径,在各级类目可以随时使用关键词检索功能,对其分类数据库进行检索。
在Yahoo分类检索首页(http://dir.yahoo.com)和各级类目检索页面分别有“the Directory(在目录中检索)”和“just this category(仅在此类中检索)”检索选项。搜狐分类检索首页(http://dir.sohu.com)
及各级类目检索页面的关键词检索,均默认为分类数据库检索,在“网页”、“新闻”等检索页面,点选“网站”标签,即可切换到分类检索。
如在Yahoo中查找有关在中国旅游的资料或信息,在分类检索首页的检索框输入“Travel+China”或“Travel in China”,选择“the Directory”检索,结果首先序列“RELATED DIRECTORY CATEGORIES(相关类目)”的全部22条检索路径,然后分页显示数据库中与关键词匹配的570个网站列表。查找境外中国古典诗词的资料,通常从“Arts & Humanities(艺术与人文科学)”大类入手逐级查找,但其“Literature(文学)”类目下子目过多,难以选择最佳浏览路径,此时点选举“just this category”,用关键词“classical Chinese Poetry”检索,就会方便、快捷地找到相关网站。
又如,在搜狐中如果仅从“国家与地区”或“教育/培训”两个常用路径查找有关图书馆的网站,肯定会造成许多专业和特殊类型图书馆的漏检,如果以“图书馆”为关键词在分类数据库中检索,就会发现,相关网站还分散在“科学/技术>工程技术”、“社会科学>报刊/杂志>CSSCI文献源”、“社会科学>汉学研究>参考资料”、“社会科学>信息管理>开发/服务>数字图书馆”、“卫生与健康>资料/文献>图书馆”等路径的相关类目之中,而这些路径和类目对于非专业人士来说是难以预料的。
由于受对分类体系熟悉程度的限制,我们在检索前不可能预料所有相关的类目及其路径,这时如果使用关键词直接在目录数据库中检索,便可以提高检索效率,快速获得全部相关网站的结果列表。然而,关键词检索又受分类数据库人工标引及其规范化自然语言的制约,关键词的确切与否决定着检索结果的查准率,因此,如何选择关键词、运用布尔逻辑符与熟悉分类体系及其类目结构一样,是每个分类搜索引擎的使用者必须面对的问题。
随着互联网的快速发展,全文搜索引擎已经实现了智能化和个性化,自动搜索技术和检索算法不断更新换代,其强大的检索功能加之沸沸扬扬的商业炒作,几乎使人们忽略了分类搜索引擎的存在与价值。然而,分类搜索引擎坚持以人工收录、标引和摘要网络资源的独特优势是全文搜索引擎无法替代的,它方便、实用的主题目录、具有特色的分类体系、精当扼要的网站简介,以及永远鲜活有效的链接,无不体现出智慧光彩和人文关怀,使完全依赖自动程序的全文搜索引擎难以望其项背。当然,由于分类体系主要是由人工构建的,分类搜索引擎难免存在诸如分类标准不统一、反映网站信息不及时、运营成本过高等固有弊端,也正是因为这些弊端,使它至今仍甩不掉“第一代搜索引擎”的标签。分类搜索引擎的发展和走向成熟,还需借鉴和采用自动分类、自动标引、自动文摘、智能检索等技术,在保持传统特色和优势的基础上提高自动化、智能化水平,提供更为全面、更加强大的功能与服务。
参考文献
1、Happy Birthday, Aliweb!
http://searchenginewatch.com/searchday/article.php/2161311
2、description
http://www.sunstorm.com/amazing/aliweb.htm#desc
3、Galaxy History
http://www.galaxy.com/info/history.html
4、The History of Yahoo! - How It All Started
http://docs.yahoo.com/info/misc/history.html
5、The History of Yahoo!
http://docs.yahoo.com/info/misc/history.html
6、Open Directory编辑指引
http://www.dmoz.org.cn/guidelines/index.html
7、Feature:ODP History The Open Directory Project: The Spirit of the Web
http://www.laisha.com/zine/odphistory.html
8、Open Directory Project
http://en.wikipedia.org/wiki/Open_Directory_Project#History
9、主要中英文搜索引擎与目录索引
http://www.xinpushihua.com/seo/base2.htm
10、ODP历史-2001年
http://odp.163.com/odphistory1.html
11、ODP历史-2002年
http://odp.163.com/odphistory2.html
12、ODP历史-2003年
http://odp.163.com/odphistory3.html
13、新管理员指导手册
http://odp.163.com/zhidu1.html
14、 网易携手Google 创造搜索完美体验
http://news.163.com/2004w07/12601/2004w07_1088759779712.html
15、Which Search Engine?
http://stauffer.queensu.ca/inforef/tutorials/rbl/steps.htm
16、Top Twelve Internet Search Tools
http://www.connpoint.com/CPIS/serchnet.htm#Yahoo
你可以使用这个链接引用该篇文章 http://publishblog.blogchina.com/blog/tb.b?diaryID=48695