关于作者

姓名:

性别:其他

出生日期:--

地区:

联系电话:

QQ:--

婚否:保密
用户名:邢志宇
笔名:邢志宇
地区:
行业:其他

日历  

快速登录

+ 用户名:
+ 密 码:

在线留言



搜索引擎

搜索技巧

搜索引擎Blog

访问统计:
文章个数:72
评论个数:178
留言条数:21




Powered by BlogDriver 2.1

网海扁舟

 

文章

人物信息的网络检索途径与方法

人物信息的网络检索途径与方法

邢志宇

(许昌市图书馆 河南 许昌 461000

 

关键词:人物信息检索 网络检索 检索途径与方法

  :通过实例介绍了网页搜索、专用搜索引擎、传记网站、百科全书网站、人物资料数据库、网络传记辞典等六种人物信息网络检索的主流途径,以及相应的检索方法和相关资源的调查方法。

 

人物信息是关于人的信息,是在社会生活生活中产生和被广泛利用的一种信息,它即可以是诸如姓名、性别、职业、出生年月、从业单位等简单的身份确认信息,也包括较为详细的生平或传记资料。互联网诞生之前,人物信息的检索主要使用相关的工具书,或通过论文著者索引和图书馆著者目录等展转查找,由于工具书和其他印刷型检索工具的出版周期和时滞性限制,人物信息的传播时空较小,检索利用极为不便。随着互联网的产生与普及,信息的产生、传播和利用呈指数增长,以网络为载体的人物信息空前丰富,其检索利用也更加快捷和方便。然而,在浩瀚的网络信息中,人物信息仅为沧海一粟,且类型多样分散难觅,只有了解其分布规律,借助一定的工具,选择适当的途径,采用相应的方法才能进行有效的搜寻和检索。

一、网页搜索

    网页搜索(web search)是利用搜索引擎的网页搜索功能查找一般网页中的人物信息,适用于公众人物、知名人士或新闻人物、成功人士、专栏作家等简单身份信息的查找。网页搜索是搜索引擎的主要和常用的功能,不同的搜索引擎对网页索引的深度与范围不同,收录网页的文种和数量各异,适用的逻辑算法、搜索语法和对关键词的规定等亦各有差别,因此有效的网页人物信息搜索,要求对搜索引擎有较为全面的了解,掌握相应的检索方法和技巧。就关键词的选取而言,单纯的人名(主题关键词)搜索往往检准率较低,必须附以必要的 “特征关键词”或限定性搜索语法才能收到事半功倍的效果。主题关键词是指表述主要搜索内容的必用的词语,不使用主题关键词就不能准确地搜索到特定的内容。特征关键词是指在内容描述中与主题关键词同时出现且位置较近的名词、量词、形容词等进一步说明和限定主题关键词的词语,特征关键词可以有效地缩小搜索范围,使结果排序更加趋前。

    GOOGLE网页搜索为例,查找俄罗斯总统普京的个人信息,仅用“俄罗斯总统普京”或“普京”搜索,返回的结果数以十万计,且前三页无适用结果,而附以特征关键词“简历”或“档案”搜索,结果首页的首项即可满足检索需要,以“普京 身高”为检索式搜索,还可以获得官方资料不载的罕见信息。

又如查找第十一世班禅额尔德尼•确吉杰布的出生年月和认定、坐床经历的资料,使用限定性搜索语法“intitle:”(仅在限定的网页标题中搜索)构建检索式“intitle:额尔德尼•确吉杰布 出生”,可以明显而有效地缩小检索范围(仅返回28项结果),且首页检索结果大多都满足要求。

    查找一般网页中的人物信息,要注意“特征关键词”的斟酌和选用,通常多使用“籍贯”、“出生”、“毕业”、“简历”、“档案”或行业名称、职务称谓等描述性词语进行限定性搜索。例如,在网页搜索中出现同姓名过多且结果数量太大的情况下,只有附加如“图书馆”、“副研究馆员”等特征关键词,才能在众多相同姓名的搜索结果中快速找到特定人物的信息。

二、专用搜索引擎

    顾名思义,专用搜索引擎(special search engine)是专门用于搜索某一方面信息的搜索引擎。查找网络人物资料的搜索引擎主要有个人信息搜索引擎(people search engine)、电话号码搜索引擎(phonenumber search engine)、EMAIL搜索引擎(email search engine)、黄页、白页搜索引擎(Yellow&White Pages search engine)、公众信息搜索引擎(public record search engine)等类型。此类网络检索工具国内尚不多见且功能难如人意,而在欧美国家则十分流行,从yahoo 的“Phone Numbers and Addresses”、“ Background Verification”目录和 about的“Free People Search - Use the Web for a Free People Search”等目录可见一斑,用“people Search”搜索更是多不胜数。其中,查找美国个人信息常用Yahoo! People Searchhttp://people.yahoo.com/)、Lycos People Searchhttp://www.whowhere.com/)、People Searchhttp://www.peoplesearch.com/)等搜索引擎,这些搜索引擎功能强大信息详尽,包括了姓名、性别、年龄、住址、电话号码、EMAIL、信用与犯罪记录,以及广泛的“背景”资料等等。而Find a Person & Email Searchhttp://person.langenberg.com/)则是一个极为实用的人物信息集成搜索引擎(All-in-One Search Page),它在同一页面提供Whowhere/Lycos Phonebook Search)、Zoom InfoPerson Finder)、Google-DejaPeople Who Posted on Usenet)、YahooPerson-EMail Search)、BigFootPerson-EMail Search)、x10/Find a GraveFamous Person Grave Finder)等15个专用搜索引擎的检索入口,并超链接至源搜索引擎的主页,是查找国外人物信息的便捷工具。

    国内较有影响的人物搜索引擎有Ucloo搜人(http://www.ucloo.com/)和搜狗人物搜索(http://people.sogou.com/)、搜人(http://www.sooren.cn/)等,由于技术原因后两个搜索引擎已经停止运行。Ucloo搜人号称“全球最大的中文搜人引擎”,它使用自动索引技术,从网络资源(包括网站、出版物、电子文书等)中收集和分析与人物有关的信息,其独特的算法使搜索器能在极短的时间内收集到最大数量的信息并进行分析匹配、归类和及时的更新。查找诸如联系方法, 个人简历, 教育工作背景, 个人照片, 网上口碑, 评价评分, 留言等极为方便快捷。

    国内虽少有人物信息专用搜索引擎,但借助诸如新闻搜索引擎、百度图书搜索(http://book.baidu.com/)和百度国学搜索(http://guoxue.baidu.com/)等其他专用搜索引擎,也可以在一定程度上查找某些到方面的人物信息。例如利用新闻搜索引擎可以查找新闻人物的简介、动态信息和背景资料,百度图书搜索的“简介”较为详细,尤其传记类图书多有传主的事迹或生平介绍,百度国学搜索查找历史人物快捷方便且资料详实可靠。

三、传记网站

传记网站是查找人物信息的主要网络资源。综观网络资源,人物生平和传记资料数量庞大、广为分散、不胜枚数,但按主题或分类建立的高质量的群传网站却相对较少,系统而完备的中文传记网站与英文相比更是少而又少。利用传记网站查找人物资料,首先要掌握人物姓名的正确书写或拼写形式以及人物的大致定位,查找历史人物和著名人物首选综合性传记网站,查找现代人物和某领域、学科的知名人士多使用专科性传记网站。

1、古今中外人物(http://www.1-123.com/index1.asp

    按时代和学科分为远古、夏商周、秦汉、魏晋南北朝、隋唐五代、宋朝、元朝、明朝、清朝、政治、军事、经济、科教、哲学、宗教、文学、艺术、其他等18类,介绍近2000位中外名人,资料来源于网络文献,除按时代和学科检索外,其“古代人物索引”、“现代人物索引”、“外国人物索引”还提供人名音序检索。   

2、文化人物(http://www.shtvu.edu.cn/ccwindows/page/renwu.htm

上海电视大学《中国传统文化》的人物专栏,分为医学人物、哲学人物、文学人物(先秦两汉作家、魏晋作家、南北朝作家、隋唐五代作家、宋代文学家、辽金作家、元代作家、明代作家、清代及近代作家)、美术家、神仙人物、史学人物、古代语文学家、古代宗教人物、古代经学家、古代科学家、二十世纪文化人物等11类,介绍人物近千名,可分类查找或以人名检索。

3Biography.comhttp://www.biography.com/

从古至今的25,000位杰出人物传记,所有资料来自《剑桥百科全书》数据库、《美国传记剑桥词典》和《A&E传记》,可按姓名和关键词检索,也可按姓名字顺浏览查找。

4Biographical Dictionaryhttp://www.s9.com/biography/

收录了古今28,000多位杰出人物的传记,提供生年、卒年、身份、职业、文学和艺术作品、成就、以及其它关键字等多种检索途径。

5Biography Centerhttp://www.biography-center.com/

多语种传记索引,收录了27,867位人物的传记资料,其中英文传记10,989篇,按姓名字顺查找,也可分语种进行关键词检索。

6infoplease.com: Biographyhttp://www.infoplease.com/people.html

按姓名、职业、学科或地区分类检索全世界30,000多位古今新闻人物的传记,资料来源于哥伦比亚百科全书、Infoplease词典和Infoplease年鉴。

7Catalog of the Scientific Community: 16th and 17th Centuries

http://galileo.rice.edu/lib/catalog.html

收录1473年至1680年出生的近千位科学家的详细生平资料,数据库检索功能完善,可从生平资料的20个方面进行检索。

8The Nobel Prize Internet Archivehttp://nobelprizes.com/nobel/nobel.html

历年诺贝尔奖得主介绍,包括主要成就、出生日期、教育背景、联系地址、E-MAIL、著述和相关资源链接,可按学科查找和关键词快速检索。

9the American Presidencyhttp://ap.grolier.com/

历届美国总统、付总统、第一夫人传记,按届别检索,按资料来源分别查看。

10The largest guide to posthumoushttp://amillionlives.com/

已故名人传记,收录美国、加拿大、澳大利亚、西班牙、新西兰、拉丁美洲数千位已故名人传记资料,按姓名字顺,或地区、行业等分类检索,并有大量传记站点链接,由于资料多、分类细,检索前须阅读“How to Use this Site”。

调查和了解传记网站是利用其查找人物资料的前提,我们可通过搜狗(http://www.sogou.com/dir/)、YAHOOhttp://search.yahoo.com/dir)、ABOUThttp://www.about.com/)等分类搜索引擎、Librarians' Index to the Internethttp://lii.org/)、Infominehttp://infomine.ucr.edu/)等图书馆员编制的参考工具和传记网站链接等三种主要途径掌握传记资源的分布,对传记网站进行选择和利用。应当注意的是,使用分类搜索引擎查找传记网站需要对其类目设置有充分的了解,如在搜狗“目录”中,综合性“传记”网站列目于“文学>纪实文学>人物传记”和“文学>纪实文学>人物传记>名人传记”类下,各学科人物和地方名人相关网站则分散在“社会科学>哲学>中国哲学>儒家”、“科学技术>科技信息/服务>人物>生物/医学家”、“政法军事>军事>军事人物”、“社会文化>人物>中国各地人物”等数十个类目之中;YAHOO的“Directory > Society and Culture > People > Biographies”类下仅列举综合性传记网站,各国、各时期、各学科和个人传记资源则分散在相关类目之中。使用参考工具网站要首先阅读其“About”,了解收录内容范围、编制体例、更新频率和检索功能等,力求用适当的检索入口和准确的关键词高质量地检索适需资源。如Librarians' Index to the Internet包括14,000多个网站的主题目录,提供分类和关键词两种检索入口,关键词检索检索可进行“all fields(在所有类目中检索)”、“Title(在标题中检索)”、“URL(在网址中检索)”、“Description(在资源描述中检索)”等检索范围设置,检索式支持逻辑运算符,用“关键词and databases”构建检索式可以检出较多的一般网络搜索难寻的深层网络结构(deep Web structure)中的罕见资源。  

四、百科全书网站

    百科全书是知识密集型的治学工具,包含着大量的人物资料,以网络为载体的百科全书是查找人物信息便捷而有效的途径。

1、中华百科全书(http://living.pccu.edu.tw/chinese/index.asp

中华百科全书是多位专家学者参与编制的百科全书,分为38个类别、10,525个档案,内容丰富,图文并茂,其中“传记”类几乎囊括了中国古、近、现代名人且资料详实,按“部别”检索。

2、维基百科(http://zh.wikipedia.org/[中文])、(http://wikipedia.org/[英文]

包含200多种语言7百万篇文章的百科全书。维基百科200210月推出中文版,查找人物信息用人名作为关键词一检即得。由于它是任何人都可以参与编辑的开放性百科全书,其中文版的条目管理多受指摘,网站时常被封。

3Encyclopedia Britannicahttp://www.britannica.com/

《不列颠百科全书》网络版,包括《不列颠百科全书》、《简明不列颠百科全书》和《韦氏词典》三部分,1994年正式发布,是互联网上第一部百科全书,可检索词条达到98,000多个可链接的优秀网站200,000多个。提供关键词、字顺索引、主题分类索引等多种检索方法。

4Encyclopedia.comhttp://www.encyclopedia.com/

提供《简明哥伦比亚电子百科全书》2001年第650,000多篇文章的全文检索,每篇文章均有相关链接,以人名为关键词可以检索所有收录文章中人物资料。

5Information Pleasehttp://www.infoplease.com/

提供主题广泛的数百万个事实查询,“Encyclopedia”可以检索《哥伦比亚百科全书》(第六版)57,000多篇文章,“Dictionary”可以查询125,000多词条,均可用于人物检索。

6Encyclopedia Smithsonianhttp://www.si.edu/resource/faq/start.htm

《史密森百科全书》由咨询解答档案汇编而成,所有内容按主题组织,按字顺查找,每一主题下都有多个相同主题资源链接,以对该主题进行全面阐释。

7Encyclopedia of British History: 1500-1980

http://www.spartacus.schoolnet.co.uk/industry.html

研究1500-1980年英国历史最好的资源,目前已有2,000多条目,并在不断增加之中。每一词条都包括故事、插图、背景资料和参考书目等,按事件或年代检索,是查找该国该时期著名人物的首选工具。

8Encyclopedia of the orienthttp://i-cias.com/e.o/index.htm

东方百科全书,是有关北非和中东国家的唯一一部网络百科全书,收集了从北非西北部古国毛里塔尼亚到东部的伊朗,从北部的土耳其到南部的苏丹之间的所有国家的文化信息。

9Encyclopedia Mythicahttp://www.pantheon.org/mythica.html

神话、民俗和传说百科全书,收录文章6,800多篇,神话按非洲、美洲、亚洲、欧洲、中东、大洋洲等地区分类,民俗部分包括一般的民间风俗、亚瑟王的传奇、希腊英雄传奇和很多国家的迷人的民间故事,另有动物寓言、传奇英雄、神话人物画廊、神话人物一览表等专题栏目。按地区、关键词或栏目检索。

10The WWW Virtual Libraryhttp://home.istar.ca/~obyrne/ency.html

网络虚拟图书馆的参考资源,介绍并链接了24种综合与专科百科全书。

查找网络百科全书资源主要采用分类搜索引擎、图书馆员编制的参考工具和传记网站链接等方法。

五、人物资料数据库

    人物资料数据库是有关机构或个人为特定目的编制的专门用于人物资料检索的事实型数据库。数据库是可供计算机快速检索的、有组织的、可共享的数据集合。就查找人物资料而言,利用数据库是最为简捷和有效的途径。

1、地方志人物传记索引数据库(http://www.nlc.gov.cn/newpages/database/dfzrw.htm

国家图书馆编制,提供1949年以后新编地方志中所见人物的姓名、性别、民族、生活朝代、生卒年、字、号、别名、籍贯、身份类别及本条资料出处等方面的信息检索。现有数据量3.2万余条,年增数据量1万条。

2、台湾人物志资料库(http://tbmc.infolinker.com.tw/whos2app/servlet/whois?simplegenso

摘取18951945台湾各种官方及民间发行的报纸、期刊和书籍中的各种记事编辑而成的综合性大事年表资料库,其中收录的材料来源超过50种,总条目数更高达50,000笔以上。

3、中国人物库(http://www.bjinfobank.com/IrisBin/Select.dll?Special?db=RW

中国资讯行编制,数据库提供详尽的中国主要政治人物, 工业家, 银行家, 企业家, 科学家以及其他著名人物的简历及有关的资料,其内容主要根据对中国八百多种公开发行刊物的搜集而生成。

4、中国科学家门户(http://www.cqvip.com/zuozhekj/

维普资讯依靠其强大的文献数据库摘去论文作者信息而编制,提供详细的分科浏览查找和多字段检索,个人条目下不但有姓名、所在机构、主要研究方向、个人专长、社会职务、出生年月等简要信息,还有收录在维普数据库中的“已发表论文”目录。

5、人民数据——中国共产党重要事件、人物库(http://data.people.com.cn/111.jsp

由人民日报社网络中心(人民网)与金报电子出版中心联合编辑制作,资料来源于人民网丰富的新闻资源,内容权威、可靠,检索方便,需注册使用。

6、搜狐经济人物库(http://business.sohu.com/7/0304/57/column219615768.shtml

    设有人物库分类导航(官员、经济学家、企业家、经理人、国际人物、经济传媒人、业界人士、专栏作家),提供分类浏览、姓名拼音字顺查找和关键词快速检索。

7TOM人物库(http://tech.tom.com/figure/index.html

主要介绍IT业人士,分为互联网行业、电信.手机行业、PC.硬件行业、软件行业等栏目,以网页形式按姓名浏览查找。

8、湖南人物库(http://hncd.hnu.cn:81/

   介绍古今湖南籍人物近千人,以时代分为古代人物、近现代人物和当代人物,其下多重列类详子目,在方便逐级浏览的同时,还提供关键词快速检索和高级检索。

数据库属普通搜索引擎的“蜘蛛”程序不易抓取的“深层网络”(deep Web)中的“不见网页”(The Invisible Web),查找起来有一定的难度。就国内人物资料数据库而言,除了上述介绍的之外,各省、市、自治区图书馆网站大多提供根据地方志编制的人物资料数据库的免费利用,一些国家级学术机构(如中国科学院等)网站、行业网站(如中国国防资讯网等)和高校(如武汉大学)网站等也多设置人物专栏或挂接自编人物资料数据库。据此,我们可以从地域、学科或机构等途径查找在网络中高度分散的适合自己需要的人物资料数据库,进而利用其检索具体的人物信息。

查找国外的人物资料数据库,除上述方法外,可以利用专门的查询工具,如:已介绍过的Librarians' Index to the Internet( http://lii.org/),还有About.com ( http://www.about.com/) ,其查询主题数以万计,包括众多“Invisible Web”资源,以关键词“Invisible Web”检索,可以找到很多诸如:“Invisible Web: The Cloaked Internet”(“看不见的网页”:被掩盖的网络资源)等隐藏网页的链接,常用来作为查找人物资料数据库的指南。更广泛的人物资料数据库调查,可以利用The Invisible Web Directory ( http://www.invisible-web.net/),它是《看不见的网页》(The Invisible Web: Uncovering Information Sources Search Engines Can't See 一书的作者Chris Sherman Gary Price创办的专门用于指导检索Invisible Web资源的网站,网站的宗旨是“寻找搜索引擎无法找到的隐藏的网络资源”(Finding Hidden Internet Resources Search Engines Can't See)。

六、网络传记辞典

传记辞典由来已久种类繁多,近年来随着网络的飞速发展,可在线阅读的传记辞典不断增多,其中英文传记辞典最为人称道。例如我们可以在dmozhttp://www.dmoz.org/)中检出47biographical dictionary(传记辞典)、YAHOODirectory”( http://search.yahoo.com/dir)中列举了97类与“"Biographical Dictionary"”(英文双引号为短语精确匹配)相关类目、liihttp://lii.org/)推荐了2431Biographical Dictionary等等。我们可以通过搜索引擎对传记辞典的数量有一个大致的了解,并利用搜索结果选择适合自己需要的网络传记辞典。

使用网络传记辞典前,需要认真阅读其简介或编制说明,了解其创制时间、资料收录种类和时限、学科或地域范围,以及检索入口、检索式要求等等,如Biographical Dictionaryhttp://www.s9.com/1997年上线,收录33000多位世界范围内从古至今的著名人物,可以用姓名、出生与去世日期、职位、职业、学术成就等作为关键词进行检索;4,000 years of women in sciencehttp://www.astr.ua.edu/4000ws/4000WS.html)可从姓名字顺和历史时期两中途径查找全世界4000年来的女性科学家的生平资料,而其图像资料则学要从“Photographs”中检索。

查找人物信息及其详细资料的途径多样方法各异,除上述主流途径和常用方法外,我们还可以利用论文数据库收录的论文多有作者姓名、性别、职称、单位、学术简介,同学录提供省市、学校、班级、姓名、性别、年龄等信息,博客展示个人多方面的动态信息的特性,获得简要的用于确认身份的个人信息。此外,还可以利用网页搜索引擎,以“XX人物(或名人”(XX为地区、学科或历史时期称谓,如“河南人物”、“河南名人”、“ IT名人”、“历史人物”、“三国人物”等)、“**传记”(**GOOGLE通配符)等为关键词搜索出许多有关人物信息的网页和检索工具。再则,利用搜索引擎的互动问答平台,如百度知道(http://zhidao.baidu.com/)、雅虎知识堂(http://ks.cn.yahoo.com/)、YAHOO奇摩知识+http://tw.knowledge.yahoo.com/)、爱问知识人(http://iask.sina.com.cn/)、YAHOO ANSWERhttp://answers.yahoo.com/)等的“搜索答案/知识”、“search answer”(即查询已解答过的问题)功能,也是查找人物信息不可忽视的有效捷径。

我们应清楚地意识到,查找人物信息有不同的要求和目的,应根据具体的查询需求利用不同的工具,选择不同的途径和方法。“工欲善其事,必先利其器”,只有了解网络人物信息资源的分布规律,掌握基本的检索途径和主要的查找方法,才能有的放矢,一矢中的,一检即得。

 

参考文献

1、邢志宇.网络搜索中的检索式及其构建.科技情报开发与经济,200717):94-95

2、蔡绍莹.事实型数据库初探.情报学报.19905):360-370

(该文已在《河南图书馆学刊》2008年第二期发表)

 

- 作者: 邢志宇 2008年05月27日, 星期二 07:03  回复(0) |  引用(0) 加入博采

搜索结果的评价

邢志宇

     搜索结果评价是对搜索结果价值的评判和对搜索结果进行去粗取精、去伪存真的甄别和筛选。
搜索结果评价不同于网络资源评价。前者仅仅是对相关搜索结果的价值进行评判,用于指导搜索者在已有的结果列表中选择和利用具有准确性、可靠性、权威性的较高质量的特定结果; 而后者则着重对网络资源的整序,按照一定的标准对相关资源进行评价、标引和组织,目的是方便特定网络资源的公共利用。
在网络搜索实践中,我们通常从结果来源和信息出处两个方面,对搜索结果进行评价和选择。
1、结果来源
    结果来源是指相关的搜索结果是使用何种类型的搜索工具获得的,即结果的途径来源。利用不同的搜索工具得到的结果,其质量和可信度等级明显不同。总的来说,分类搜索工具的结果优于关键词形式匹配的搜索结果。
各学科专家、学者和图书情报人员编制的分类目录、主题索引、专题指南等检索工具,
从收录范围(Scope)、准确性(Accuracy)、权威性(Authority)、新颖性(Currency)、独特性(Uniqueness)、可靠性(Reliability)、链接(Links)等方面对网络资源进行评价、标引和介绍,所收录的资源具有较高的质量保障。与之相反,基于索引程序的搜索引擎的搜索结果由查询串的形式匹配产生,网页摘要为自动生成,结果排序由算法控制,在充分体现“客观反映”的同时,也给结果的甄别和选择带来一的困难。尽管“网页级别(PageRank)”(如Google等)的排序算法对搜索结果有一定的评价和推荐作用,但它只是链接指向的机械计算,不能从内容评价的角度影响人们对搜索结果的取舍决定。
    使用分类搜索工具,实际上是在利用专家、学者对网络资源整序的智力劳动成果。因此,在分类搜索工具的结果中,我们可以很容易地通过类目性质和网站介绍对某一资源的内容和适用程度做出明确的评价和判断。但是,对于搜索引擎完全形式匹配的搜索结果,则需要花费更多的时间和精力对其内容进行比较和验证,以保证最终采用结果的准确和适用。例如,查找“百度”收录网页的数量,用检索式“百度 收录 网页 亿”搜索,有“百度收录的中文网页超过6亿”、“在差不多20亿中文网页中,百度索引库中搜集了8亿”、“全球首个中文网页收录量达到10亿的搜索引擎”等不同的结果,到底哪个为最新和最准确的结果,我们需要利用新闻搜索进行时间验证,以找出最新的数据;还有必要使用英文搜索(如“baidu's web pages millions”、“baidu index  web pages millions”等),从国外评价和第三方测试数据中进行验证,以找到令人信服的事例。
2、信息出处
   信息出处是指信息的原始出处,即信息的最初发布者。信息发布者的权威性与信息的
可信度有着直接的联系。从原始出处判断信息的可靠性是搜索结果评价的重要方法。
信息的出处不同,表现出不同的质量权重。一般来说,来源于官方和专业网站的信息
的权威性要远远高于BBS、BLOG、和商业网站,原发信息的可靠性要远远高于转载和引用信息。
    在网络搜索中存在一个普遍的现象,即一次搜索输出的不同的相关网页,由于宣传、推荐、转载、引用等,可能包含着相同或相似的内容,但它们的原始出处却只有一个,而只有来源于原始出处的信息才有足够的质量保障。例如,查找2005年7月4日美国宇航局(NASA)对坦普尔一号彗星进行“深度撞击”的图片和资料,使用“Deep Impact NASA”、“Deep Impact Gallery”等检索式搜索,均有数以十万计的相关结果,仅前两个页面的搜索结果就分别来自十多个不同的网站。通过对不同网站相关结果的分析可以看出,它们均为经过整理和重新编辑的NASA图片和资料,根据信息出处的评价原则,我们应优先采用NASA网站发布的信息和图片。

- 作者: 邢志宇 2006年07月30日, 星期日 09:09  回复(5) |  引用(147) 加入博采

检索式的构建


邢志宇

     检索式是搜索引擎能够理解和运算的查询串,由关键词、逻辑运算符、搜索指令(搜
索语法)等构成。关键词是检索式的主体,逻辑运算符和搜索指令根据具体的查询要求从不同的角度对关键词进行搜索限定。
1、关键词
      关键词是描述搜索内容的关键性词语。网络搜索中的关键词是一个广义的概念,属于非受控自由词,凡是具有实际意义的表达及其书写形式,如字、词、词组、短语和字母、数字、符号、公式等,都可以用作搜索关键词。
     网络搜索,实际上是在搜索引擎的索引数据库中进行匹配检索。搜索引擎并不对其数据库进行可控语言标引,而只是机械地输出与关键词形式匹配的网页,随着数据库规模的不断增长,符合形式匹配条件的结果输出将会越来越多,尽管一些搜索引擎采用了智能分词技术,具有一定程度的概念检索功能,但仍然不可避免地会出现大量的无用信息。在形式匹配的技术条件下,关键词优化是最大限度地消除无用信息的主要方法。关键词在网络搜索中起着“关键”的作用,关键词选择准确与否直接关系到搜索的成败,而成功搜索的标志是在结果列表的首页就能够满足查询需求。
       从形式上看,关键词的数量与结果输出成反比,使用关键词越多结果输出越少,如用“搜索引擎优化”在GOOGLE中搜索,“约有603,000项符合搜索引擎优化的查询结果”、“搜索引擎优化 网站推广”搜索,“约有215,000项符合搜索引擎优化 网站推广的查询结果”、“搜索引擎优化 网站推广 竞价排名”搜索,“约有30,800项符合搜索引擎优化 网站推广 竞价排名 的查询结果”。从语义上分析,关键词的外延越小结果越趋于准确,如用“图书馆参考咨询工作”、“图书馆读者服务工作”等搜索,要比用“图书馆工作”更有实际搜索意义,结果也更加具体、适用。从词间的逻辑关系讲,“与”和“非”(and & not)采用多词限制和无关排除的方法缩小搜索范围,用于提高查准率,如“刘德华and身高and体重and籍贯”、“天龙八部 –电视剧”等。“或”(OR)利用多词扩展的方法扩大搜索范围,如用“刘德华 OR "Andy Lau"”搜索,可以得到较高的查全率。
        准确选择关键词需要从表述方式、行文习惯、书写规则等方面揣度查询内容,力求关键词与内容描述词的一致。由于搜索引擎的形式匹配原理,使用同一概念的不同词语搜索的结果截然不同。例如,用“北京”搜索不会出现“首都”字样,“北京图书馆”找不到“国图”的有关内容,“WTO”与“世界贸易组织”的搜索结果大向径庭等等。因此,必须注意对习惯用语、专业术语、全称、简称、同义词、近义词,以及拼音文字的前缀、后缀的了解和运用,尽可能地提高关键词的形式匹配几率,最大限度地减少误检和漏检。
        关键词可以分为主题关键词和特征关键词。主题关键词是指表述主要搜索内容的必用的词语,不使用主题关键词就不能准确地搜索到特定的内容。特征关键词是指在内容描述中与主题关键词同时出现且位置较近的量词、形容词、名词等进一步说明和限定主题关键词的词语,特征关键词可以有效地缩小搜索范围,使结果排序更加趋前。在搜索实践中经常会遇到这样的情况:即尽管主题关键词选择准确、使用得当,查询内容仍然不在结果首页或前三页之中,这时如果增加使用特征关键词,搜索结果就会明显改善。例如,查找国际象棋有几个棋子,在百度中用“国际象棋 棋子”搜索,有42,600项结果,前几页结果均无明确的答案,而增加特征关键词“个”,以“国际象棋 个棋子”搜索,结果减少至1,270项,结果首页第一项即有“国际象棋共有32个棋子,分为两方,浅色的棋子称为白棋,深色的棋子称为黑棋……”的网页摘要。
        正确选择关键词,需要对查询内容有一定了解,有一个根据搜索结果从模糊到准确的逐步调整关键词的练习过程。例如,查找有关“电动玩具”的英文资料,一般会选择“Electrical toy”搜索,但通过对其搜索结果进行分析,可以发现“Electrically operated toy”、“Battery operated toy”等也是查找“电动玩具”的必用关键词。又如,查找国外“指甲剪生产厂家”的信息,从“"nail scissors" factory”的搜索结果可以了解到,“指甲剪”和“厂家”习惯用“Nail Clippers”和“Manufacturer”表示,使用“"Nail Clippers" Manufacturer”搜索可以更好地满足查询需求。搜索的过程是一个学习和信息甄别的过程,要学会在搜索中选择和提炼关键词,丰富的搜索实践是成为搜索高手的必由之路。
2、逻辑运算符
     网络搜索中有“与(and)”、“或(or)”、“非(not)”三种逻辑关系,分别用“+”、“OR”、
“-”表示,它们称为布尔逻辑符或逻辑运算符。
    “与”关系为“A+B”形式,表示A和B必须同时出现在网页之中;“或”关系为“A OR B”形式,表示结果中,要么有A,要么有B,要么同时有A和B;“非”为“A –B”形式,表示B一定不会出现在搜索结果之中。
    在搜索引擎中,表示“与”关系的“+”通常可以省略,以词间空格代替,或者说,词间空格默认为“and”运算。“或”关系多以“OR”表示,但不同的搜索引擎对其大小写有严格的要求(如在GOOGLE中必须大写),或采用其它的符号表示(如“百度”以“|”表示)。“非”关系用“not”或“and not”表示,减号“-”是“not”运算的唯一符号形式。
使用逻辑运算符之前,须阅读搜索引擎的“帮助(Help)”文件,确认其支持何种
逻辑运算,了解和掌握逻辑符号的形式及其用法。
3、通配符
      通配符(wildcard)是一类键盘字符,用来代替规定的对象。搜索引擎最常用的通配符有星号(*)和问号 (?)等,通常星号(*)表示替代若干字母,问号 (?)表示替代一个字母。
通配符又可以分为“词间通配符”(partial-word wildcard)和“全词通配符”(full-word wildcard)两种。词间通配符只能代替单词中的一个或几个字母,而不是整个单词;全词通配符用来代替一个单词,而不是单词中的某个或几个字母。
      截词检索(truncation)是网络搜索的常用方法,它使用“词间通配符”,用截断的词的一个局部进行的检索,按截断的位置可分为前截断、中截断和后截断三种,搜索引擎多支持中截断和后截断检索。例如,“wom?n”可以搜索到包含woman、women、womyn、womin等单词的网页,“Comput*”对Computer、Computing、Computation 等以Comput 开头的单词进行搜索。
       Google使用的通配符属于“全词通配符”,通配符为星号(*),一次检索可以使用若干个*。全词通配符虽不及词间通配符常用,但它在实际搜索中的功能是不可忽视和替代的。如解答“How often does Halley's comet appear?”(哈雷彗星多少年出现一次?),用“Halley's comet appears every * years”搜索,可以轻而易举地得到答案:Halley's comet appears every 76 years。
       搜索引擎对截词检索的支持程度和通配符的规定多有不同,了解和使用通配符,请参阅搜索引擎的帮助文件。
4、搜索指令
       搜索指令是从不同角度限定网络搜索的功能性词语和符号,对搜索结果起着定向和控制的作用。搜索引擎使用不同的搜索指令实现不同的搜索功能,即使是相同或相似的搜索功能也可能采用不同的搜索指令。搜索指令形式的多样化给实际的搜索应用带来一定的困难。在搜索实践中,我们可以按照搜索功能对常用的搜索指令进行区分与归纳,以便于了解、掌握和正确使用搜索指令。
⑴、标题搜索(Title Search)
[title:]AltaVista、AllTheWeb、Inktomi、MSN、一搜……。
[intitle:] Google、Teoma、yahoo、百度……。
[allintitle:] Google ……。
⑵网站搜索(Site Search)
[host:] AltaVista……。
[hostname:] Yahoo……。
[site:] Excite、Google、Netscape、Yahoo、Teoma、百度、一搜、中搜……。
[domain:] Inktomi、HotBot、iWon, LookSmart、MSN、AltaVista、百度、一搜……。
⑶、网址搜索(URL Search)
[url:] AltaVista、Excite、yahoo(需要带http://)、一搜……。
[url.all:] AllTheWeb、Lycos……。
[allinurl:] Google
[inurl:] Google、yahoo、Teoma、百度……。
[originurl:] Inktomi、AOL、GoTo、HotBot、一搜……。
[url.domain:] Alltheweb……。
[url.host:] AllTheWeb、Lycos……。
⑷、链接搜索(Link Search)
[link:] AltaVista、Google 、yahoo(需要带http://)……。
[linkdomain:] Inktomi、AOL、HotBot、iWon、MSN、yahoo、一搜……。
[link.all:] AllTheWeb、Lycos……。
[inlink:] Teoma……。
[link.extension:] AllTheWeb……。
⑸、锚点搜索(Anchor Search)
[anchor:] AltaVista……。
[allinanchor:] Google……。
⑹、文件搜索(filetype Search)
[filetype:文件类型后缀](如PDF、DOC、SWF等)Google、iWon、AOL、Netscape、百度、中搜……。
[feature:文件类型名称](acrobat、activex、audio、embed、flash、frame、audio、video等) Yahoo、MSN、HotBot、overture……。
⑺、临近搜索(Proximity Searching)
[NEAR] AltaVista、Lycos、WebCrawler、AOL……。
[BEFORE] Lycos……。
[FAR] Lycos……。
[ADJ] Lycos、AOL……。
    此外,符号搜索指令还有表示强制搜索的加号“+”、精确搜索的引号“" "”、优先搜索的圆括号“( )”、同义词搜索的“~”号等等。
    搜索引擎是否支持某种搜索指令和各种搜索指令的形式在其搜索“帮助(Help)”文件中均会有相关的说明。判断搜索引擎是否支持某种搜索指令也可以采用以下方法:即使用某一搜索指令搜索,如果其结果不出现指令词或符号本身并显示相应的结果,则该搜索引擎支持该搜索指令,反之,如果结果中出现指令词或指令符号,则该搜索引擎就一定不支持该搜索指令。
        应当注意到,采用同一搜索技术或搜索结果具有同源性的搜索引擎,其搜索指令基本相同。然而,搜索技术或搜索结果的提供商与其合作者的关系,绝不是一成不变的,随着搜索技术的升级和搜索引擎之间关系的变化,各搜索引擎所支持的搜索指令也会有所调整和改变。

该问已在《科技情报开发与经济》2007年第17期发表

- 作者: 邢志宇 2006年07月30日, 星期日 09:06  回复(0) |  引用(0) 加入博采

搜索工具的选择


邢志宇

搜索工具是互联网发展到一定阶段的必然产物。互联网诞生初期,信息的存取矛盾尚未出现,人们无须借助任何工具就可以利用有限的网络资源。1989年NSFNET取代ARPANET并向公众开放以后,互联网进入飞速发展时期,海量信息与对其个性化利用的矛盾日渐突出,不借助一定的工具便不能有效地获取特定的信息。人们开始认识到搜索工具(Search Tools)对网络利用的重要意义,各类针对互联网信息整序和检索的工具应运而生。
搜索工具随着网络的发展而不断地创新和完善。从实用的角度讲,目前常用的搜索工具可分为网络搜索工具、站内搜索工具和数据库检索系统。网络搜索工具具有对整个互联网络搜寻的能力,又可分为基于索引程序的全文搜索引擎(Full Text Search Engine,又称关键词搜索引擎(Keyword Engine)、通过人工标引而建立的分类搜索引擎(Directory)和调用独立搜索引擎的元搜索引擎。站内搜索工具的范围仅限于某一网站之内,通常具有关键词搜索和分类浏览查找两种功能。数据库检索系统是为检索库内信息而开发的专用工具,功能视数据库内容性质而多有不同,一般有关键词、分类、字顺、特定符号或编号等检索功能。
明确了搜索意图和制定了搜索策略之后,搜索工具的选择尤为重要,它直接影响着搜索的效率。工欲善其事,必先“选”其器,搜索工具选择得当,就会给人以愉悦的搜索体验,能够收到事半功倍的效果。
不同类型的搜索工具有着不同的功能,同类搜索工具之间也存在着性能、特色等差异。满足不同的信息需求必须使用不同的搜索工具,一定的搜索工具可以更好地满足特定的信息需求。
1、族性检索
“族”为丛聚、集合、类别之义,族性检索是对具有某种共同性质或特征的众多事
物、概念的检索,分类搜索引擎是族性检索的首先选工具。
分类搜索适合查询具有同一特征的多个目标和主题范围广、概念宽泛的问题。例如,“公共图书馆”就是典型的族性概念,进行国内与美国公共图书馆网站调查及其比较研究,最有效的方法就是利用分类搜索引擎,根据分类体系,按照其类目归属,以“参考资料—图书馆—公共图书馆”或“区域—国家与地区—中国大陆—参考资料—图书馆 —公共图书馆”(雅虎中国)、“Reference—Libraries—Public Libraries—By Region— U.S. States”(YaHoo!)等路径逐级浏览查找。
由于分类体系的系统性和聚类特点,分类搜索可以方便地进行扩检或缩检,在查找某一学科或专业文献时,利用类系层层隶属、外延渐小的原理,满足不同查全和查准要求;利用类列外延相斥、同位详列的特性,进行相关查询。即类以求,触类旁通是分类搜索引擎的天然优势和显著特征。
使用分类搜索引擎需要对其分类体系、类目设置、立类原则、收录范围等有一个大致的了解,能够确定所需资源的大类归属。然而,目前常用的分类搜索引擎的分类体系各有不同,当难以把握浏览路径时,可以借助其“所有目录(the Directory)”和“此目录下(this category)”的关键词搜索功能,根据结果页面的路径指示,在相关类目中查找。
2、特性检索
“特”为唯独、只有、专门之义,特性检索是指对特定事物或概念的检索,关键词搜索引擎是特性检索的首选工具。
关键词搜索引擎多用于查找主题范围较小、明确具体的信息和交叉性、细节性问题。例如,“黄河源头”、“北京图书馆现有藏书量”就是典型的特性检索,使用“黄河 发源地”和“国家图书馆 现有 藏书 册”等关键词搜索,便可一检即得。
关键词搜索引擎的特性检索优势是明显的,但由于其智能化程度有限,不可避免地会产生较大的搜索“噪音”,人们没时间也不可能逐页翻检结果列表,只有排列靠前(通常在前三页之内)的相关结果才有可能被真正地利用。
关键词搜索引擎,除了具有强大的字、词、短语等搜索功能外,还可以进行字、词间的“与”、“或”“非”等逻辑关系搜索和标题、URL、文件类型、时间、网站、链接等多种限定搜索,其“高级搜索(Advanced Search)”还具有搜索词语控制和个性设置功能。各种专用搜索引擎,如新闻、图像、购物、音乐搜索引擎等,都属于基于索引程序的关键词搜索引擎。
3、专题搜索
专题是指范围较小、体裁单一、具有相同性质和专门用途的信息或资源,专题搜索
主要使用站内搜索工具。
专题搜索不同于学科或主题搜索,因为“专题”的范围要比学科或主题的外延小得多,尽管相对完整,但缺乏系统性和稳定性,分类搜索引擎不会专门列目标引和收录专题信息或专题资源。关键词搜索引擎虽然具有一定的专题搜索能力,但其专指性的搜索很难满足专题明显的“族性”要求。
我们所说的专题信息或专题资源,是指经过网站人工整理、编辑,并为特定用途发布的信息或资源,如“北京申奥”、“2005年我国洪涝灾情”、主题教育推荐书目、特定事件的专题新闻等等。一般情况下,专题信息或专题资源多在相关网站中以超链接形式出现,分类搜索引擎对此类专题搜索无能为力,用“北京申奥 专题”、“北京申办奥运会”、“2005年 (洪水 OR 洪灾) 灾情报告”等关键词搜索,虽有相关结果,但与“专题”的要求相差甚远,即使是使用关键词进行新闻搜索,也只能得到零散的相关信息,而无法直接找到的经过整理和编辑的相关新闻专题。
进入相关网站进行站内专题搜索则更为便捷和直接,如在有关体育网站、新闻门户网站、教育网站等利用关键词搜索或浏览查找,可以一次满足上述主题搜索的要求。当然,对网络资源不太熟悉的搜索者来说,确定查找有关专题的网站可能有一定的困难,这时可以利用分类和关键词搜索引擎分别了解相关网站的信息,根据网站简介和提示信息登陆相关网站进行站内搜索。
4、        数据库检索
在线数据库是一种特殊形式的网络资源,一般的搜索引擎难以寻觅其踪迹,即使是
专门的数据库网站也多有授权限制而不提供免费使用。数据库有其自身的检索系统自不待言,问题是怎样找到并利用数据库。数据库属于网络的深层结构(deep Web structure)资源,需要借助专门的搜索工具。查找数据库资源请参见《专用搜索引擎》的有关介绍,对有授权限制的数据库的利用请参见《搜索技巧》中的有关内容。

- 作者: 邢志宇 2006年07月30日, 星期日 09:05  回复(0) |  引用(0)