如何查找某一国家(地区)某类机构的电邮与电话- -| 回首页 | 2004年索引 | - -Google的非主流功能

搜索引擎的扩检与缩检- -

                                      

邢志宇

扩检与缩检是网络搜索中为满足查全率和查准率要求而经常使用的两种检索策略与方法。

     我们利用搜索引擎进行网络搜索,无不希望得到准确、理想的结果,但由于网络信息浩淼繁杂无序,搜索引擎的索引机制与匹配算法各异,以及对检全率与检准率的要求不同,期望一个检索语句的一次检索就能得到十分确切的结果是不现实的。网络搜索是一个渐进的过程,即分析检索要求---制定、调整检索策略---确定、优化检索语句---逐步接近需求信息---最终得到确切结果。所谓“确切”的结果,其实是由检索要求决定的,它们有的强调查准率,哪怕只检出一两篇文献,只要它包含了特定的信息,其结果即是“确切”的;有的则着重要求查全率,尽管检出几十、上百篇文献,只要它们与特定信息有关,其结果也不失为“确切”。因此,评价检索结果是否确切,首先要确定检索要求的查准率和查全率的期望值,只要结果与期望值相同或相近,我们就认为这个结果是“确切”的。

     查全率与查准率呈反比关系,查全率愈高,查准率就愈低,反之亦然。在检索实践中,我们以扩检和缩检的方法来调整查全率与查准率。扩检获得较高的查全率,缩检获得较高的查准率。

     所谓扩检,即用较少的关键词和增加上位概念或同义词的方法扩大检索范围,缩检即用较多的关键词和增加专指性较强的概念或限制概念词来缩小检索范围。

     在不同的搜索引擎中,可以用布尔符“OR(|)”、结果页面的相关关键词提示、以及link: 、info: 等特殊检索语法进行扩检,用布尔符and(+)进行正向缩检,not(-)进行反向缩检,用site:和filetype:限定网页范围和文件类型范围进行缩检,以及用“Search within results(在结果中搜索)” 缩检。(注:在不同的搜索引擎中“或”、“与”、“非”可用不同的逻辑符表示。)

     在制定检索策略时,对文献量较大或属于成熟学科的课题,应优先考虑查准率,从众多的相关文献中选取针对性较强的文献,对文献较少或新兴学科的课题,可适当放宽检索范围来保证查全率,以免遗漏重要的参考文献。

     扩检与缩检示例(以百度搜索引擎为例):

     1、中国互联网络信息中心(China Internet Network Information Center ,简称CNNIC)是1997年6月3日组建的非营利性的管理和服务机构,负责CN域名、中文通用域名、通用网址、IP/AS分配等管理和运营,行使国家互联网络信息中心的职责。
     以CNNIC网站为切入点,了解更多的与CNNIC经营业务相关的信息。
     检索式:“link:cnnic.net.cn” 结果98篇
     检索式:“info:cnnic.net.cn” 结果188篇

     分析:以网站为基点利用搜索引擎的特殊语法进行扩检。

     2、查找有关我国互联网使用状况的文献。
检索式1:“互联网 使用 状况 调查” 结果260,000篇
检索结果中出现有“互联网使用状况”词组。
     2.2、检索式2:“互联网使用状况 调查”缩检 结果1,810篇
除去重复,结果满足检索要求。
     2.2.1、查找中国互联网络信息中心(CNNIC)发布的有关我国互联网使用状况的文献。
检索式3:“互联网使用状况 调查 CNNIC”
结果152篇,第一篇即是“互联网使用及影响调查报告--历次CNNIC报告”。

     分析:逐步缩检,检索式1是分析检索要求后初步选用的关键词,检索式2为分析检索结果,用调整、优化过的检索式进行缩检,检索式3增加专指词进一步缩检,获得精确结果。

     3、关于我国互联网发展与使用状况,许多单位和个人都有调研文献发表,分别仅查找CNNIC和中国社会科学院发布的相关调查报告。
用“site:”进行网站限定搜索。
检索式:“互联网使用 调查 site:cnnic.net.cn” 结果14篇
检索式:“互联网使用 调查 site:cass.net.cn” 结果11篇
     3.1、在结果页面下有相关关键词提示“中国互联网调查”,以此为关键词扩检,会得到查全率更高的检索结果。
检索式:“中国互联网调查” 结果3,590篇

     分析:以特定网站的相关信息检索为基础,利用搜索引擎的“相关关键词提示”功能进行扩检。

     4、尽全查找互联网上有关汤显祖《牡丹亭》的资料。
检索式1:“牡丹亭 汤显祖” 结果6,570篇
《牡丹亭》又名《还魂记》,
检索式2:“牡丹亭|还魂记 汤显祖” 结果54,600篇
分析:检索式1由符合检索要求的基本关键词组成,检索式2用布尔“OR”偕同义词“还魂记”明显地扩大了检索范围,显著提高了查全率。

     5、查找汤显祖的《牡丹亭》原文
检索式1:“牡丹亭” 结果54,600篇
检索式2:“牡丹亭 汤显祖” 结果6,570篇
检索式3:“牡丹亭 汤显祖 -公园” 结果5,610篇
检索式4:“牡丹亭 汤显祖 -公园 -歌曲” 结果5,140篇
检索式5:“牡丹亭 汤显祖 -公园 -歌曲 -演出” 结果4,090篇
检索式6:“牡丹亭 汤显祖 -公园 -歌曲 -演出 -剧” 结果3,220篇

     分析:检索式1为首选关键词,检索式2为增加关键词进行初步缩检,检索式3--6为依次减除无关资料进行进一步缩检以提高检准率。用这种方法可以逐步去掉更多的无关资料,但到检索式6《牡丹亭》原文已出现在结果页的首位,无须再行缩检。

     用“Search within results(在结果中搜索)” 进行缩检时,要注意前一次的搜索词仍在搜索框中,须先将其删除并输入新的关键词然后点击“在结果中搜索”按纽。有的搜索引擎(如Infoseek、HotBot等)需先点选“Search within results”功能框,否则视为重新搜索。

     采用何种方法进行扩检与缩检,何时扩检或缩检,要根据搜索结果满足检索要求的程度而定。无论是扩检与缩检都需要对前一次搜索结果进行分析,依据具体情况或调整、增减关键词、或使用逻辑“非”与“或”来逐步优化检索式,直至获得满意结果。满意结果的获得有一个渐进的检索过程,其中的策略、技巧只能在经常不断的搜索实践中积累和提高,只要勤于搜索善于总结,从浩瀚网络资源中获取所需信息亦非难事。


- 作者: 邢志宇 2004年08月13日, 星期五 15:06 加入博采

Trackback

你可以使用这个链接引用该篇文章 http://publishblog.blogchina.com/blog/tb.b?diaryID=49089

回复

评论内容: