|
|
用户名:邢志宇 笔名:邢志宇 地区: 行业:其他 |
| 日 | 一 | 二 | 三 | 四 | 五 | 六 |
搜索结果的评价
检索式的构建
邢志宇
检索式是搜索引擎能够理解和运算的查询串,由关键词、逻辑运算符、搜索指令(搜
索语法)等构成。关键词是检索式的主体,逻辑运算符和搜索指令根据具体的查询要求从不同的角度对关键词进行搜索限定。
1、关键词
关键词是描述搜索内容的关键性词语。网络搜索中的关键词是一个广义的概念,属于非受控自由词,凡是具有实际意义的表达及其书写形式,如字、词、词组、短语和字母、数字、符号、公式等,都可以用作搜索关键词。
网络搜索,实际上是在搜索引擎的索引数据库中进行匹配检索。搜索引擎并不对其数据库进行可控语言标引,而只是机械地输出与关键词形式匹配的网页,随着数据库规模的不断增长,符合形式匹配条件的结果输出将会越来越多,尽管一些搜索引擎采用了智能分词技术,具有一定程度的概念检索功能,但仍然不可避免地会出现大量的无用信息。在形式匹配的技术条件下,关键词优化是最大限度地消除无用信息的主要方法。关键词在网络搜索中起着“关键”的作用,关键词选择准确与否直接关系到搜索的成败,而成功搜索的标志是在结果列表的首页就能够满足查询需求。
从形式上看,关键词的数量与结果输出成反比,使用关键词越多结果输出越少,如用“搜索引擎优化”在GOOGLE中搜索,“约有603,000项符合搜索引擎优化的查询结果”、“搜索引擎优化 网站推广”搜索,“约有215,000项符合搜索引擎优化 网站推广的查询结果”、“搜索引擎优化 网站推广 竞价排名”搜索,“约有30,800项符合搜索引擎优化 网站推广 竞价排名 的查询结果”。从语义上分析,关键词的外延越小结果越趋于准确,如用“图书馆参考咨询工作”、“图书馆读者服务工作”等搜索,要比用“图书馆工作”更有实际搜索意义,结果也更加具体、适用。从词间的逻辑关系讲,“与”和“非”(and & not)采用多词限制和无关排除的方法缩小搜索范围,用于提高查准率,如“刘德华and身高and体重and籍贯”、“天龙八部 –电视剧”等。“或”(OR)利用多词扩展的方法扩大搜索范围,如用“刘德华 OR "Andy Lau"”搜索,可以得到较高的查全率。
准确选择关键词需要从表述方式、行文习惯、书写规则等方面揣度查询内容,力求关键词与内容描述词的一致。由于搜索引擎的形式匹配原理,使用同一概念的不同词语搜索的结果截然不同。例如,用“北京”搜索不会出现“首都”字样,“北京图书馆”找不到“国图”的有关内容,“WTO”与“世界贸易组织”的搜索结果大向径庭等等。因此,必须注意对习惯用语、专业术语、全称、简称、同义词、近义词,以及拼音文字的前缀、后缀的了解和运用,尽可能地提高关键词的形式匹配几率,最大限度地减少误检和漏检。
关键词可以分为主题关键词和特征关键词。主题关键词是指表述主要搜索内容的必用的词语,不使用主题关键词就不能准确地搜索到特定的内容。特征关键词是指在内容描述中与主题关键词同时出现且位置较近的量词、形容词、名词等进一步说明和限定主题关键词的词语,特征关键词可以有效地缩小搜索范围,使结果排序更加趋前。在搜索实践中经常会遇到这样的情况:即尽管主题关键词选择准确、使用得当,查询内容仍然不在结果首页或前三页之中,这时如果增加使用特征关键词,搜索结果就会明显改善。例如,查找国际象棋有几个棋子,在百度中用“国际象棋 棋子”搜索,有42,600项结果,前几页结果均无明确的答案,而增加特征关键词“个”,以“国际象棋 个棋子”搜索,结果减少至1,270项,结果首页第一项即有“国际象棋共有32个棋子,分为两方,浅色的棋子称为白棋,深色的棋子称为黑棋……”的网页摘要。
正确选择关键词,需要对查询内容有一定了解,有一个根据搜索结果从模糊到准确的逐步调整关键词的练习过程。例如,查找有关“电动玩具”的英文资料,一般会选择“Electrical toy”搜索,但通过对其搜索结果进行分析,可以发现“Electrically operated toy”、“Battery operated toy”等也是查找“电动玩具”的必用关键词。又如,查找国外“指甲剪生产厂家”的信息,从“"nail scissors" factory”的搜索结果可以了解到,“指甲剪”和“厂家”习惯用“Nail Clippers”和“Manufacturer”表示,使用“"Nail Clippers" Manufacturer”搜索可以更好地满足查询需求。搜索的过程是一个学习和信息甄别的过程,要学会在搜索中选择和提炼关键词,丰富的搜索实践是成为搜索高手的必由之路。
2、逻辑运算符
网络搜索中有“与(and)”、“或(or)”、“非(not)”三种逻辑关系,分别用“+”、“OR”、
“-”表示,它们称为布尔逻辑符或逻辑运算符。
“与”关系为“A+B”形式,表示A和B必须同时出现在网页之中;“或”关系为“A OR B”形式,表示结果中,要么有A,要么有B,要么同时有A和B;“非”为“A –B”形式,表示B一定不会出现在搜索结果之中。
在搜索引擎中,表示“与”关系的“+”通常可以省略,以词间空格代替,或者说,词间空格默认为“and”运算。“或”关系多以“OR”表示,但不同的搜索引擎对其大小写有严格的要求(如在GOOGLE中必须大写),或采用其它的符号表示(如“百度”以“|”表示)。“非”关系用“not”或“and not”表示,减号“-”是“not”运算的唯一符号形式。
使用逻辑运算符之前,须阅读搜索引擎的“帮助(Help)”文件,确认其支持何种
逻辑运算,了解和掌握逻辑符号的形式及其用法。
3、通配符
通配符(wildcard)是一类键盘字符,用来代替规定的对象。搜索引擎最常用的通配符有星号(*)和问号 (?)等,通常星号(*)表示替代若干字母,问号 (?)表示替代一个字母。
通配符又可以分为“词间通配符”(partial-word wildcard)和“全词通配符”(full-word wildcard)两种。词间通配符只能代替单词中的一个或几个字母,而不是整个单词;全词通配符用来代替一个单词,而不是单词中的某个或几个字母。
截词检索(truncation)是网络搜索的常用方法,它使用“词间通配符”,用截断的词的一个局部进行的检索,按截断的位置可分为前截断、中截断和后截断三种,搜索引擎多支持中截断和后截断检索。例如,“wom?n”可以搜索到包含woman、women、womyn、womin等单词的网页,“Comput*”对Computer、Computing、Computation 等以Comput 开头的单词进行搜索。
Google使用的通配符属于“全词通配符”,通配符为星号(*),一次检索可以使用若干个*。全词通配符虽不及词间通配符常用,但它在实际搜索中的功能是不可忽视和替代的。如解答“How often does Halley's comet appear?”(哈雷彗星多少年出现一次?),用“Halley's comet appears every * years”搜索,可以轻而易举地得到答案:Halley's comet appears every 76 years。
搜索引擎对截词检索的支持程度和通配符的规定多有不同,了解和使用通配符,请参阅搜索引擎的帮助文件。
4、搜索指令
搜索指令是从不同角度限定网络搜索的功能性词语和符号,对搜索结果起着定向和控制的作用。搜索引擎使用不同的搜索指令实现不同的搜索功能,即使是相同或相似的搜索功能也可能采用不同的搜索指令。搜索指令形式的多样化给实际的搜索应用带来一定的困难。在搜索实践中,我们可以按照搜索功能对常用的搜索指令进行区分与归纳,以便于了解、掌握和正确使用搜索指令。
⑴、标题搜索(Title Search)
[title:]AltaVista、AllTheWeb、Inktomi、MSN、一搜……。
[intitle:] Google、Teoma、yahoo、百度……。
[allintitle:] Google ……。
⑵网站搜索(Site Search)
[host:] AltaVista……。
[hostname:] Yahoo……。
[site:] Excite、Google、Netscape、Yahoo、Teoma、百度、一搜、中搜……。
[domain:] Inktomi、HotBot、iWon, LookSmart、MSN、AltaVista、百度、一搜……。
⑶、网址搜索(URL Search)
[url:] AltaVista、Excite、yahoo(需要带http://)、一搜……。
[url.all:] AllTheWeb、Lycos……。
[allinurl:] Google
[inurl:] Google、yahoo、Teoma、百度……。
[originurl:] Inktomi、AOL、GoTo、HotBot、一搜……。
[url.domain:] Alltheweb……。
[url.host:] AllTheWeb、Lycos……。
⑷、链接搜索(Link Search)
[link:] AltaVista、Google 、yahoo(需要带http://)……。
[linkdomain:] Inktomi、AOL、HotBot、iWon、MSN、yahoo、一搜……。
[link.all:] AllTheWeb、Lycos……。
[inlink:] Teoma……。
[link.extension:] AllTheWeb……。
⑸、锚点搜索(Anchor Search)
[anchor:] AltaVista……。
[allinanchor:] Google……。
⑹、文件搜索(filetype Search)
[filetype:文件类型后缀](如PDF、DOC、SWF等)Google、iWon、AOL、Netscape、百度、中搜……。
[feature:文件类型名称](acrobat、activex、audio、embed、flash、frame、audio、video等) Yahoo、MSN、HotBot、overture……。
⑺、临近搜索(Proximity Searching)
[NEAR] AltaVista、Lycos、WebCrawler、AOL……。
[BEFORE] Lycos……。
[FAR] Lycos……。
[ADJ] Lycos、AOL……。
此外,符号搜索指令还有表示强制搜索的加号“+”、精确搜索的引号“" "”、优先搜索的圆括号“( )”、同义词搜索的“~”号等等。
搜索引擎是否支持某种搜索指令和各种搜索指令的形式在其搜索“帮助(Help)”文件中均会有相关的说明。判断搜索引擎是否支持某种搜索指令也可以采用以下方法:即使用某一搜索指令搜索,如果其结果不出现指令词或符号本身并显示相应的结果,则该搜索引擎支持该搜索指令,反之,如果结果中出现指令词或指令符号,则该搜索引擎就一定不支持该搜索指令。
应当注意到,采用同一搜索技术或搜索结果具有同源性的搜索引擎,其搜索指令基本相同。然而,搜索技术或搜索结果的提供商与其合作者的关系,绝不是一成不变的,随着搜索技术的升级和搜索引擎之间关系的变化,各搜索引擎所支持的搜索指令也会有所调整和改变。
该问已在《科技情报开发与经济》2007年第17期发表
搜索工具的选择
《实用网络搜索》出版
实用网络搜索 邢志宇等著 西安地图出版社出版
发行 新华书店经销 大32开 355千字 定价:
36.00元
2005年12月第1版 ISBN 7-80670-886-3
《实用网络搜索》序言
网络搜索与搜索引擎研究
(代序言)
邢志宇
顾名思义,网络搜索就是在互联网上进行的信息搜寻。广义的网络搜索可以包括网站浏览式查找,但作为信息挖掘、图书馆学和情报学研究内容的网络搜索是狭义和主流的“网络搜索”,即利用搜索引擎进行的网络信息的搜寻与查找。
我国上网用户人数达到10,300万,搜索引擎已成为仅次于电子邮件的第二大网络应用。凡有过网络经历的人,无不对Google、Yahoo、百度、搜狗、中搜、一搜、北大天网等耳熟能详,无不有过网站、网页、新闻、图像、游戏、MP3、FTP等搜索体验。网络的发展造就了搜索引擎,搜索引擎使人们能够快捷和有效地利用网络。无论对一般网民和工程技术与学术研究人员来说,搜索引擎已成为不可或缺的网络信息检索工具。
对商家来说,搜索引擎是一种赢利的产品,而对使用者而言,搜索引擎则仅仅是一种检索工具。作为产品,搜索引擎公司和搜索技术提供商要研制和创新搜索技术;作为工具,使用者要了解搜索引擎的功用、性能,掌握其使用方法和技巧。利用搜索引擎的目的不同,构成了搜索引擎研究的不同群体和对搜索引擎不同角度不同侧重的研究。
一
搜索技术研究的主体是搜索引擎的创制者和搜索技术提供商,它们多为专业公司和研究团体,拥有专职的研发队伍,专门从事网络信息挖掘理论研究、搜索引擎的开发、研制和搜索技术的改进、创新,靠建立搜索网站或提供搜索技术生存和赢利。如Google拥有独特的链接评价体系和PageRank专利技术; Yahoo!在收购了Inktomi、Overture、Fast、AltaVista、Kelkoo、3721等公司后,2004年2月断然与Google决裂,推出融合各旗下公司搜索技术精华的自有搜索技术(YST),并开始成为搜索技术提供商;Metacrawler开元搜索引擎先河,它的价值不仅在于同时调用多个独立的搜索引擎分别进行搜索的创意,更体现在处理各搜索引擎的查询结果,提交统一格式结果页面的独特技术;AltaVista第一个开发了支持自然语言的搜索技术;Ask Jeeves开创智能答询搜索引擎模式;About.com推出垂直主题搜索引擎模式;hobomo独创“MFGS闪电搜索”技术和“变异再生呈现”技术;百度拥有“超链分析”专利技术;中搜开发的“划词搜索”技术;一搜依托YST的本地化搜索;HillTop算法专利技术;vivisimo公司的搜索结果自动个性化聚类技术;Blinkx公司推出号称“可以搜索200余种媒介类型,包括了Word,Excel,PowerPoint和Acrobat PDF等格式的文档,以及各种音频与视频格式”的全新的“占卜式”搜索技术;搜狐2004年8月3日推出了自主研发的第三代搜索引擎—“搜狗”.…..。由于搜索引擎具有较大的赢利空间和诱人的前景,搜索技术无时不在研发和创新之中,搜索引擎商无不具有独门产品和自主知识产权的特色技术。
网络发展的需要和自身生存的压力,促使搜索引擎商不断对搜索引擎进行改进和升级,推出新的功能,以满足不断增长的搜索需求,争取更多的用户。以Googl为例,自1998年9月7日问世以来,它从未停止过其搜索技术的创新:1999年2月增加短语搜索功能,2000年7月27日推出高级搜索功能、8月16日增加布尔逻辑符“OR”检索,2001年1月31日增加PDF搜索,10月15日增加分类目录搜索,2002年10月12日增加购物搜索,2003年8月13日Toolbar 2.0新版问世,8月20日增加单词释义功能,11月6日推出Deskbar, 2004年1月13日推出区域编码、产品代码、航班信息、车辆确认号码以及美国邮政监管号码等搜索,3月推出本地搜索,4月推出拼音汉字自动转换功能,6月24日推出中英文字典、天气、股票、邮编区号、手机号码等实用搜索功能,7月推出“实名通”,9月9日推出新闻简体中文版,10月6日增加图书搜索,11月17日推出学术搜索,2005年2月23日推出电影搜索,3月7日推出桌面搜索中文版,4月20日推出My Search History个性化功能,8月24日推出GoogleTalk即时信息和网络语音电话服务,9月推出中文本地搜索和Blog搜索……。Googl几乎每月都有新的变化,每年都有重大的改进和创新,以功能的不断改进、增强和增加,满足用户不断提高和变化的需求。其它搜索引擎无一不是孜孜以求,不断地创新技术,增强功能。为适应个性化的搜索需求和发展趋势,各搜索引擎争相展显技术优势,纷纷抢滩桌面和工具栏,一时间几乎所有的搜索引擎都推出了称谓不同的toolbar或deskbar。然而,尽管搜索技术研究竞争激烈,新的搜索搜索技术和搜索功能不断问世,但真正“智能化”和“个性化”的搜索技术还仍在人们的期待之中。
二
搜索方法研究属于应用研究,对搜索引擎的推广使用有着直接的影响,与搜索引擎的普及和利用水平相辅相成。网络检索的需要催生了搜索引擎,搜索引擎使用方法的研究极大地促进了网络检索技能和网络资源利用水平的提高。
搜索方法研究的群体最为庞大,广大的网络搜索爱好者是其中的生力军,高校图书情报院系和图书情报部门的科研人员是网络搜索方法研究的主力和骨干,网络搜索教学网站和搜索论坛是普及搜索知识、学习搜索方法、交流搜索经验和探讨搜索问题的主要平台,搜索引擎普及与研究网站和图书情报专业期刊是发表研究成果的主要载体。
较有影响的网络搜索教学网站有:extreme searcher(http://extremesearcher.com/handbooklinks.html)、Finding Information on the Internet: A Tutorial(http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/FindInfo.html)、Anne Clyde'Weblog(http://www.hi.is/~anne/)等。研究搜索方法较为知名的论坛有:Search Engine Watch的forum(http://forums.searchenginewatch.com/)、Search Guild的forum(http://www.searchguild.com/)、中文搜索引擎指南的“搜索论坛”( http://www.sowang.com/bbs)、中国生命科学论坛的“文献与检索技巧”( http://www.bioon.net/list.asp?boardid=17)、丁香园医学论坛的“文献检索知识交流版”( http://www.dxy.cn/bbs/post/page?bid=6&sty=1&age=0)、搜狗说吧—搜索引擎吧、百度帖吧—搜索引擎吧等等。此外,搜索引擎普及与推广网站一般也都设置专栏,登载搜索引擎功能与特点、各种网络资源搜索方法与技巧等方面的文章,其中影响较大的有中文搜索引擎指南网(http://www.sowang.com/)、《搜索研究院》(http://www.9238.net/)、搜索引擎直通车(http://www.se-express.com/)等等,这些都是不可多得的研究搜索引擎、搜索技巧和学习专业文献检索的门径。
近年来,高校《文献检索》课程均增加了搜索引擎和网络信息检索的相关内容,对普及网络搜索知识起到了积极的推动作用。图书情报界同仁对网络搜索的理论和实践从不同的角度进行深入的研究和系统的总结,各具特色的研究成果亦多有问世。在维普《中文科技期刊数据库》中进行关键词检索,“搜索引擎”检索出文章3,249篇,“网络信息检索”407篇,“internet+文献检索”54篇,以“搜索引擎”、“网络信息检索”为关键词,从国家图书馆《中文普通图书数据库》分别检索出有关专著23种和14种。综观现有研究成果,搜索方法研究的范围比搜索技术研究要宽泛的多,涉及搜索引擎的检索功能、检索语法、检索策略、检索词语、检索技巧、检索工具的评价与选择、各个学科与各种类型网络资源检索等诸多方面。我们有理由相信,随着社会信息意识的增强,网民人口将快速增长,搜索引擎的使用率将逐步提高,搜索方法的研究将会受到人们更多的关注。
三
网络搜索离不开搜索引擎,对搜索引擎的了解和掌握影响着网络搜索的质量和效率。了解搜索引擎,很重要的一个方面就是及时获得搜索引擎的诸如版本升级、性能优化、算法改进、功能增加等动态信息。搜索引擎的动态信息有官方发布和研究者或使用者发布两种方式。前者多以新闻形式出现,可以通过新闻搜索及时获得,或在有关网站进行专题新闻查阅。设立搜索引擎专题新闻烂目(如:Search Engine News、Search Engine Update、搜索快报、搜索引擎业界动态等)的主要网站有:Search Engine News(http://www.searchengineguide.com/searchenginenews.html)、Search Engine Showdown(http://www.searchengineshowdown.com/)、ResearchBuzz(http://www.researchbuzz.com)、Search Engine Watch (http://searchenginewatch.com/)、Pandia Search Engine News(http://www.pandia.com/sew/index.php)、中文搜索引擎指南网(http://www.sowang.com/)、搜索引擎直通车(http://www.se-express.com/)等,从中可以进行专题新闻的系统浏览和回溯查找;后者多以Blog为载体,信息源较为广泛,有的是搜索引擎的研制者专注于某一搜索引擎的Blog,更多的是搜索专家或搜索爱好者的个人Blog。受人关注此类Blog有:Google Blog(http://www.google.com/googleblog/atom.xml)、Yahoo! Search blogh(http://www.ysearchblog.com/index.xml)、 msnsearch's WebLog (http://blogs.msdn.com/msnsearch/rss.aspx)、 Ask Jeeves Blog(http://blog.ask.com/index.rdf )、SEW Blog(http://blog.searchenginewatch.com/blog/)、搜索引擎研究(http://www.wespoke.com/)、Google研究院Blog(http://www.ooone.com/blog/)等等。通常情况下,搜索引擎不会发布其测试功能和日常改进的官方信息,而有关专家的个人Blog则会对搜索引擎的细微变化有敏感的反映,利用Blog搜索引擎和RSS订阅可以及时获得搜索引擎的非官方动态信息。
我们已跨进信息社会的门槛,互联网已成为人类共享的信息平台,并正在影响和改变着我们的生活。然而,网海浩瀚资源丰富信息茫茫,从中获取我们所需要的特定的资源或信息,没有专门的检索工具是不可想象的。网络搜索与搜索引擎研究,对提高社会的网络应用水平,培养和强化信息意识,进而促进知识生产和知识创新,有着重要的意义和影响。“工欲善其事,必先利其器”,了解搜索引擎的功能、特点,探讨和研究各种网络资源的检索策略、方法和技巧,熟练掌握和使用搜索引擎,已成为现代人必不可少的基本技能。
2005年9月18日
《实用网络搜索》目录
目 录
第一章 搜索入门
第一节 明确搜索意图
第二节 制定搜索策略
第三节 选择搜索工具
第四节 构建检索式
第五节 搜索结果评价
第二章 搜索引擎
第一节 常用搜索引擎
1、 网络搜索巨鳄——Google
2、 分类搜索引擎鼻祖——Yahoo!
3、 著名的多媒体搜索引擎——AltaVista
4、 最受欢迎的元搜索引擎——Dogpile
5、 最大的中文搜索引擎——百度
6、 第三代互动式搜索引擎——搜狗
7、 全球领先的中文搜索引擎——中国搜索
8、 雅虎的中国搜索门户—— 一搜
9、 中国的ODP——网易
10、 最大的FTP搜索引擎——天网千帆
第二节 元搜索引擎
一、 中文元搜索引擎
二、 英文元搜索引擎
第三节 专用搜索引擎
一、 多媒体搜索引擎
二、 新闻搜索引擎
三、 “看不见的网页”与数据库搜索引擎
四、 FTP搜索引擎
五、 购物搜索引擎
六、 少儿搜索引擎
七、 MP3搜索引擎
八、 歌词搜索引擎
九、 域名搜索引擎
十、 软件搜索引擎
十一、 论坛搜索引擎
十二、 博客搜索引擎
十三、 游戏搜索引擎
十四、 文学作品搜索引擎
十五、 答案搜索引擎和咨询服务系统
第三章 搜索技巧
1、 查找中文网络报刊资料
2、 企业情报调研中的搜索技巧
3、 图像搜索的途径与方法
4、 查找某一国家(地区)组织、机构的电邮与电话号码
5、 查找地方实用信息
6、 查找“海外客户资料”
7、 查找商品信息
8、 找网络书签或个人收藏夹
9、 查找歌曲
10、 查找歌词
11、 查找个人信息
12、 查找“明星”资料
13、 查找下载地址
14、 查找论文
15、 查找范文
16、 查找免费电子版图书
17、 查找解决问题的方法
18、 查找网站Logo
19、 查找英文缩写
20、 查找注册码
21、 查找论坛中的帖子
22、 查找Blog中的文章
23、 查找英文软件的中文使用说明
24、 查找免费电影
25、 查找网站地址和联系方式
26、 查找语词的最早出处
27、 查找同类资源
28、 查找数据库密码
29、 查找讲座与讲义