关于作者

姓名:

性别:其他

出生日期:--

地区:

联系电话:

QQ:--

婚否:保密
用户名:邢志宇
笔名:邢志宇
地区:
行业:其他

日历  

快速登录

+ 用户名:
+ 密 码:

在线留言



搜索引擎

搜索技巧

搜索引擎Blog

访问统计:
文章个数:71
评论个数:178
留言条数:21




Powered by BlogDriver 2.1

网海扁舟

 

文章

搜索结果的评价

邢志宇

     搜索结果评价是对搜索结果价值的评判和对搜索结果进行去粗取精、去伪存真的甄别和筛选。
搜索结果评价不同于网络资源评价。前者仅仅是对相关搜索结果的价值进行评判,用于指导搜索者在已有的结果列表中选择和利用具有准确性、可靠性、权威性的较高质量的特定结果; 而后者则着重对网络资源的整序,按照一定的标准对相关资源进行评价、标引和组织,目的是方便特定网络资源的公共利用。
在网络搜索实践中,我们通常从结果来源和信息出处两个方面,对搜索结果进行评价和选择。
1、结果来源
    结果来源是指相关的搜索结果是使用何种类型的搜索工具获得的,即结果的途径来源。利用不同的搜索工具得到的结果,其质量和可信度等级明显不同。总的来说,分类搜索工具的结果优于关键词形式匹配的搜索结果。
各学科专家、学者和图书情报人员编制的分类目录、主题索引、专题指南等检索工具,
从收录范围(Scope)、准确性(Accuracy)、权威性(Authority)、新颖性(Currency)、独特性(Uniqueness)、可靠性(Reliability)、链接(Links)等方面对网络资源进行评价、标引和介绍,所收录的资源具有较高的质量保障。与之相反,基于索引程序的搜索引擎的搜索结果由查询串的形式匹配产生,网页摘要为自动生成,结果排序由算法控制,在充分体现“客观反映”的同时,也给结果的甄别和选择带来一的困难。尽管“网页级别(PageRank)”(如Google等)的排序算法对搜索结果有一定的评价和推荐作用,但它只是链接指向的机械计算,不能从内容评价的角度影响人们对搜索结果的取舍决定。
    使用分类搜索工具,实际上是在利用专家、学者对网络资源整序的智力劳动成果。因此,在分类搜索工具的结果中,我们可以很容易地通过类目性质和网站介绍对某一资源的内容和适用程度做出明确的评价和判断。但是,对于搜索引擎完全形式匹配的搜索结果,则需要花费更多的时间和精力对其内容进行比较和验证,以保证最终采用结果的准确和适用。例如,查找“百度”收录网页的数量,用检索式“百度 收录 网页 亿”搜索,有“百度收录的中文网页超过6亿”、“在差不多20亿中文网页中,百度索引库中搜集了8亿”、“全球首个中文网页收录量达到10亿的搜索引擎”等不同的结果,到底哪个为最新和最准确的结果,我们需要利用新闻搜索进行时间验证,以找出最新的数据;还有必要使用英文搜索(如“baidu's web pages millions”、“baidu index  web pages millions”等),从国外评价和第三方测试数据中进行验证,以找到令人信服的事例。
2、信息出处
   信息出处是指信息的原始出处,即信息的最初发布者。信息发布者的权威性与信息的
可信度有着直接的联系。从原始出处判断信息的可靠性是搜索结果评价的重要方法。
信息的出处不同,表现出不同的质量权重。一般来说,来源于官方和专业网站的信息
的权威性要远远高于BBS、BLOG、和商业网站,原发信息的可靠性要远远高于转载和引用信息。
    在网络搜索中存在一个普遍的现象,即一次搜索输出的不同的相关网页,由于宣传、推荐、转载、引用等,可能包含着相同或相似的内容,但它们的原始出处却只有一个,而只有来源于原始出处的信息才有足够的质量保障。例如,查找2005年7月4日美国宇航局(NASA)对坦普尔一号彗星进行“深度撞击”的图片和资料,使用“Deep Impact NASA”、“Deep Impact Gallery”等检索式搜索,均有数以十万计的相关结果,仅前两个页面的搜索结果就分别来自十多个不同的网站。通过对不同网站相关结果的分析可以看出,它们均为经过整理和重新编辑的NASA图片和资料,根据信息出处的评价原则,我们应优先采用NASA网站发布的信息和图片。

- 作者: 邢志宇 2006年07月30日, 星期日 09:09  回复(5) |  引用(147) 加入博采

检索式的构建


邢志宇

     检索式是搜索引擎能够理解和运算的查询串,由关键词、逻辑运算符、搜索指令(搜
索语法)等构成。关键词是检索式的主体,逻辑运算符和搜索指令根据具体的查询要求从不同的角度对关键词进行搜索限定。
1、关键词
      关键词是描述搜索内容的关键性词语。网络搜索中的关键词是一个广义的概念,属于非受控自由词,凡是具有实际意义的表达及其书写形式,如字、词、词组、短语和字母、数字、符号、公式等,都可以用作搜索关键词。
     网络搜索,实际上是在搜索引擎的索引数据库中进行匹配检索。搜索引擎并不对其数据库进行可控语言标引,而只是机械地输出与关键词形式匹配的网页,随着数据库规模的不断增长,符合形式匹配条件的结果输出将会越来越多,尽管一些搜索引擎采用了智能分词技术,具有一定程度的概念检索功能,但仍然不可避免地会出现大量的无用信息。在形式匹配的技术条件下,关键词优化是最大限度地消除无用信息的主要方法。关键词在网络搜索中起着“关键”的作用,关键词选择准确与否直接关系到搜索的成败,而成功搜索的标志是在结果列表的首页就能够满足查询需求。
       从形式上看,关键词的数量与结果输出成反比,使用关键词越多结果输出越少,如用“搜索引擎优化”在GOOGLE中搜索,“约有603,000项符合搜索引擎优化的查询结果”、“搜索引擎优化 网站推广”搜索,“约有215,000项符合搜索引擎优化 网站推广的查询结果”、“搜索引擎优化 网站推广 竞价排名”搜索,“约有30,800项符合搜索引擎优化 网站推广 竞价排名 的查询结果”。从语义上分析,关键词的外延越小结果越趋于准确,如用“图书馆参考咨询工作”、“图书馆读者服务工作”等搜索,要比用“图书馆工作”更有实际搜索意义,结果也更加具体、适用。从词间的逻辑关系讲,“与”和“非”(and & not)采用多词限制和无关排除的方法缩小搜索范围,用于提高查准率,如“刘德华and身高and体重and籍贯”、“天龙八部 –电视剧”等。“或”(OR)利用多词扩展的方法扩大搜索范围,如用“刘德华 OR "Andy Lau"”搜索,可以得到较高的查全率。
        准确选择关键词需要从表述方式、行文习惯、书写规则等方面揣度查询内容,力求关键词与内容描述词的一致。由于搜索引擎的形式匹配原理,使用同一概念的不同词语搜索的结果截然不同。例如,用“北京”搜索不会出现“首都”字样,“北京图书馆”找不到“国图”的有关内容,“WTO”与“世界贸易组织”的搜索结果大向径庭等等。因此,必须注意对习惯用语、专业术语、全称、简称、同义词、近义词,以及拼音文字的前缀、后缀的了解和运用,尽可能地提高关键词的形式匹配几率,最大限度地减少误检和漏检。
        关键词可以分为主题关键词和特征关键词。主题关键词是指表述主要搜索内容的必用的词语,不使用主题关键词就不能准确地搜索到特定的内容。特征关键词是指在内容描述中与主题关键词同时出现且位置较近的量词、形容词、名词等进一步说明和限定主题关键词的词语,特征关键词可以有效地缩小搜索范围,使结果排序更加趋前。在搜索实践中经常会遇到这样的情况:即尽管主题关键词选择准确、使用得当,查询内容仍然不在结果首页或前三页之中,这时如果增加使用特征关键词,搜索结果就会明显改善。例如,查找国际象棋有几个棋子,在百度中用“国际象棋 棋子”搜索,有42,600项结果,前几页结果均无明确的答案,而增加特征关键词“个”,以“国际象棋 个棋子”搜索,结果减少至1,270项,结果首页第一项即有“国际象棋共有32个棋子,分为两方,浅色的棋子称为白棋,深色的棋子称为黑棋……”的网页摘要。
        正确选择关键词,需要对查询内容有一定了解,有一个根据搜索结果从模糊到准确的逐步调整关键词的练习过程。例如,查找有关“电动玩具”的英文资料,一般会选择“Electrical toy”搜索,但通过对其搜索结果进行分析,可以发现“Electrically operated toy”、“Battery operated toy”等也是查找“电动玩具”的必用关键词。又如,查找国外“指甲剪生产厂家”的信息,从“"nail scissors" factory”的搜索结果可以了解到,“指甲剪”和“厂家”习惯用“Nail Clippers”和“Manufacturer”表示,使用“"Nail Clippers" Manufacturer”搜索可以更好地满足查询需求。搜索的过程是一个学习和信息甄别的过程,要学会在搜索中选择和提炼关键词,丰富的搜索实践是成为搜索高手的必由之路。
2、逻辑运算符
     网络搜索中有“与(and)”、“或(or)”、“非(not)”三种逻辑关系,分别用“+”、“OR”、
“-”表示,它们称为布尔逻辑符或逻辑运算符。
    “与”关系为“A+B”形式,表示A和B必须同时出现在网页之中;“或”关系为“A OR B”形式,表示结果中,要么有A,要么有B,要么同时有A和B;“非”为“A –B”形式,表示B一定不会出现在搜索结果之中。
    在搜索引擎中,表示“与”关系的“+”通常可以省略,以词间空格代替,或者说,词间空格默认为“and”运算。“或”关系多以“OR”表示,但不同的搜索引擎对其大小写有严格的要求(如在GOOGLE中必须大写),或采用其它的符号表示(如“百度”以“|”表示)。“非”关系用“not”或“and not”表示,减号“-”是“not”运算的唯一符号形式。
使用逻辑运算符之前,须阅读搜索引擎的“帮助(Help)”文件,确认其支持何种
逻辑运算,了解和掌握逻辑符号的形式及其用法。
3、通配符
      通配符(wildcard)是一类键盘字符,用来代替规定的对象。搜索引擎最常用的通配符有星号(*)和问号 (?)等,通常星号(*)表示替代若干字母,问号 (?)表示替代一个字母。
通配符又可以分为“词间通配符”(partial-word wildcard)和“全词通配符”(full-word wildcard)两种。词间通配符只能代替单词中的一个或几个字母,而不是整个单词;全词通配符用来代替一个单词,而不是单词中的某个或几个字母。
      截词检索(truncation)是网络搜索的常用方法,它使用“词间通配符”,用截断的词的一个局部进行的检索,按截断的位置可分为前截断、中截断和后截断三种,搜索引擎多支持中截断和后截断检索。例如,“wom?n”可以搜索到包含woman、women、womyn、womin等单词的网页,“Comput*”对Computer、Computing、Computation 等以Comput 开头的单词进行搜索。
       Google使用的通配符属于“全词通配符”,通配符为星号(*),一次检索可以使用若干个*。全词通配符虽不及词间通配符常用,但它在实际搜索中的功能是不可忽视和替代的。如解答“How often does Halley's comet appear?”(哈雷彗星多少年出现一次?),用“Halley's comet appears every * years”搜索,可以轻而易举地得到答案:Halley's comet appears every 76 years。
       搜索引擎对截词检索的支持程度和通配符的规定多有不同,了解和使用通配符,请参阅搜索引擎的帮助文件。
4、搜索指令
       搜索指令是从不同角度限定网络搜索的功能性词语和符号,对搜索结果起着定向和控制的作用。搜索引擎使用不同的搜索指令实现不同的搜索功能,即使是相同或相似的搜索功能也可能采用不同的搜索指令。搜索指令形式的多样化给实际的搜索应用带来一定的困难。在搜索实践中,我们可以按照搜索功能对常用的搜索指令进行区分与归纳,以便于了解、掌握和正确使用搜索指令。
⑴、标题搜索(Title Search)
[title:]AltaVista、AllTheWeb、Inktomi、MSN、一搜……。
[intitle:] Google、Teoma、yahoo、百度……。
[allintitle:] Google ……。
⑵网站搜索(Site Search)
[host:] AltaVista……。
[hostname:] Yahoo……。
[site:] Excite、Google、Netscape、Yahoo、Teoma、百度、一搜、中搜……。
[domain:] Inktomi、HotBot、iWon, LookSmart、MSN、AltaVista、百度、一搜……。
⑶、网址搜索(URL Search)
[url:] AltaVista、Excite、yahoo(需要带http://)、一搜……。
[url.all:] AllTheWeb、Lycos……。
[allinurl:] Google
[inurl:] Google、yahoo、Teoma、百度……。
[originurl:] Inktomi、AOL、GoTo、HotBot、一搜……。
[url.domain:] Alltheweb……。
[url.host:] AllTheWeb、Lycos……。
⑷、链接搜索(Link Search)
[link:] AltaVista、Google 、yahoo(需要带http://)……。
[linkdomain:] Inktomi、AOL、HotBot、iWon、MSN、yahoo、一搜……。
[link.all:] AllTheWeb、Lycos……。
[inlink:] Teoma……。
[link.extension:] AllTheWeb……。
⑸、锚点搜索(Anchor Search)
[anchor:] AltaVista……。
[allinanchor:] Google……。
⑹、文件搜索(filetype Search)
[filetype:文件类型后缀](如PDF、DOC、SWF等)Google、iWon、AOL、Netscape、百度、中搜……。
[feature:文件类型名称](acrobat、activex、audio、embed、flash、frame、audio、video等) Yahoo、MSN、HotBot、overture……。
⑺、临近搜索(Proximity Searching)
[NEAR] AltaVista、Lycos、WebCrawler、AOL……。
[BEFORE] Lycos……。
[FAR] Lycos……。
[ADJ] Lycos、AOL……。
    此外,符号搜索指令还有表示强制搜索的加号“+”、精确搜索的引号“" "”、优先搜索的圆括号“( )”、同义词搜索的“~”号等等。
    搜索引擎是否支持某种搜索指令和各种搜索指令的形式在其搜索“帮助(Help)”文件中均会有相关的说明。判断搜索引擎是否支持某种搜索指令也可以采用以下方法:即使用某一搜索指令搜索,如果其结果不出现指令词或符号本身并显示相应的结果,则该搜索引擎支持该搜索指令,反之,如果结果中出现指令词或指令符号,则该搜索引擎就一定不支持该搜索指令。
        应当注意到,采用同一搜索技术或搜索结果具有同源性的搜索引擎,其搜索指令基本相同。然而,搜索技术或搜索结果的提供商与其合作者的关系,绝不是一成不变的,随着搜索技术的升级和搜索引擎之间关系的变化,各搜索引擎所支持的搜索指令也会有所调整和改变。

该问已在《科技情报开发与经济》2007年第17期发表

- 作者: 邢志宇 2006年07月30日, 星期日 09:06  回复(0) |  引用(0) 加入博采

搜索工具的选择


邢志宇

搜索工具是互联网发展到一定阶段的必然产物。互联网诞生初期,信息的存取矛盾尚未出现,人们无须借助任何工具就可以利用有限的网络资源。1989年NSFNET取代ARPANET并向公众开放以后,互联网进入飞速发展时期,海量信息与对其个性化利用的矛盾日渐突出,不借助一定的工具便不能有效地获取特定的信息。人们开始认识到搜索工具(Search Tools)对网络利用的重要意义,各类针对互联网信息整序和检索的工具应运而生。
搜索工具随着网络的发展而不断地创新和完善。从实用的角度讲,目前常用的搜索工具可分为网络搜索工具、站内搜索工具和数据库检索系统。网络搜索工具具有对整个互联网络搜寻的能力,又可分为基于索引程序的全文搜索引擎(Full Text Search Engine,又称关键词搜索引擎(Keyword Engine)、通过人工标引而建立的分类搜索引擎(Directory)和调用独立搜索引擎的元搜索引擎。站内搜索工具的范围仅限于某一网站之内,通常具有关键词搜索和分类浏览查找两种功能。数据库检索系统是为检索库内信息而开发的专用工具,功能视数据库内容性质而多有不同,一般有关键词、分类、字顺、特定符号或编号等检索功能。
明确了搜索意图和制定了搜索策略之后,搜索工具的选择尤为重要,它直接影响着搜索的效率。工欲善其事,必先“选”其器,搜索工具选择得当,就会给人以愉悦的搜索体验,能够收到事半功倍的效果。
不同类型的搜索工具有着不同的功能,同类搜索工具之间也存在着性能、特色等差异。满足不同的信息需求必须使用不同的搜索工具,一定的搜索工具可以更好地满足特定的信息需求。
1、族性检索
“族”为丛聚、集合、类别之义,族性检索是对具有某种共同性质或特征的众多事
物、概念的检索,分类搜索引擎是族性检索的首先选工具。
分类搜索适合查询具有同一特征的多个目标和主题范围广、概念宽泛的问题。例如,“公共图书馆”就是典型的族性概念,进行国内与美国公共图书馆网站调查及其比较研究,最有效的方法就是利用分类搜索引擎,根据分类体系,按照其类目归属,以“参考资料—图书馆—公共图书馆”或“区域—国家与地区—中国大陆—参考资料—图书馆 —公共图书馆”(雅虎中国)、“Reference—Libraries—Public Libraries—By Region— U.S. States”(YaHoo!)等路径逐级浏览查找。
由于分类体系的系统性和聚类特点,分类搜索可以方便地进行扩检或缩检,在查找某一学科或专业文献时,利用类系层层隶属、外延渐小的原理,满足不同查全和查准要求;利用类列外延相斥、同位详列的特性,进行相关查询。即类以求,触类旁通是分类搜索引擎的天然优势和显著特征。
使用分类搜索引擎需要对其分类体系、类目设置、立类原则、收录范围等有一个大致的了解,能够确定所需资源的大类归属。然而,目前常用的分类搜索引擎的分类体系各有不同,当难以把握浏览路径时,可以借助其“所有目录(the Directory)”和“此目录下(this category)”的关键词搜索功能,根据结果页面的路径指示,在相关类目中查找。
2、特性检索
“特”为唯独、只有、专门之义,特性检索是指对特定事物或概念的检索,关键词搜索引擎是特性检索的首选工具。
关键词搜索引擎多用于查找主题范围较小、明确具体的信息和交叉性、细节性问题。例如,“黄河源头”、“北京图书馆现有藏书量”就是典型的特性检索,使用“黄河 发源地”和“国家图书馆 现有 藏书 册”等关键词搜索,便可一检即得。
关键词搜索引擎的特性检索优势是明显的,但由于其智能化程度有限,不可避免地会产生较大的搜索“噪音”,人们没时间也不可能逐页翻检结果列表,只有排列靠前(通常在前三页之内)的相关结果才有可能被真正地利用。
关键词搜索引擎,除了具有强大的字、词、短语等搜索功能外,还可以进行字、词间的“与”、“或”“非”等逻辑关系搜索和标题、URL、文件类型、时间、网站、链接等多种限定搜索,其“高级搜索(Advanced Search)”还具有搜索词语控制和个性设置功能。各种专用搜索引擎,如新闻、图像、购物、音乐搜索引擎等,都属于基于索引程序的关键词搜索引擎。
3、专题搜索
专题是指范围较小、体裁单一、具有相同性质和专门用途的信息或资源,专题搜索
主要使用站内搜索工具。
专题搜索不同于学科或主题搜索,因为“专题”的范围要比学科或主题的外延小得多,尽管相对完整,但缺乏系统性和稳定性,分类搜索引擎不会专门列目标引和收录专题信息或专题资源。关键词搜索引擎虽然具有一定的专题搜索能力,但其专指性的搜索很难满足专题明显的“族性”要求。
我们所说的专题信息或专题资源,是指经过网站人工整理、编辑,并为特定用途发布的信息或资源,如“北京申奥”、“2005年我国洪涝灾情”、主题教育推荐书目、特定事件的专题新闻等等。一般情况下,专题信息或专题资源多在相关网站中以超链接形式出现,分类搜索引擎对此类专题搜索无能为力,用“北京申奥 专题”、“北京申办奥运会”、“2005年 (洪水 OR 洪灾) 灾情报告”等关键词搜索,虽有相关结果,但与“专题”的要求相差甚远,即使是使用关键词进行新闻搜索,也只能得到零散的相关信息,而无法直接找到的经过整理和编辑的相关新闻专题。
进入相关网站进行站内专题搜索则更为便捷和直接,如在有关体育网站、新闻门户网站、教育网站等利用关键词搜索或浏览查找,可以一次满足上述主题搜索的要求。当然,对网络资源不太熟悉的搜索者来说,确定查找有关专题的网站可能有一定的困难,这时可以利用分类和关键词搜索引擎分别了解相关网站的信息,根据网站简介和提示信息登陆相关网站进行站内搜索。
4、        数据库检索
在线数据库是一种特殊形式的网络资源,一般的搜索引擎难以寻觅其踪迹,即使是
专门的数据库网站也多有授权限制而不提供免费使用。数据库有其自身的检索系统自不待言,问题是怎样找到并利用数据库。数据库属于网络的深层结构(deep Web structure)资源,需要借助专门的搜索工具。查找数据库资源请参见《专用搜索引擎》的有关介绍,对有授权限制的数据库的利用请参见《搜索技巧》中的有关内容。

- 作者: 邢志宇 2006年07月30日, 星期日 09:05  回复(0) |  引用(0) 加入博采

《实用网络搜索》出版

实用网络搜索   邢志宇等著   西安地图出版社出版

发行   新华书店经销    大32开   355千字  定价:

36.00元 

2005年12月第1版   ISBN  7-80670-886-3

- 作者: 邢志宇 2006年01月15日, 星期日 17:26  回复(4) |  引用(0) 加入博采

《实用网络搜索》序言

网络搜索与搜索引擎研究

(代序言)

邢志宇

    顾名思义,网络搜索就是在互联网上进行的信息搜寻。广义的网络搜索可以包括网站浏览式查找,但作为信息挖掘、图书馆学和情报学研究内容的网络搜索是狭义和主流的“网络搜索”,即利用搜索引擎进行的网络信息的搜寻与查找。

我国上网用户人数达到10,300万,搜索引擎已成为仅次于电子邮件的第二大网络应用。凡有过网络经历的人,无不对GoogleYahoo、百度、搜狗、中搜、一搜、北大天网等耳熟能详,无不有过网站、网页、新闻、图像、游戏、MP3FTP等搜索体验。网络的发展造就了搜索引擎,搜索引擎使人们能够快捷和有效地利用网络。无论对一般网民和工程技术与学术研究人员来说,搜索引擎已成为不可或缺的网络信息检索工具。

对商家来说,搜索引擎是一种赢利的产品,而对使用者而言,搜索引擎则仅仅是一种检索工具。作为产品,搜索引擎公司和搜索技术提供商要研制和创新搜索技术;作为工具,使用者要了解搜索引擎的功用、性能,掌握其使用方法和技巧。利用搜索引擎的目的不同,构成了搜索引擎研究的不同群体和对搜索引擎不同角度不同侧重的研究。

搜索技术研究的主体是搜索引擎的创制者和搜索技术提供商,它们多为专业公司和研究团体,拥有专职的研发队伍,专门从事网络信息挖掘理论研究、搜索引擎的开发、研制和搜索技术的改进、创新,靠建立搜索网站或提供搜索技术生存和赢利。如Google拥有独特的链接评价体系和PageRank专利技术; Yahoo!在收购了InktomiOvertureFastAltaVistaKelkoo3721等公司后,20042月断然与Google决裂,推出融合各旗下公司搜索技术精华的自有搜索技术(YST),并开始成为搜索技术提供商;Metacrawler开元搜索引擎先河,它的价值不仅在于同时调用多个独立的搜索引擎分别进行搜索的创意,更体现在处理各搜索引擎的查询结果,提交统一格式结果页面的独特技术;AltaVista第一个开发了支持自然语言的搜索技术;Ask Jeeves开创智能答询搜索引擎模式;About.com推出垂直主题搜索引擎模式;hobomo独创“MFGS闪电搜索”技术和“变异再生呈现”技术;百度拥有“超链分析”专利技术;中搜开发的“划词搜索”技术;一搜依托YST的本地化搜索;HillTop算法专利技术;vivisimo公司的搜索结果自动个性化聚类技术;Blinkx公司推出号称“可以搜索200余种媒介类型,包括了WordExcelPowerPointAcrobat PDF等格式的文档,以及各种音频与视频格式”的全新的“占卜式”搜索技术;搜狐200483日推出了自主研发的第三代搜索引擎—“搜狗”.…..。由于搜索引擎具有较大的赢利空间和诱人的前景,搜索技术无时不在研发和创新之中,搜索引擎商无不具有独门产品和自主知识产权的特色技术。 

网络发展的需要和自身生存的压力,促使搜索引擎商不断对搜索引擎进行改进和升级,推出新的功能,以满足不断增长的搜索需求,争取更多的用户。以Googl为例,自199897日问世以来,它从未停止过其搜索技术的创新:19992月增加短语搜索功能,2000727日推出高级搜索功能、816日增加布尔逻辑符“OR”检索,2001131日增加PDF搜索,1015日增加分类目录搜索,20021012日增加购物搜索,2003813Toolbar 2.0新版问世,820日增加单词释义功能,116日推出Deskbar 2004113日推出区域编码、产品代码、航班信息、车辆确认号码以及美国邮政监管号码等搜索,3月推出本地搜索,4月推出拼音汉字自动转换功能,624日推出中英文字典、天气、股票、邮编区号、手机号码等实用搜索功能,7月推出“实名通”,99日推出新闻简体中文版,106日增加图书搜索,1117日推出学术搜索,2005223日推出电影搜索,37日推出桌面搜索中文版,420日推出My Search History个性化功能,824日推出GoogleTalk即时信息和网络语音电话服务,9月推出中文本地搜索和Blog搜索……Googl几乎每月都有新的变化,每年都有重大的改进和创新,以功能的不断改进、增强和增加,满足用户不断提高和变化的需求。其它搜索引擎无一不是孜孜以求,不断地创新技术,增强功能。为适应个性化的搜索需求和发展趋势,各搜索引擎争相展显技术优势,纷纷抢滩桌面和工具栏,一时间几乎所有的搜索引擎都推出了称谓不同的toolbardeskbar。然而,尽管搜索技术研究竞争激烈,新的搜索搜索技术和搜索功能不断问世,但真正“智能化”和“个性化”的搜索技术还仍在人们的期待之中。

搜索方法研究属于应用研究,对搜索引擎的推广使用有着直接的影响,与搜索引擎的普及和利用水平相辅相成。网络检索的需要催生了搜索引擎,搜索引擎使用方法的研究极大地促进了网络检索技能和网络资源利用水平的提高。

搜索方法研究的群体最为庞大,广大的网络搜索爱好者是其中的生力军,高校图书情报院系和图书情报部门的科研人员是网络搜索方法研究的主力和骨干,网络搜索教学网站和搜索论坛是普及搜索知识、学习搜索方法、交流搜索经验和探讨搜索问题的主要平台,搜索引擎普及与研究网站和图书情报专业期刊是发表研究成果的主要载体。

较有影响的网络搜索教学网站有:extreme searcherhttp://extremesearcher.com/handbooklinks.html)、Finding Information on the Internet: A Tutorialhttp://www.lib.berkeley.edu/TeachingLib/Guides/Internet/FindInfo.html)、Anne Clyde'Webloghttp://www.hi.is/~anne/)等。研究搜索方法较为知名的论坛有:Search Engine Watchforumhttp://forums.searchenginewatch.com/)、Search Guildforumhttp://www.searchguild.com/)、中文搜索引擎指南的“搜索论坛”( http://www.sowang.com/bbs)、中国生命科学论坛的“文献与检索技巧”( http://www.bioon.net/list.asp?boardid=17)、丁香园医学论坛的“文献检索知识交流版”( http://www.dxy.cn/bbs/post/page?bid=6&sty=1&age=0)、搜狗说吧—搜索引擎吧、百度帖吧—搜索引擎吧等等。此外,搜索引擎普及与推广网站一般也都设置专栏,登载搜索引擎功能与特点、各种网络资源搜索方法与技巧等方面的文章,其中影响较大的有中文搜索引擎指南网(http://www.sowang.com/)、《搜索研究院》(http://www.9238.net/)、搜索引擎直通车(http://www.se-express.com/)等等,这些都是不可多得的研究搜索引擎、搜索技巧和学习专业文献检索的门径。

近年来,高校《文献检索》课程均增加了搜索引擎和网络信息检索的相关内容,对普及网络搜索知识起到了积极的推动作用。图书情报界同仁对网络搜索的理论和实践从不同的角度进行深入的研究和系统的总结,各具特色的研究成果亦多有问世。在维普《中文科技期刊数据库》中进行关键词检索,“搜索引擎”检索出文章3,249篇,“网络信息检索”407篇,“internet+文献检索”54篇,以“搜索引擎”、“网络信息检索”为关键词,从国家图书馆《中文普通图书数据库》分别检索出有关专著23种和14种。综观现有研究成果,搜索方法研究的范围比搜索技术研究要宽泛的多,涉及搜索引擎的检索功能、检索语法、检索策略、检索词语、检索技巧、检索工具的评价与选择、各个学科与各种类型网络资源检索等诸多方面。我们有理由相信,随着社会信息意识的增强,网民人口将快速增长,搜索引擎的使用率将逐步提高,搜索方法的研究将会受到人们更多的关注。

网络搜索离不开搜索引擎,对搜索引擎的了解和掌握影响着网络搜索的质量和效率。了解搜索引擎,很重要的一个方面就是及时获得搜索引擎的诸如版本升级、性能优化、算法改进、功能增加等动态信息。搜索引擎的动态信息有官方发布和研究者或使用者发布两种方式。前者多以新闻形式出现,可以通过新闻搜索及时获得,或在有关网站进行专题新闻查阅。设立搜索引擎专题新闻烂目(如:Search Engine NewsSearch Engine Update、搜索快报、搜索引擎业界动态等)的主要网站有:Search Engine Newshttp://www.searchengineguide.com/searchenginenews.html)、Search Engine Showdownhttp://www.searchengineshowdown.com/)、ResearchBuzzhttp://www.researchbuzz.com)、Search Engine Watch http://searchenginewatch.com/)、Pandia Search Engine Newshttp://www.pandia.com/sew/index.php)、中文搜索引擎指南网(http://www.sowang.com/)、搜索引擎直通车(http://www.se-express.com/)等,从中可以进行专题新闻的系统浏览和回溯查找;后者多以Blog为载体,信息源较为广泛,有的是搜索引擎的研制者专注于某一搜索引擎的Blog,更多的是搜索专家或搜索爱好者的个人Blog。受人关注此类Blog有:Google Bloghttp://www.google.com/googleblog/atom.xml)、Yahoo! Search bloghhttp://www.ysearchblog.com/index.xml msnsearch's WebLog  http://blogs.msdn.com/msnsearch/rss.aspx Ask Jeeves Bloghttp://blog.ask.com/index.rdf SEW Bloghttp://blog.searchenginewatch.com/blog/、搜索引擎研究http://www.wespoke.com/Google研究院Bloghttp://www.ooone.com/blog/等等。通常情况下,搜索引擎不会发布其测试功能和日常改进的官方信息,而有关专家的个人Blog则会对搜索引擎的细微变化有敏感的反映,利用Blog搜索引擎和RSS订阅可以及时获得搜索引擎的非官方动态信息。

我们已跨进信息社会的门槛,互联网已成为人类共享的信息平台,并正在影响和改变着我们的生活。然而,网海浩瀚资源丰富信息茫茫,从中获取我们所需要的特定的资源或信息,没有专门的检索工具是不可想象的。网络搜索与搜索引擎研究,对提高社会的网络应用水平,培养和强化信息意识,进而促进知识生产和知识创新,有着重要的意义和影响。“工欲善其事,必先利其器”,了解搜索引擎的功能、特点,探讨和研究各种网络资源的检索策略、方法和技巧,熟练掌握和使用搜索引擎,已成为现代人必不可少的基本技能。

                      2005年9月18日

- 作者: 邢志宇 2006年01月15日, 星期日 17:09  回复(0) |  引用(0) 加入博采

《实用网络搜索》目录

   

 

第一章        搜索入门

第一节       明确搜索意图

第二节       制定搜索策略

第三节       选择搜索工具

第四节       构建检索式

第五节       搜索结果评价

第二章        搜索引擎

第一节       常用搜索引擎

1、  网络搜索巨鳄——Google

2、  分类搜索引擎鼻祖——Yahoo!

3、  著名的多媒体搜索引擎——AltaVista

4、  最受欢迎的元搜索引擎——Dogpile

5、  最大的中文搜索引擎——百度

6、  第三代互动式搜索引擎——搜狗

7、  全球领先的中文搜索引擎——中国搜索

8、  雅虎的中国搜索门户—— 一搜

9、  中国的ODP——网易

10、              最大的FTP搜索引擎——天网千帆

第二节       元搜索引擎

一、              中文元搜索引擎

二、              英文元搜索引擎

第三节       专用搜索引擎

一、              多媒体搜索引擎

二、              新闻搜索引擎

三、              “看不见的网页”与数据库搜索引擎

四、              FTP搜索引擎

五、              购物搜索引擎

六、              少儿搜索引擎

七、              MP3搜索引擎

八、              歌词搜索引擎

九、              域名搜索引擎

十、              软件搜索引擎

十一、       论坛搜索引擎

十二、       博客搜索引擎

十三、       游戏搜索引擎

十四、       文学作品搜索引擎

十五、       答案搜索引擎和咨询服务系统

第三章        搜索技巧

1、  查找中文网络报刊资料

2、  企业情报调研中的搜索技巧

3、  图像搜索的途径与方法

4、  查找某一国家(地区)组织、机构的电邮与电话号码

5、  查找地方实用信息

6、  查找“海外客户资料”

7、  查找商品信息

8、  找网络书签或个人收藏夹

9、  查找歌曲

10、              查找歌词

11、              查找个人信息

12、              查找“明星”资料

13、              查找下载地址

14、              查找论文

15、              查找范文

16、              查找免费电子版图书

17、              查找解决问题的方法

18、              查找网站Logo

19、              查找英文缩写

20、              查找注册码

21、              查找论坛中的帖子

22、              查找Blog中的文章

23、              查找英文软件的中文使用说明

24、              查找免费电影

25、              查找网站地址和联系方式

26、              查找语词的最早出处

27、              查找同类资源

28、              查找数据库密码

29、              查找讲座与讲义