为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

网络信息资源检索技术

2022-03-29 25页 ppt 3MB 0阅读

用户头像 个人认证

is_935360

暂无简介

举报
网络信息资源检索技术网络信息资源检索技术第1页,共25页。一次检索就是寻找一个特定主题的信息的过程。下面的步骤将引导读者如何把检索需求转换成具体的、确切的关键词或词组一正是通过它们才能检索到我们需要的信息。1、足够多的关键词是快速定位目标信息的关键构建检索时的5W1H:-------第一个检索技巧(1)What:要找的信息和主题是什么,可以从什么角度或是立场来切入,把相关的关键词或是词组都列出来。(2)Who:是否涉及特定的群体或是个人?有特定的人名的话,应该把人名也列出来,并留意这个人名有没有不同的写法(译法)或是拼法?(3)Where:是否限...
网络信息资源检索技术
网络信息资源检索技术第1页,共25页。一次检索就是寻找一个特定主题的信息的过程。下面的步骤将引导读者如何把检索需求转换成具体的、确切的关键词或词组一正是通过它们才能检索到我们需要的信息。1、足够多的关键词是快速定位目标信息的关键构建检索时的5W1H:-------第一个检索技巧(1)What:要找的信息和主题是什么,可以从什么角度或是立场来切入,把相关的关键词或是词组都列出来。(2)Who:是否涉及特定的群体或是个人?有特定的人名的话,应该把人名也列出来,并留意这个人名有没有不同的写法(译法)或是拼法?(3)Where:是否限于特定的国家或地区?中国内地?港澳台地区?美国?很多搜索引擎都可以按地区或国家限定查询范围。(4)When:是否从特定的时间剖面来探讨?或特定时间点以后才有有事件或情况?第2页,共25页。(5)Why:这个主题有什么意义或影响?为什么会有这种现象发生?(6)How:是不是有特定的方法,有的话,也将其列为关键词,有时查询结果太多时,可以增加关键词来限定再查询。第3页,共25页。2、检索时应当避免停用词和单独使用过于常用词----第二个检索技巧问题:能不能直接将上面分5个方面列出的信息直接作为检索提问呢?答案是否定的。一个最明显的问题是常用词:英文词,如and,about.the,of,a,in,as,if,not,why,never,before,it,etc.汉语词,如“了”,“这”,“那”,“很”,“的”等等。检索工具忽略这些词,因为这类词过于常用了,信息价值很低,检索这些关键词不仅无助于缩小查询范围,而且会大大降低搜索速度。除了停用词(stoplists)之外,还有一些所谓的vulgarwords,意思是过于普通的词,虽然它们不属于停用词,但使用得实在过于广泛,以至于出现第4页,共25页。在百万上千万的网页中,使得它们事实上不能被用来帮助找到什么有用的信息(除非和别的关键词一起使用),比如说“气温”,有无数个网站提供跟“气温”相关的信息,从地方天气预报到学术论文到气象学科普等等,所以使用更多的关键词或更明确的关键词来检索要比单纯检索“气温”好得多,例如设计一个类似“北京冬季气温零下”这类特殊的搜索关键词。3、在检索提问时避免使用行为关键词,谨慎使用修饰词。-----第3个检索技巧第5页,共25页。第6页,共25页。第7页,共25页。经过分析以后,Jan初步确定了下面的关键词:bird、building、city、Spring、daylight而很明显检索的主题在于bird。4、截词检索和通配符---检索的第四个技巧一般来说,截词检索对于中文检索意义不大,西文检索时使用较多。bird与birds,可以使用bird*来进行检索。并不是所有的检索工具都支持截词检索,Google就不支持这种形式。5、选定合适的关键词级别---检索时的第5个技巧上位词:指概念上外延更广的关键词,或者可以说每一个关键词所覆盖的信息范围都是它的上位词所覆盖信息范围的子集。第8页,共25页。下位词:下位词则是指概念上内涵更窄的关键词。6、使用一定数量的同义词参加检索,以覆盖目标信息的范围----第六个检索技巧第9页,共25页。7、尽量使用词组检索----第七个检索技巧关键词是检索的灵魂,对象词是关键词的重点和核心,而检索时最强有力的关键词则是词组.词组检索强制检索结果必须与词组的形式完全一致(顺序和间隔都不变),这样对检索结果限制得更严,检准率也更高。8、使用英文专业术语检索----第八个检索技巧尽量使用英文专业术语检索,这是提高搜索结果质量的重要途径。一项对6.5亿个Internet网页语言属性的调查明,发现其中英文信息内容占了71%,而日文是6.82%,德文是5.08%,法文是1.75%,中文则为1.52%。第10页,共25页。其实上面,Jan在列检索词时罗列了太多的无用词,例如building,daylight似乎没有必要。我们可以更改一下:第一、该鸟应为食肉类动物:可以定检索词为“猛禽”,英文为raptor,birdofprey。我们利用中文来进行检索;第二、该鸟的体形:类似于乌鸦。鸦类在鸟类中体形较大,大致在50—70厘米之间。可以利用50厘米来进行检索;第三、该鸟的毛色:灰白相间;第四、该鸟的喙:黄黑相间。利用Google检索,找到“泡泡社区--‖逛‖中国濒危珍稀动物————鸟类”,网址为http://pop.pcpop.com/040410/959254-2.html上面有各种鸟类的图片,可以确定所看到的鸟类应为“游隼”。第五、利用“游隼*生活习性”来检索到以下网址:http://www.ysdw.net/dispbbs.asp?boardid=36&id=1466野生动物保护论坛。第11页,共25页。泡泡社区的图文:游隼多在水上捕食别名 花梨鹰、鸭虎学名 Falco peregrinus英文名 peregrine falcon隼科 Falconidae分布 为新疆西部繁殖鸟;迁徙及越冬时遍及各地国家二级保护动物中型猛禽。全长约40-48厘米。上体深蓝灰色,具黑褐色横斑,羽端白色,羽干纹黑色。头、颈部黑色,带蓝色光泽。飞羽黑褐色;尾羽蓝灰色,具黑色横斑。下体污白色,带淡棕色,具黑色羽干纹,至腹部以后渐转为长三角形横斑。嘴铅黑色。脚黄色。栖息于开阔的农田、草地、河谷或山丘地区。单独生活,飞行迅捷。以鸭雁等为主要食物,也吃小型兽类。筑巢于悬岩峭壁的缝隙中,偶尔利用鸦、鹰等的旧巢。3月下旬开始产卵,每窝3-4枚,黄白色具红褐色及黄褐色斑。雌雄共同孵卵,孵卵期28-29天,育雏期35-40天。第12页,共25页。野生动物论坛图文:隼科——游隼Falcoperegrinus游隼    学名:Falcoperegrinus  物种命名人及年代:Tunstall,1771    英文名:PeregrineFalcon    中文别名:花梨鹰、青燕、鸭鹘、黑背花梨鹞分类位置:    隼形目Falconiformes    隼科Falconidae    隼属Falco濒危信息:    CITES:附录II    IUCN:未列入    中国濒危动物红皮等级:稀有    国家重点保护等级:2级物种特征:游隼属于中型猛禽,在隼类中体形较大。体长为38一51厘米,体重647—907克,翼展可达91~112厘米。翅长而尖,眼周为黄色,颊部有一条粗著的垂直向下的黑色髭纹,与其他隼类不同。头部至后颈为灰黑色,其余上体为蓝灰色,尾羽上具有数条黑色的横带。下体为白色,上胸部有黑色细斑点,下胸部至尾下覆羽密被黑色横斑虹膜暗褐色,眼睑和蜡膜黄色,嘴铅蓝灰色,基部黄色,嘴尖黑色,脚和趾橙黄色,爪黑色。第13页,共25页。第14页,共25页。军队由于扼杀自由和抢劫,已经沦为一把双刃剑,对谁都没有安全感。关键词拟定:军队army扼杀自由liberticide双刃剑:double-edgedsword抢劫由于同义词、近义词太多:所以建议舍弃。由以上三个词已经可以构成第15页,共25页。检索式:army*liberticide*double-edgedsword在Google上检索,发现只有4个结果,没有一个是需要的。armyliberticidedouble-edgedsword在Google上检索,发现只有24个结果,其中:第16页,共25页。应该可以确定就是这一篇。打开页面以后发现。这是雪莱的一首十四行诗。如果对英国文学较熟悉的话应该知道P.B.Shelley就是雪莱。第17页,共25页。如果不熟的话,可以利用”Englandin1819”译文在Google上进行检索,可以得到24个检索结果,其中:我第一次还打开了正方翻译论坛上面查良铮的译文,后来就再也打不开了。所以只有换一下检索词:”Englandin1819”翻译,可以得到92个检索结果。在http://ks.cn.yahoo.com/question/1407072500722.html上找到了译文。第18页,共25页。Englandin18191819年的英国Anold,mad,blind,despised,anddyingking,一个老而疯、昏庸、可鄙,快死的王Princes,thedregsoftheirdullrace,whoflow王侯们,那庸碌一族的渣滓,受着公众的轻蔑Throughpublicscorn,mudfromamuddyspring,是污水捞出的泥浆Rulerswhoneithersee,norfeel,norknow,是既不见,也无惑,又无知的统治者。Butleech-liketotheirfaintingcountrycling,只知吸住垂危的国家,和水蛭一样,Tilltheydrop,blindinblood,withoutablow,直到他们为血冲昏,不打便跌落,第19页,共25页。Apeoplestarvedandstabbedintheuntilledfield,人民在荒废的田中挨饿,被钉戮,Anarmy,whichliberticideandprey军队由于扼杀自由和抢劫,已经Makesasatwo-edgedswordtoallwhowield成为两面锋刃的剑,对谁都不保护,Goldenandsanguinelawswhichtemptandslay;漂亮而残忍的法律,是害人的陷井;ReligionChristless,Godlessabooksealed;宗教而无基督一本闭紧的书;ASenate,Time'sworststatuteunrepealed,议会,把时间最坏的法令还不废除Aregraves,fromwhichagloriousPhantommay呵,就从这一片坟墓里,光辉的幻影Burst,toillumineourtempestuousday.或许跌出,把我们的风雨之日照明。第20页,共25页。第二节网络资源基本检索技术一、布尔逻辑检索布尔逻辑检索是信息检索技术中最成熟、最常用、最基本的一种。布尔逻辑运算有三种:逻辑与、逻辑或、逻辑非1、逻辑与用AND(或and)或*表示,是一种用于交叉概念和限定关系的组配。其作用是缩小检索范围,提高查准率。AandB(A*B),表示被检索的文献记录必须同时包含A和B才算命中。第21页,共25页。2、逻辑或用OR(或or)或+表示,是一种并列关系的组配,其作用是扩大检索范围,防止漏检,提高查全率。AorB(A+B),表示一篇文献记录中只要包含A和B任何一个即算命中。也有些检索系统用“A空格B”的形式来表示逻辑或。3、逻辑非用NOT(或not)或–表示,是一种排斥关系的组配,用于从原来的检索范围中排除掉不需要的或影响检索结果的概念。其作用是缩小主题内容,减少文献量,提高查准率。AnotB(A-B),表示含有A的文献中去掉也含有B的记录。逻辑运算符的优先顺序是:NOT、AND、OR。第22页,共25页。A*BA+BA-B二、截词检索是针对近义词、同一词根、单复数等词汇变化,为防止漏检现象,提高查全率的一种常用检索技术。其检索表达式中使用截词符号来表示检索词的某一部分允许有一定的词形变化,即检索词不变的部分加上截词符号所代表的任何变化形式所构成的词汇都是合法检索词。检索结果中只要包括其中任何一个都能满足检索要求:如comput*可以表示computer、computer、computing。截词检索可以分为前端截词、中间截词和后端截词三种,较常用是的后端截词。绝大多数检索系统都支持截词功能,但截词检索没有统一的标准。较常用的有:第23页,共25页。*代表任意字符串?代表任意字符(一个)$表示零个或任意个字母,用于词首,检索出与该词根具有同样语义的词。例如$manage可以检索出managers、management等。#多用于网页技术,表示#以前的部分可以访问,#以后的部分不能访问。例如:http://202.114.181.3#/bgjj/tsggki.asp中,运行后出现的页面是http://202.114.181.3的页面。三、限制检索对检索范围(如时间、国别、语种、文献类型以及特定检索点等)进行约束或压缩的一种检索限定。限定字符的输入格式为:检索词within字段代码。EICompendexWeb高级检索模式的可检索字段、字段代码和使用实例见下表:第24页,共25页。可检字段字段代码检索实例EISubjectTerms(EI主题词)(ControlledbyVocabulary)CVLosslesscompressionAND(PatternrecognitionwithinCV)TitleWords(题名)TIElectricpowerAND(Distributioncost*withinTI)Author(著者)AURelevanceAND(AlbertwithinAU)AuthorAffixation(著者单位)AF(IntelwithinAF)ORPentiumSerialTitles(刊名)ST(Polymer*withinST)AND(GuandaguowithinAU)Abstracts(文摘)AB(SolarcyclewithinAB)OR(DiurnalvariationwithinAB)Publishers(出版商)PN(IEEEwithinPN)AND(ImageprocessingwithinTI)第25页,共25页。
/
本文档为【网络信息资源检索技术】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索