为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

信息检索复习资料

2011-01-20 7页 doc 40KB 38阅读

用户头像

is_432335

暂无简介

举报
信息检索复习资料信息检索复习资料 信息检索复习资料 1信息索引的概念与分类 信息检索:是指将信息(主要指文献信息和电子信息)按一定的方式组织和存储起来,并根据用户的需要找出相关信息的过程。 它分为储存和检索两部分。 检索:是指面向信息需求而进行高度选择性的查找过程。 广义的信息检索(信息的存储与查询);狭义的信息检索:一个匹配( Match)过程即用户使用检索语言对自己的信息需求予以描述,并在一定的信息资源系统中进行描述匹配的过程。 按检索系统的工作方式划分: 脱机检索(Off-line Retrieval) 联机检索(On-line Ret...
信息检索复习资料
信息检索复习资料 信息检索复习资料 1信息索引的概念与分类 信息检索:是指将信息(主要指文献信息和电子信息)按一定的方式组织和存储起来,并根据用户的需要找出相关信息的过程。 它分为储存和检索两部分。 检索:是指面向信息需求而进行高度选择性的查找过程。 广义的信息检索(信息的存储与查询);狭义的信息检索:一个匹配( Match)过程即用户使用检索语言对自己的信息需求予以描述,并在一定的信息资源系统中进行描述匹配的过程。 按检索系统的工作方式划分: 脱机检索(Off-line Retrieval) 联机检索(On-line Retrieval) 光盘检索(CD-ROM Retrieval) 国际互联网络检索(Internet Retrieval) 依检索策略划分: 布尔逻辑检索(Logical Operator Retrieval) 截词检索(Truncation Retrieval) 位置逻辑检索(Proximate Operator Retrieval) 限定检索(Range Retrieval) 加权检索(Weighting Retrieval) 依照系统载体划分: 印刷型文本系统检索(Printed Text Retrieval) 缩微磁带检索(Microfilm Retrieval) 光盘系统检索(CD-ROM Retrieval) 计算机检索(Computer-based Retrieval) 2网络信息检索的基本方法 一、布尔逻辑检索 二、邻近检索 三、截词检索 四、字段限制检索 五、短语检索 六、括号检索 七、自然语言检索 八、多语种检索 九、模糊检索 十、区分大小写的检索 3搜索引擎的概念、结构、特点 搜索引擎(search engine)是提供给用户进行关键词、词组或自然语言检索的工具。搜索引擎是WWW 浏览器查询信息搜索工具,是一个用来查询搜索世界各地 INTERNET 网络资源的 WEB 服务器。它就象一本书的目录,INTERNET 上各个站点的网址就象是页码。你可以通过关键字(keyword)或者主题分类的方式查找感兴趣的信息所在的 WEB 页面,是网上动态检索工具。 一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。 (1)搜索器又称为Robot(机器人)、Spider(蜘蛛)、Webcrawler(爬行者)或Worm (爬虫)等。搜索器的功能是在互联网中漫游,发现和搜集信息。目前采用两种搜集策略: 从一个起始URL集合开始,顺着超链(Hyperlink)线路,以宽度优先、深度优先或启发式方式循环地在互联网中发现信息;将Web空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间穷尽搜索。 (2)索引器  索引器又称为目录索引库或数据库等。索引器的功能是认识理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。 (3)检索器 检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。 (4)用户接口 用户接口的作用是用于输入用户查询、显示查询结果、提供用户相关性反馈机制。主要目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。 用户接口的和实现使用人机交互的理论和方法,以求充分适应人类的思维习惯。 用户输入接口可以分为简单接口和复杂接口两种。简单接口只提供用户输入查询串的文本框;复杂接口可以让用户对查询进行限制。 搜索引擎的基本结构(略) 4搜索引擎检索与数据库检索 一个是站内搜索,一个是网络搜索,当然不一样哦。搜索引擎,一般都会给网站一段代码,嵌入到网站中,就可以不用打开他们的搜索页面 也可以搜索,而检索数据库,只是搜索站内发布的资源,互联网上的其他站点的信息是不会被搜索到的 5多媒体信息检索技术与多媒体信息检索系统(结构) 1.媒体和多媒体的概念 所谓媒体medium,即指承载信息的载体。 媒体有以下五种: 感觉媒体:用户接触信息的感觉形式,如视觉、听觉、触觉等; 表示媒体:指信息的表现形式,如图像、声音、视频等; 显示媒体:指表现和获取信息的物理设备,如显示器、打印机、扬声器、键盘、摄像机等; 存储媒体:指存储数据的物理设备,如磁盘、光盘等; 传输媒体:指传输数据的物理设备,如光缆、电缆、电磁波、交换设备等。 多媒体multimedia,即多种媒体的综合。 多媒体技术,指以数字化为基础,能够对多种媒体信息进行采集、编码、存储、传输和表现,综合处理多种媒体信息并建立有机的逻辑联系,集成为一个存取系统使之具有良好交互性的技术。 多媒体系统是一个由多媒体终端设备、多媒体网络设备、多媒体服务系统、多媒体软件及有关媒体数据组成的有机整体。从广义上讲,这是信息系统的一种新的形式—多媒体信息系统。 2.多媒体信息检索系统的特征 (1)信息载体多样性 信息载体的多样性是多媒体信息检索系统的主要特征之一,也是多媒体信息研究需要解决的关键问题。 多媒体信息的多样性体现在信息采集或生成、传输、存储、处理和显现的全过程中,涉及到多种感知媒体、表示媒体、传输媒体、存储媒体或呈现媒体,以及多个信源或信宿的交互作用。 (2)交互性 多媒体信息的第二个关键特性是交互性。所谓交互就是通过各种媒体信息,使参与的各方(不论是发送方还是接收方)都可以进行编辑、控制和传递。 交互性体现在,使用者对信息处理的全过程能够进行完全有效的控制,并把结果综合地表现出来,而不是单一数据、文字、图形、图像或声音的处理。 (3)实时性 所谓实时性是指在多媒体系统中多种媒体间无论在时间上还是在空间上都存在着紧密的联系,是具有同步性和协调性的群体。 (4)集成性 多媒体信息是多种媒体的有机集成。它集文字、文本、图形、图像、视频、语音等多种媒体信息于一体。 所谓集成性,除了声音、文字、图像、视频等媒体信息的集成,另一方面还包括传输、存储和呈现媒体设备的集成。 常见媒体 1.音频 数字音频可分为波形声音、语音和音乐。 对声音的处理主要是编辑声音和将声音不同存储格式进行转换。计算机音频技术主要包括声音的采集、数字化、压缩/解压缩以及声音的播放。 影响数字声音波形质量的主要因素有三个: (1)采样频率 (2)采样精度 2.图像 图像是由输人设备捕捉的实际场景画面,或以数字化形式存储的任意画面。静止的图像是一个矩阵,由一些排成行列的点组成,这些点称之为像素点(pixel),这种图像称为位图(bitmap) 图像文件的计算机存储格式有多种,如BMP、PCX、TIF、TGA、GIF、JPG等,一般数据量都较大。 图像的关键技术是图像扫描、编辑、压缩、快速解压和色彩一致性再现等。 图像处理一般要考虑三方面因素: (1)分辨率 (2)图像灰度 (3)图像文件大小 3.视频 若干有联系的图像数据连续播放便形成了视频。 动态视频对于颜色空间的表示有多种情况,最常见的是R、G、B(红、绿、蓝)三维彩色空间。也还有其他彩色空间表示,如Y、U、V(Y为亮度,U、V为色差),H、S、I(色调、饱和度、强度)等,并且还可以通过坐标变换而相互转换。 对于动态视频的操作和处理除了其播放过程中的动作与动画相同外,还可以增加特技效果,如硬切、淡入、淡出、拷贝、镜像、马赛克、万花筒等,用于增加表现力,但这在媒体中属于媒体表现属性的内容。 在视频中有如下几个重要的技术参数。 (1)数据量:如不计压缩,数据量应是帧速乘以每幅图像的数据量。 (2)图像质量:图像质量除了原始数据质量外,还与视频数据压缩的倍数有关。 6基于内容的多媒体信息检索 1基于内容的多媒体检索概述 传统的多媒体信息检索系统通常局限于对其非本质特征进行描述,进而提供对这些特征的检索入口,这些非本质特征主要有两类,构成相应的两种多媒体信息检索途径。 ①基于外部特征的检索 传统的多媒体信息存取系统主要利用多媒体信息的外部特征进行标引和检索。一般来讲,外部特征包括两大类:一类是信息本身的形式特征,包括创建时间、作者、创建地点等与内容无关的信息。第二类是多媒体文件特征,包括文件名、文件格式以及元数据标识等信息。 ②基于文本描述的检索 基于文本描述检索主要通过赋予多媒体信息一组特征数据来描述多媒体数据内容,将对多媒体信息 本身的检索转化为基于文本描述的检索,它在本质上属于文本检索。 传统的信息检索主要以文本为处理对象。这种方法虽然简单,但有几个根本问题影响了对信息的有效使用。 首先,由于多媒体信息的内容很难用文本完全标注。 其次,人工对多媒体信息内容进行标注,十分费时费力。 由上可见,对多媒体信息检索需要借助计算机从多媒体信息的底层到高层进行处理、分析和理解以有效获取其内容特征,并根据内容实现方便快捷的检索,称之为基于内容的多媒体信息检索。 基于内容特征的标引与检索(CBR Content Based Retrieva1)是直接对图像、音频、视频等多媒体内容进行分析,抽取其内容特征和语义关系,建立索引库,以便于检索 2基于内容的多媒体信息检索主要特点如下: 1.提供重建查询机制 2.查询方式的交互性 3.相似度检索 4.多媒体同步检索技术 5.多层次检索信息(如右图所示) 基于内容检索(CBR)系统一般由两个子系统构成:数据库生成子系统和数据库查询子系统。每个子系统由相应的功能模块和部件组成,如下图所示。 3基于内容的多媒体检索系统框架 基于内容检索(CBR)系统一般由两个子系统构成:数据库生成子系统和数据库查询子系统。每个子系统由相应的功能模块和部件组成,如下图所示。 1.目标标识 为用户提供一种工具,以全自动或半自动的方式标识静态图像、视频镜头等媒体区域,以便针对目标进行特征提取并查询。 2.特征抽取 对视频、图像等多媒体数据自动或半自动地进行特征抽取。提取用户感兴趣的、适合检索要求的特征。 3.数据库 多媒体检索系统数据库由媒体库、特征库和知识库组成。 4.查询接口 在基于内容的多媒体信息检索中,由于特征不直观,因此必须为其提供一个可视化的输入手段,与此同时还应在用户界面提供查询结果的浏览功能。 5.检索引擎 检索引擎的主要任务是利用特征之间的距离数来进行相似性匹配,系统通过模仿人类的认知过程,近似得到数据库的认知排序。 6.索引/过滤 检索引擎通过索引/过滤达到快速搜索的目的。 4基于内容检索的关键技术 1.信息模型和表示 信息模型是使用基于计算机的符号结构对应用信息进行模型化描述的产物。常见的多媒体对象是构造型的复合对象,其主要数据类型有超文本模型、文献模型和信息元模型等。 2.检索技术 对文本信息进行全文检索和自由文本查询时,用户只需提交一个查询请求,即可找到所有涉及该关键词的文档。 3.查询语言 基于内容检索以QBE(Query By Example)为代表。这类检索直接依赖于图像理解、语音识别等模式识别技术。 4.信息压缩和恢复 指将物理形式的数据转化为数字信息,并进行压缩和转化。 5.信息存储管理 其存储对象可以是文本、声音、图形、图像等数字化信息。 6.多媒体同步技术 多媒体同步技术用于解决如何展现多媒体的空间组合问题。 7引文数据库  引文数据库,就是将各种参考文献的内容按照一定规则下来,集成为一个规范的数据集。通过这个数据库,可以建立著者、关键词、机构、文献名称等检索点,满足作者论著被引、专题文献被引、期刊、专著等文献被引、机构论著被引、个人、机构发表论文等情况的检索 8专利 1. 专利的历史 世界上最早的专利法于1474年诞生于威尼斯共和国,英国于1624年颁布垄断法,美国于1790年制定专利法,1836年成立美国专利局,1885年(明治18年)4月18日日本第一部专利法生效。中国第一部专利法于1985年4月1日施行。 专利的功能是保护发明创造,鼓励发明创造,有利于发明创造的推广应用,促进科学技术的发展。 2.专利的种类 一般分为三大类: 发明专利 实用新型专利 外观设计专利 申请专利的三大条件:新颖性, 创造性, 实用性。 3.专利文献 专利文献是一种集技术、法律和经济情报于一体的实用文献,在人类技术进步和社会经济发展历程中,一直起着十分重要的作用,长期以来人们通过手工检索,光盘检索和联机检索获取各种专利信息。网络技术的发展为专利的检索开辟了新的途径。 广义的专利文献包括专利申请说明书,专利公报和专利分类表等。从狭义上说,专利文献指的是申请说明书和专利说明书。 4.专利文献的特点 特点是:内容详尽,具体,(技术背景,创新内容,发明特点,具体实施例及插图等,)技术上实用性很大;内容新颖,是最新的信息源 2专利文献概况 1.中国专利文献 中国专利局发行的专利文献包括专利说明书、专利公报和专利年度索引等。 (1)专利说明书 专利说明书是专利文献的主体,包括申请专利的全部技术信息和准确的专利权保护范围的法律信息等内容。 (2)专利公报 中国专利公报是中国专利局根据我国专利法及其实施细则编辑出版的,负责公布和公告与专利申请、审查、授权有关的事项和决定。专利公报是查找中国专利文献,检索中国最新专利信息的主要工具书。 中国专利公报分《发明专利公报》、《实用新型专利公报》和《外观设计专利公报》三种。 (3)中国专利索引 中国专利局目前出版有《中国专利索引》,为年度索引,它对每年公开、公告、审定和授权的专利,以条目的形式进行报道,是检索中国专利文献十分有效的工具,其不足之处是出版速度较慢,仅有年度索引,不能适应查阅近期专利的需要,又无文摘,不便于判断取舍。 9百科全书 百科全书按选收内容可划分为:综合性百科全书、专业性百科全书和区域性(国际、国家与地区)百科全书。 按出版形式可划分为印刷文本式百科全书和电子版百科全书等。以下对重要百科全书进行简介。 1.综合性百科全书 即收录各学科和各门类知识的百科全书,如《中国大百科全书》(74卷),《科利尔百科全书》(24卷)——(Collier’s Encyclopedia. New Your: Macmilla Educational Co.,1990,24v)其内容包括自然科学、社会科学一切领域,汇集了各类名词概念、专业术语、人物生平、事件始末等各种资料,并附有辅助索引与参考书目等。 综合性百科全书根据不同的读者对象还可以区分为三个档次。第一个档次是,供具有高学历的用户或某学科领域的专家学者查询非本专业知识用的学术性较强的大部头百科全书;第二个档次是,供一般成年人使用的百科全书为普及档次;第三个档次,是供中、小学生自学查阅和配合学校课程教学以及家庭教育使用的百科全书. 2.专科性百科全书 涉及的范围通常只限于一个知识领域或一定知识范围,。 3.国际性百科全书 所收内容涉及世界上许多国家和地区。 4.国家性和地域性百科全书 反映某一国家或某一地区情况的百科全书。 5.电子百科全书 指以光盘、磁带、网络等形式出版的各种百科全书。 1.《中国大百科全书》概况 《中国大百科全书》是我国第一部大型的现代综合性、学术性百科全书。第一版从1978年开始按学科分卷出版,至1997年已全部出齐,共74卷。 2.《不列颠百科全书》(Encyclopedia Britannica,简称EB) 自1768年创编以来,至今已有300多年的历史。 我国学术界历来称《新不列颠百科全书》(New Encyclopedia Britain, Chicago: Encyclopedia Britannica, Inc.15th ed 30v.)为世界著名的ABC三大百科全书之B,认为EB是现代最有权威的大型综合性百科全书。 3.《美国百科全书》( Encyclopedia American International Edition, New York: Grolier, Inc. 30v,简称EA)。 创编于1829年,是美国第一部大型的综合性百科全书,也是世界标准型综合性百科全书。全书条目按字顺编排,是英语世界著名的ABC三大百科全书之A。目前版本共30卷,前29卷为正文,第30卷是全书的索引 4.《科利尔百科全书》(collier’s Encyclopedia, New York: Macmillian Education Corp. 24v.简称CE) 共24卷。《科利尔百科全书》是英语世界的ABC三大百科全书之C,是美国科利尔公司于1949年创编出版的大型英语综合性百科全书。现由美国纽约麦克米伦公司出版。 10查全率和查准率 查全率——它是指检出的相关文献量与检索系统中相关文献总量的比率,是衡量信息检索系统检出相关文献能力的尺度。 查准率——它是指检出的相关文献量与检出文献总量的比率,是衡量信息检索系统检出文献准确度的尺度。 使用泛指性较强的检索语言(如上位类、上位主题词)能提高查全率,但查准率下降。 使用专指性较强的检索语言(如下位类、下位主题词)能提高查准率,但查全率下降。 已知某检索系统中共有信息X条,其中相关条件f的信息数为Y个,执行检索课题f结果共检出W条,其中有V条满足条件f。请写出查全率、查准率的公式,并求出R和P 查全率=被捡出的相关文献的数量÷总文献中所有相关文献的数量 查准率=被捡出的相关文献数量÷被捡出的文献的总数量 则查全率=V/Y 查准率=V/W 11网络信息检索的评价指标
/
本文档为【信息检索复习资料】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索