为了正常的体验网站,请在浏览器设置里面开启Javascript功能!
首页 > 语言文字信息处理

语言文字信息处理

2011-12-10 3页 doc 37KB 74阅读

用户头像

is_133616

暂无简介

举报
语言文字信息处理 1你认为信息技术的发展对语言文字工作提出了怎样的挑战? 计算机的出现及其应用,是人类科技文化建设的一次历史性飞跃。几千年来,语言文字面临的是人与人之间的交际,计算机的出现,使语言文字的服务对象从人际交际拓展到人机交际。计算机作为人类思维活动延伸的工具,其功能除了科学数值运算与控制外,非数值型的信息处理,特别是语言文字信息处理已经上升到十分重要的地位。钱学森同志指出:“电子计算机软件也是语言文字工作。”由于计算机最初是针对西文设计的,所以计算机在处理中文时,遇到了汉语汉字本身的特点所带来的独有的困难。我国在解决汉字进...
语言文字信息处理
1你认为信息技术的发展对语言文字工作提出了怎样的挑战? 计算机的出现及其应用,是人类科技文化建设的一次历史性飞跃。几千年来,语言文字面临的是人与人之间的交际,计算机的出现,使语言文字的服务对象从人际交际拓展到人机交际。计算机作为人类思维活动延伸的工具,其功能除了科学数值运算与控制外,非数值型的信息处理,特别是语言文字信息处理已经上升到十分重要的地位。钱学森同志指出:“电子计算机软件也是语言文字工作。”由于计算机最初是针对西文的,所以计算机在处理中文时,遇到了汉语汉字本身的特点所带来的独有的困难。我国在解决汉字进入计算机时花费了十几年的时间,付出了比西文昂贵得多的代价。在中文信息处理的高级阶段——汉语计算机处理阶段,我们还将遇到一系列“瓶颈”问:汉语没有词的界限标记,计算机难于分析词与词之间的句法、语义关系;汉语词类划分和兼类情况复杂,词性自动判别和标注困难;汉语句子和语义层次的分析更是困难重重。这些难点如果解决不了或解决不好,都会影响我国信息产业的发展,进而影响国民经济信息化进程,削弱我国在国际上的竞争力。因此,语言文字化、化以及以此为核心的中文信息处理是当今高新技术发展的基础和重点,直接关系到汉语的文献检索、机器翻译、人机对话等技术的发展。有鉴于此,《国家通用语言文字法》第十五条规定:“信息处理和信息技术产品中使用的国家通用语言文字应当符合国家的规范和标准。”这是极具远见的重要规定,对我国社会用语用字的规范化乃至信息技术和计算机网络的发展必将产生深远影响。 2 什么是汉语分词?其特点是什么? 利用计算机把中文文本字串转化为词串的过程。 特点从汉字特点、算法简单阐述一下 汉字具有以下三个特点: (1)汉字符号繁多,以语素定型,孤立性强; (2)汉字是音义二维的文字,与语义的联系具有特定性,与语音的联系不具有特定性; (3)汉字构形有理据,可以进行结构分析。 汉语分词系统包括了中文分词,词性标准,命名实体识别,新词识别等功能。这些功能使它克服了汉字符号繁多,以语素定型,孤立性强的弱点。同时,充分发挥了汉字是音义二维的文字和汉字可以进行结构分析的优越性。因而,汉语分词具有分词速度快,分词精确等特点。 3什么是自然语言理解,什么是自然语言生成?请列举三个自然语言研究的应用领域。 自然语言理解指计算机能理解自然语言文本的意义。 自然语言生成指计算机用自然语言来表达给定的意图、思想等。 自然语言研究的应用领域:机器翻译、全文检索、自动文摘、语音识别、会话系统等。 4中文信息处理技术:用计算机对汉语的音、形、义等语言文字信息进行的加工和操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。(或者:简单地说,中文信息处理就是利用计算理论和计算技术处理中国语言文字信息的一门学科,是计算机科学与语言文字学的交叉学科。) 研究领域:汉字键盘输入技术,汉字输出技术,软件汉化技术,汉字识别技术,语音识别,文本分类,信息检索等。 5在计算机汉字信息处理系统的不同部分中,存在着多种汉字编码,这些编码构成了一个完整的汉字代码体系,这个代码体系主要包括汉字内部码、汉字输入码、汉字字形码、汉字地址码、汉字传输码。 6操作系统属于嵌入式操作系统:Symbian 操作系统。 7规范汉字指新中国建立以来,经过整理简化的汉字和未整理简化的汉字,由国家主管部门公布推行,是我国全国范围内通用的法定文字 8TrueType字库属于曲线轮廓字类型的字库:    9区位输入法不需要输入码对照表 10汉字点阵字形通常分为两种:适用于显示器的横向点阵和适用于打印机的纵向点阵。 11国家对电子出版物的出版、复制、进口、发行实行许可证,而对从事电子出版物制作经营业务的单位实行备案制管理。 12改错:我国对出版单位的设立实行审批制,对印刷复制单位和发行单位的设立实行登记制.为了加强对出版物质量的管理新闻出版总量与2004年颁布了修订的《图书质量管理规定》。这个规章主要针对图书出版工作,与其他出版物的质量管理无关。图书质量包括内容、编校、印制三项,分为优秀、良好、合格、不合格四个等级。出版行政部门每年选取部分出版社的图书进行质量抽查,并根据检查结果实施一定奖惩措施。 出版出的人力资源包括各种专业技术人员和一般人员。按承担工作任务的不同,出版专业技术人员分为编辑人员,技术编辑人员,发行人员之类。一般来说,取得出版专业初级职业资格的编辑人员,可以根据国家的有关规定,受聘担任助理编辑,并引以担任出版物的责任编辑。新进入出版单位担任社长(副社长)、总编辑(副总编辑)或主编(副主编)职务的人员,除应具备国家规定的任职条件外,还必须具备出版专业高级职业资格。 (1) 我国对出版单位的设立实行审批制,对印刷复制单位和发行单位的设立实行登记制改为“我国对出版单位,印刷复制单位和发行单位的设立实行审批制” (2) 与其他出版物的质量管理无关改为“但对于其他出版物的质量管理也具有指导意义 (3) 图书质量包括内容、编校、印刷三项改为“图书质量包括内容、编校、设计、印刷四项“ (4) 删除优秀,良好,四个等级改为两个等级 (5) 发行人员改为校对人员 (6) 并可以担任出版物的责任编辑改为但不可以担任出版物的责任编辑 (7) 高级改为中级以上(含中级) 13电子出版物概念:电子出版物,是指以数字代码方式,将图、文、声、像等信息编辑加工后,存储在电、光、磁介质上,通过计算机或具有类似功能的设备读取使用的出版物。 · 与媒介质出版物相比较,它们在信息的记录方式、存储介质和读取方法三个方面完全不同。 · 与互联网出版物相比,电子出版物主要在复制方法和流通环节上不同 14电子出版物的特点 · 内在特点 :1.存储信息量大 2. 检索便捷 3.具备多媒体的表现方式4.交互式结构可实现读者的参与5.超链接设置拓展读者视野6.可实现按需打印 · 外在特点 :1.体积小2.能长久保存3.阅读方式与纸介质出版物不同4.复制成本低廉5.版本更新灵活、方便、快速6.发行渠道有所不同 15电子出版物可以选用的加密技术手段:硬件加密,软件加密,数据加密 16我国有关电子出版物管理的规范性文件主要有两个: 国务院2001年12月颁布的《出版管理条例》中的相关规定。 国家新闻出版署1997年12月颁布的《电子出版物管理规定》。 17国家标准《信息处理交换用汉字编码字符集·基本集》(GB2312-80)共收汉字图形字符6763个 16信息处理方式的构成要素:信息处理主体(主要指具体的人和人组成社会群体或机构)、信息处理工具(包括人类的信息器官和人类创造的信息工具)、信息来源、信息载体、信息产品支配与共享 18语言文字信息处理:是以语言文字学为基础,以计算机和远程通信为核心技术的一门多边缘交叉的新兴应用型学科 19计算机安全的意义:现在,计算机安全已经成为国家安全的重要内容。一方面,因为整个国家现代化和信息化的基础都依赖于计算机系统,所有的信息从采集、存储、处理到传输都离不开计算机;另一方面,网络多媒体技术的发展和普遍应用,在给我们带来无限的便利的同时也带来了无限的危险和隐患,一不留意就可能把信息发布出去,一旦发布到网上,就可能成为任何人、任何时间、任何地点都能够得到的资料。因此,无处不在的信息的重要性就决定了计算机安全的重要性 20什么是数据库:是计算机存储设备中以某种结构关系存放的相互关联的数据的集合,数据库是数据处理的重要基础和最佳方式。 21什么是关系性数据库:以关系模型建立的数据库结构,也叫关系数据库 22信息:是客观物质世界存在的形式、状态以及各种关系,是与物质能量共同构成世界的三大要素之一 23信息处理:就是用计算机对各种信息符号进行输入、转换、存储、传输、分类、排序、统计、分析、重组等加工的过程 24网络出版:是以国际互联网为信息载体和传播工具,以网上电子交易为主要结算方式,通过远程在线浏览或下载到终端用户存储器方式,完成数字化电子读物的出版及销售。 25信息检索:是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查寻
/
本文档为【语言文字信息处理】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索