为了正常的体验网站,请在浏览器设置里面开启Javascript功能!
首页 > 《医学统计学》习题解答(最佳选择题和简答题)

《医学统计学》习题解答(最佳选择题和简答题)

2012-12-27 29页 pdf 11MB 314阅读

用户头像

is_983514

暂无简介

举报
《医学统计学》习题解答(最佳选择题和简答题) 汉语多层次结构分析研究 周国栋 李中国 1、 引言 互联网的迅速发展和普及改变了人们的生活和工作方式。然而,极其丰富的网络内容在 给人们带来极大便利的同时,也带来了若干问题。自然语言作为人类信息、文化和智慧的载 体,如何利用好互联网这一大环境给自然语言深度计算带来了新的挑战,解决这一问题对于 提高信息服务质量、传播中华文化和集成人类智慧具有极其重要的意义。 汉语的单位由小到大可以分为字、词、短语、句子,最后形成篇章。只有分析出这种层 次化结构及各组成成分之间的语义关系,才能对整个篇章进行全面深入...
《医学统计学》习题解答(最佳选择题和简答题)
汉语多层次结构分析研究 周国栋 李中国 1、 引言 互联网的迅速发展和普及改变了人们的生活和工作方式。然而,极其丰富的网络内容在 给人们带来极大便利的同时,也带来了若干问题。自然语言作为人类信息、文化和智慧的载 体,如何利用好互联网这一大环境给自然语言深度计算带来了新的挑战,解决这一问题对于 提高信息服务质量、传播中华文化和集成人类智慧具有极其重要的意义。 汉语的单位由小到大可以分为字、词、短语、句子,最后形成篇章。只有分析出这种层 次化结构及各组成成分之间的语义关系,才能对整个篇章进行全面深入的分析、理解和深度 计算。实现自然语言深度计算的前提是建立高效统一的内容及其关系表示。目前自然语言处 理对文本内容及其关系表示缺乏系统深入的研究,使得自然语言处理研究难以深入进行,相 关资源和技术都难以积累和扩展。因此,汉语多层次语言结构表示与分析模型研究是实现中 文信息深度计算的基础。 图 1:依存分析体系下的词法与句法结构统一分析实例 1 2 3 并列 递进 转折 因果 条件 4 5 6 图 2:一个篇章层次化结构实例 {1 张三才 30出头,||(递进)2 而且既没有什么学历,|||(并列)3 又没用多少新的工 作经验,|(转折)4 但是不论干什么,|||(条件)5 他都非常认真,||(因果)6 所以, 处长总是把一些重要的任务交给他。} 本文以子句作为分界分别介绍句子级结构分析和篇章级结构分析。前者主要解决的是子 句内部的结构关系,包括词法结构和句法结构,基本单位是字或意义固定不可再分的词,可 以称之为原子词(原子词->词->短语->子句,例如图 1),而后者主要解决的是篇章内部的 结构关系,基本单位是子句(子句->复杂句子->段落->篇章,例如图 2)。 2、 句子级结构分析 词法与句法分析是自然语言处理系统的基本步骤。词法句法分析结果的准确性直接影 响着各种自然语言处理系统的使用效果和用户体验。英语等西方语言中的词法与句法分工相 对明确,词性与句法功能间存在比较整齐的对应关系。因此,英语的词法和句法分析在大规 模标注语料和机器学习方法的支持下,已经取得较好效果。 相比之下,汉语的词法与句法之间的界限比较模糊,许多情况下就连语言学家也很难确 定某些语言单位是语素、词还是短语,这给中文信息处理带来了很大障碍。目前,中文信息 处理领域的一般做法是通过分词,给词法和句法划定边界,从而使汉语的句法分析能够套用 西方语言句法分析的模型和算法,然而这种做法忽视了汉语词法、句法系统的独特之处,导 致汉语词法和句法自动分析的效果与英语相比,在精度上存在很大差距。 显然,建设能够反映汉语词法与句法系统特色的深加工语料库,并在此基础上建立适合 汉语特点的词法与句法分析模型与算法,从而较大幅度地提高汉语自动分析的精度,不仅可 以为各种中文信息处理系统提供更便于使用、涵盖各种语言粒度、高效准确的词法句法分析 结果,而且还可以通过计算与建模等手段,科学、系统地考察汉语语法的各个侧面,有助于 加深对汉语的理性认识,丰富我们对人类语言共性与个性的理解,从而促进认知科学特别是 认知语言学的发展。从这个角度看,汉语词法与句法结构统一分析研究,具有工程实践和科 学探索两方面的意义。 国内外相关句子级结构分析研究非常多,由于篇幅有限,这里主要围绕汉语展开。  汉语词法分析 下面从汉语分词、分词与词性标注一体化、分词的自动转换以及汉语词语结构分析 四个角度,对汉语词法分析的研究进展进行介绍。  自动分词:自从 2003 年举办第一届国际自动分词评测(SIGHAN Chinese Word Segmentation Bakeoff)以来,汉语自动分词取得了长足发展。目前,利用条件随 机场及位置标注方法,分词系统的 F值可达 97%。在这个基础上,研究人员正在探 索大规模开放语料(如互联网)的分词以及专业领域的分词问题,如 Li & Sun (2009) 提出基于千亿字规模的互联网语料中的标点信息,来增强未登录词识别效果, Sun(2011)提出用专门领域的未标注数据来提高该领域的分词性能。  分词与词性标注一体化:Ng (2003)最早注意到,如果对分词和词性标注进行一体 化建模,则有助于提高分词及词性标注的准确性,这是因为一体化建模可综合利用 多层次多角度的信息。例如,在分词与词性标注一体化模型中,分词时可以利用词 性标注结果,而词性标注时也可以同时利用上下文中字和词两个层面的上下文,虽 然其代价是增加了模型训练与测试时的解码时间。循着这个思路,近年来研究人员 利用感知机模型对分词和词性标注一体化进行了重新建模和考察(Kruengkrai et al., 2009)。目前,分词与词性标注联合模型在分词任务上的 F1值大约是 98%, 而 分词与词性标注的联合 F1值大约为 94% (Sun, 2011)。  分词标准之间的自动转换:当前分词研究中存在大量互不兼容的分词标准。没有任 何分词标准能够让所有人满意,也没有任何标准能够完全适应应用中各种各样的需 求。由于标注语料库是稀缺资源,Jiang et al.(2009)研究了如何在不同标准间自 动转换语料库,从而省去人工标注的成本。这些研究从侧面佐证了仅仅加空格的分 词范式存在的问题。  汉语词语结构的自动分析:Zhao(2009)分析了当前分词范式的问题,提出利用汉字 之间的依存关系来代替线性的字符串,用以对词进行表述。Li(2011)从理论和应用 两个角度论证了分析词语结构的必要性,并提出了一种短语结构体系下的汉语词法 和句法分析的统一模型与算法。实验表明,该模型与算法可以较好分析汉语词语内 部结构,在整个句子的句法结构分析上,也达到了当前最好的分析精度。同时,在 该工作中还标注了宾州中文树库 CTB5.0约 4万词左右的词语内部结构。 这些研究的共同点是承认汉语词法与句法边界较为模糊的现实。实际上,某个语言 单位到底应该归为词还是归为短语并不重要,对自然语言应用系统而言,真正关键 的问题是如果该语言单位具有内部结构,则应该由系统自动准确地分析它们的结构, 这样,应用系统就可以方便地提取各自需要的语言单位粒度。  汉语句法分析 在汉语句法分析方面,无论是短语结构分析(Petrov & Klein, 2007; Zhang et al., 2009) 还是依存句法分析(Duan et al., 2007; Yu et al., 2008; Zhang & Clark, 2008; Chen et al., 2009; Chen et al., 2011)基本沿袭英文句法分析的研究体系,在分词甚至标注了词 性的输入上展开,没有分析考虑到汉语词语的内部结构。  联合建模 上文提到在分词与词性标注中采用联合建模可同时提高二者精度。在语言技术中,不同 层次不同任务的联合建模,往往可以使模型能够同时反映多层次语言上下文信息,从而提高 各任务的性能。除了分词与词性标注的联合建模,其它代表工作包括:Li et al.(2010)将 汉语句法分析与语义角色标注进行联合建模,结果表明,与首先进行句法分析然后进行语义 角色标注的方法比较,可以同时提高两个任务的精度;Li(2011)提出了一个汉语词性标注与 依存分析一体化的统计模型,可以提高依存分析正确率大约 1.5%。 针对其他语言的研究也可以证实联合建模在效果上的优越性。例如 Goldberg & Tsarfaty (2008)提出了一个希伯来语的词法与句法分析的生成模型,经测试,该模型的错 误率比传统的独立建模方式降低了 12%。另一典型的研究则是 Finkel et al. (2009)提出的 将命名实体识别与句法分析联合建模方法,可以提高命名实体识别的 F 值约 9.0%,而句法 分析的 F值则可以提高约 1.4%。  大规模树库标注与开发 高质量的深加工语料库,是任何基于统计的自然语言处理系统所需的基础资源。这方面 最为成功的典范是宾州树库。它包括取材于华尔街日报等新闻的英文约 100 万词,标注 了词性及句法结构。受到该树库成功的启发,有关研究人员开发了宾州中文树库 CTB。目前, 最新版本的中文树库 CTB7.0 大约含有 100万词,标注了分词、词性以及句子结构信息。  小结 目前对汉语进行句法分析的首要前提是先对句子分词。分词这个步骤的根本目的是希望 汉语的后续处理(如句法和语义分析)过程跟英语等西方语言一致。但是,汉语中词与短语 的界限难以划清,这就导致实践中人工标注的语料存在严重的不一致性;而且汉语语言理论 对这种不一致性未能提供可靠的解决途径。换言之,通过分词把汉语句法分析归约为英语句 法分析的做法,忽视了汉语词法与句法分界不清这个重要特点,难以满足理论和应用的具体 要求。 汉语的特点决定了词法与句法之间不存在一刀切的截然界限。通过分词这个步骤, 试 图把汉语的句法分析转换为英语等西方语言一致的句法分析问题,这个做法存在很多不妥之 处。一个可能的解决思路是构造汉语词法与句法分析的统一模型与算法,不再强制划分汉语 的词法与句法界限,最终探索出一种符合汉语特点的汉语词法与句法分析研究范式。 3、 篇章级结构分析 在篇章结构分析中,“篇章”指一系列连续的子句、句子或语段构成的语言整体单位, 每个篇章不仅具有内部连贯性,而且篇章中的各级单位是描述同一个问题或同一种情境的一 个相对完整的语言整体。在一个篇章中,子句、句子或语段间具有一定的层次结构和语义关 系,只有分析出其中的层次结构及语义关系,才能对篇章有一个总体把握。 自然语言处理研究虽然已经经历了几十年的发展历程,但一般重点聚焦在句法和词法层 面,对篇章内在规律的研究相对较少,缺乏对篇章进行分析的有效理论和计算方法,进而严 重制约了基于篇章的相关应用,例如知识抽取、问答系统、自动文摘和基于篇章的机器翻译 等。可以说,目前的篇章分析研究,无论在理论上还是在实践上,都非常初步。尤其对于汉 语的篇章分析研究,还远没有建立起与之相适应的理论体系和计算方法,基础资源十分匮乏。 因此,汉语篇章分析研究不仅具有非常重要的理论意义和应用价值,可以丰富和发展语言学 理论,促进自然语言处理基础研究和应用研究的发展,而且对于中文信息处理研究起到显著 的推动作用,尤其面向网络内容理解的篇章分析技术具有非常广阔的应用前景。 篇章分析是自然语言处理的一个核心问题。早在 20世纪 70年代,语言学家和认知科学 家就对这个问题开展了研究。Schank & Abelson(1997)首先提出了著名的概念依存理论 (Concept Dependency),并在此基础上提出了脚本(Script)方法,对特定的“故事”进 行理解。目前备受关注的信息抽取研究就采取类似的思想,只是简化了抽取的内容。 篇章分析需要用更加通用和开放的表达形式来处理。这就需要充分挖掘篇章的一般知识, 明确篇章的基本特征。Beaugrande & Dressler(1981)认为篇章具有衔接性(cohesion)、连 贯性(coherence)、意图性(intentionality)、可接受性(acceptability)、信息性 (informativity)、情景性(situationality)和跨篇章性(intertextuality)七个基本 特征。其中,衔接性、连贯性、意图性和信息性四个基本特征对自然语言处理产生了深远的 影响。衔接和连贯常常以表层形式体现,为篇章分析提供了“形式标记”。与此相比,信息 性和意图性属于篇章语义层面上的特征,隐藏在篇章更深的层次上,通常可以融合在连贯性 虑。信息性强调文本的内容,是作者期望向读者传达的(新)信息;而意图性强调作者 的写作意图,是作者期望通过传达信息对读者形成的某种影响。 无论西方语言或者汉语,篇章的衔接性和连贯性都是最需要关注的两个问题,是篇章的 两个最基本特征。衔接又称为外部联接,主要表现为整个篇章范围内词汇(或短语)之间的 关联,指篇章中存在于表层结构上的各语言成分之间的语法或语义关系。与衔接不同,连贯 主要通过句子(或句群)之间的语义关联来表示篇章的关联。从这个意义上看,连贯是一种 内部联接,正是有了内部联接,才使得篇章具有整体性。本质上,衔接性和连贯性分别从内 容和表达这两个方面保证了篇章的正确性和可理解性,二者相互依赖,相互补充。这里探讨 的篇章结构分析主要面对篇章连贯性。 下面分别从理论研究、资源建设、计算模型等方面分述篇章结构分析的国内外研究现状。  理论研究 相关理论主要包括 Hobbs模型(Hobbs, 1979)、修辞结构理论(Mann & Thompson, 1986; Mann & Thompson,1988)、宾州篇章树库体系(Prasad et al., 2008)等。  Hobbs模型:Hobbs模型提出,篇章结构由篇章单位和篇章连接关系构成。其中篇 章单位可以小到子句,大到篇章本身;篇章连接关系是两个篇章单位之间的语义关 联性,包括 12种关系类型,如原因、背景、细化等。  修辞结构理论:修辞结构理论(Rhetorical Structure Theory, RST)与 Hobbs 模型有很大相似性。它定义了 25类语义关系,称为修辞关系。每个修辞关系可以 联接两个或多个篇章单位。通常修辞关系连接的单位存在主次之别,其中表示主要 信息的单位称作“核(Nucleus)”,表达次要信息的单位称作“卫星(Satellite)”。 这类关系也称为“单核”修辞关系。也有一些修辞关系连接的单位中无主次之分, 如对比关系和列表关系。这类关系称为“多核”关系。 修辞结构理论中,两个以上的篇章单位形成修辞关系,即构成修辞结构树:句子与 句子之间构成一种关系,从而形成一个大的单元,与相邻的单位再构成更高层的修 辞关系,继而得到一个层次化篇章结构树。由于修辞关系被赋予了特定的语义,篇 章结构关系也就表达了篇章内部的语义关系。 值得指出,相比 Hobbs模型,修辞结构理论更注重句子内部的篇章结构,篇章单位 可以小到短语。修辞结构理论在篇章计算模型方面受关注,它不仅作为篇章分析模 型使用,也常常作为篇章生成模型使用。  宾州篇章树库体系:Marcus(1997, 2000)在修辞结构理论基础上,对篇章结构关 系问题进行了系统研究。相关研究成为 Prasad et al.(2008)构建宾州篇章树库 (Penn Discourse Tree Bank, PDTB)的理论基础。该体系基本沿用修辞结构理 论定义的 25 类篇章修辞关系,所不同的是其将关系划分为三层,第一层共 4大类, 第二层 16类,第 3层 23类,共 30类关系(部分关系只到第二层)。另外,相比修 辞结构理论,宾州篇章树库体系凸显了连接词的作用,其以连接词(谓词)为核心, 标注与之相关的篇章单位(论元)。同时,宾州篇章树库的篇章单位也与修辞结构 理论的略有不同,即其不再考虑短语级的语言单位作为篇章单位。  其他相关理论:Grosz & Sidner(1986)认为,篇章是具有意图的(因为人们写作本 身就有某种意图)。因此,篇章结构理论不应只考虑篇章的内容,还应解释其中的 意图。为此,她们提出以意图结构(intentional structure)作为篇章结构理论 的基础。意图结构与修辞结构理论存在共同的基础。实际上,意图结构中的支配 (dominance)和修辞结构理论中的核相对应。除此之外, Asher & Lascarides (2003)扩展了 Hobbs 模型中的篇章关系,提出了基于分割篇章表达理论 (Segmented Discourse Representation Theory, SDRT)。Gardent(1997)提出一 种基于特征的篇章树邻近文法(Feature-based Discourse Tree Adjoin Grammar)。 基于此,Forbes et al.(2003)又提出一种词汇化的篇章树邻近文法(Lexicalized Discourse Tree Adjoin Grammar)。  资源建设 现有资源主要包括修辞结构篇章树库(Carlson et al., 2003)、宾州篇章树库(Prasad et al., 2008)、篇章图库(Wolf & Gibson 2005)等。  修辞结构篇章树库:Carlson et al.(2003)选用宾州树库语料,以修辞结构理论 为指导,构建了英文篇章结构树库。目前完成了 385 篇文章的标注,总词数达到 176, 000,平均每篇文章 458个词。  宾州篇章树库:Prasad et al.(2008)在宾州树库上添加了篇章结构信息,形成了 宾州篇章树库。该树库主要的标注信息包括篇章连接关系、关系连接词及其论元结 构等。关系连接词包括主从连接词(如“because, when”等)、并列连接词(如“and, or”)和篇章副词(如“however, previously”)三大类。篇章连接关系连接的篇 章单位称为论元(左边论元称为 Arg1,右边称为 Arg2)。两个论元位置比较灵活, 可以在两个子句间,也可以跨越多个子句或句子等。2006年 LDC发布了 PDTB1.0, 两年后又发布了 PDTB2.0。PDTB2.0共标注了 40600个篇章关系,其中,18459 (45%) 有明确的连接词。在 18459 个有连接词的关系中,61%的 Arg1 和连接词出现在相 同的句子中,30%的情况 Arg1直接出现在连接词的左边直接相邻的句子中;同时, 也有 9%的情况,Arg1与连接词并不相邻,也就是说,在 Arg1与连接词之间还隔着 其他的句子。  篇章图库:Wolf & Gibson(2005)认为树结构描述篇章结构存在局限,提出用图结 构表示篇章,并建立了篇章图库(Discourse Graph Bank, DGB)。篇章图库标注了 135篇文章,篇章关系主要参考了 Hobbs模型中的连贯关系。 另外,Balbridge & Lascarides (2005)基于分割篇章表达理论(Segmented Discourse Representation Theory, SDRT),构建了 SDRT对话篇章树库。  计算模型 相关计算模型一般基于特定的资源开展,下面主要介绍基于修辞结构理论篇章树库和 宾州篇章树库的研究。  基于修辞结构理论篇章树库的研究: 在修辞结构理论篇章树库(RSTDT)上进行篇 章结构分析研究一般分为基本篇章单位(Elementary Discourse Units, EDU)识 别和篇章结构生成两步。 关于 EDU的自动识别研究较多,结果也比较理想。例如,Hernault et al.(2010) 给出了一个基于序列数据标注的篇章分割模型,使用词汇和句法特征,采用 CRF, 实验表明作者的序列篇章分割模型 F值达到 94%,接近于人工篇章分割的 F值 98%。 由上可知,目前 RSTDT上 EDU识别准确率较高,进一步提升的空间不大。 篇章结构生成方面,结果则不理想。例如,DuVerle & Helmut(2009)提出了一个 基于支持向量机的篇章结构分析器,采用统计机器学习的方法,使用了丰富的特征 空间,生成包含 14类关系的篇章结构树,F值只有 48.1%。  基于宾州篇章树库的研究:宾州篇章语料库(PDTB)的构建显著推动了篇章结构分 析的研究,在篇章计算方面受到了极大的关注。目前的研究主要集中在论元识别和 篇章关系识别。 论元识别方面,Wellner(2009)用序列模型和排序方法进行篇章分析,在标准句 法树上 Arg1 识别准确率是 80%,Arg2识别准确率是 91%,在自动句法树上 Arg1识 别准确率是 62%,Arg2识别准确率是 86%。上述作者在识别论元时都用论元中心代 替整个论元,使得识别相对简单。 篇章关系识别方面,由于显式篇章关系中连接词(connective)的存在而歧义较少 (大约只有 2%),显式篇章关系比较容易识别。这使得隐式篇章关系研究成为篇章 结构关系分析成败的关键。基于此,Pitler et al.(2009)深入研究了不同类型 语言特征对隐式篇章关系识别的贡献,实验发现情感倾向标志、动词类别、动词短 语长度、情态动词、上下文环境和词法等特征对篇章关系识别具有一定作用,在 PDTB上准确率为 44.58%(6大类,4大类加实体关系和无关系)。相对显式篇章关 系 90%以上的识别准确率,隐式篇章关系的识别准确率徘徊在 40-45%左右,隐式篇 章关系识别成为篇章结构分析成败的关键。  汉语篇章结构分析 汉语篇章分析的兴起和发展大致经历了四个阶段(郑贵友 2005):第一个阶段纯粹以文 章写作为主要目的,对篇章构成加以观察;第二个阶段以文章学分析为主,同时从语言学的 角度对篇章构成加以观察;第三个阶段从语言学的角度,观察汉语篇章结构规律,具有“本 土特征”;第四个阶段引进西方现代篇章语言学理论,研究汉语篇章问题。值得注意的是, 在汉语篇章研究发展的第三阶段,语言学家们更多地关注了汉语篇章结构的“本土特征”- 句群,确立了句群作为汉语篇章观察研究“标本”的地位,显著加强了汉语篇章内部微观语 义结构、篇章内部衔接手段的研究(吕叔湘 1979;曹政 1984;吴为章等 1984)。 目前汉语篇章结构分析的重点还在探索汉语篇章结构标注的理论支撑。这方面,国外研 究者利用修辞结构理论进行篇章结构标注为汉语篇章结构标注带来了很多启发。其实,修辞 结构理论关于篇章结构的基本假设和主要性质与传统的汉语句群研究有很多相同或相似的 地方。基于此,乐明(2006, 2008)以修辞结构理论为指导,参考汉语复句和句群理论,进 行了篇章结构标注的尝试。 另一方面,与英语相比,大规模高质量汉语篇章结构标注语料库严重匮乏。乐明(2008) 采用大陆主要媒体的财经评论文章为语料,依据修辞结构理论定义了 12大组 47 种汉语的修 辞关系,将汉语篇章的基本篇章单位定义为由句号、问号、叹号、分号、冒号、破折号、省 略号以及段落结束标记所分隔的文字串,草拟了相应篇章结构标注工作守则,并完成了对 97 篇财经评论文章(来自中国大陆主要媒体)的修辞结构标注, 探讨了修辞结构理论及其 形式化方法在汉语篇章结构分析中的可行性。此外,邢福义(2001)专门研究汉语复句,对 复句关系分类以及复句关系的标记等问题,提出了独特的看法。在此基础上,面向复句研究, 华中师大开发了汉语复句语料库,目前已收有标复句 658,447句,约 44,395,000 字。语料 来源以《人民日报》和《长江日报》为主,收入了各种句式的现代汉语有标复句。  小结 综上所述,篇章结构分析是自然语言处理的挑战性课题,有关研究具有重要应用价值和 理论价值。相对于词法和句法分析,国际上篇章结构分析研究进展仍比较缓慢,尚未形成一 套成熟而有效的理论体系,资源建设等基础工作仍然比较薄弱。汉语篇章结构分析研究更是 如此,任重而道远。 汉语与英语等西方语言相比有很大不同,就篇章结构而言,从基本篇章单位、篇章结构 组织、篇章关系分类到连接词的形式与分布等均有所不同,适用于英语等西方语言的篇章结 构分析理论和方法未必适用于汉语。这就迫切需要建立适合于汉语篇章结构分析的理论体系, 并为持久深入的汉语篇章结构分析研究建立高水平的篇章结构语料标注和大规模高质 量的汉语篇章结构标注资源,最后在此基础上建立篇章结构分析计算模型,实现高性能的篇 章结构分析。 参考文献:句子级结构分析 [1] Chen W.L., Kazama J., Uchimoto K. and Torisawa K. 2009Improving Dependency Parsing with Subtrees from Auto-Parsed Data. In Proc. of EMNLP 2009:570-579, [2] Chen W.L., Kazama J., Zhang M., Tsuruoka Y., Zhang Y.J., Wang Y.O., Torisawa K. and Li H.Z. 2011. SMT Helps Bitext Dependency Parsing. In Proc. of EMNLP 2009:73-83, [3] Duan X.Y., Zhao J. and Xu B. 2007. Ungreedy methods for Chinese deterministic dependency parsing. In Proc. of AAAI 2007:1850–1851. [4] Finkel J. R. and Manning C.D. 2009. Joint Parsing and Named Entity Recognition. In Proc. of NAACL 2009:326-334. [5] Goldberg Y. and Tsarfaty R. 2008. A Single Generative Model for Joint Morphological Segmentation and Syntactic Parsing. In Proc. of ACL-HLT 2008:371–379. [6] Jiang W.B., Huang L. and Liu Q. 2009. Automatic Adaptation of Annotation Standards: Chinese Word Segmentation and POS Tagging – A Case Study. In Proc. of ACL-IJCNLP 2009:522–530. [7] Kruengkrai C., Uchimoto K., Kazama J., Wang Y.O., Torisawa K. and Isahara H. 2009. An Error-Driven Word-Character Hybrid Model for Joint Chinese Word Segmentation and POS Tagging. In Proc. of ACL-IJCNLP 2009:513–521. [8] Li J.H., Zhou G.D. and Ng H T. 2010. Joint Syntactic and Semantic Parsing of Chinese. In Proc. of ACL 2010:1108–1117. [9] Li Z.G. and Sun M.S. 2009. Punctuation as implicit annotations for Chinese word segmentation. Computational Linguistics, 35(4):505–512. [10] Li Z.G. 2011. Parsing the Internal Structure of Words: A New Paradigm for Chinese Word Segmentation. In Proc. of ACL 2011:1405–1414. [11] Ng H.T. and Low J.K. 2004. Chinese Part-of-Speech Tagging: One-at-a-Time or All-at-Once? Word-Based or Character-Based? In Proc. of EMNLP 2004:277–284. [12] Petrov S. and Klein D. 2007. Improved inference for unlexicalized parsing. In Proc. of NAACL 2007::404-411. [13] Sun W. 2011. Enhancing Chinese word segmentation using unlabeled data. In Proc. of EMNLP 2011:970–979. [14] Sun W. 2011. A Stacked Sub-Word Model for Joint Chinese Word Segmentation and Part-of-Speech Tagging. In Proc. of ACL 2011:1385–1394. [15] Yu K., Kawahara D. and Kurohashi S. 2008. Chinese dependency parsing with large scale automatically constructed case structures. In Proc. of COLING 2008:1049–1056. [16] Zhang H., Zhang M., Tan C.L., et al. K-best combination of syntactic parsers. In Proc. of EMNLP 2009:1552–1560. [17] Zhang Y. and Clark S. 2008. A tale of two parsers: investigating and combining graph-based and transition-based dependency parsing using beam-search. In Proc. of EMNLP 2008:562–571. [18] Zhao H. 2009. Character-Level Dependencies in Chinese: Usefulness and Learning. In Proc. of EACL:879–887. 参考文献:篇章级结构分析 [1] Asher N. and Lascarides A. 2003. Logics of Conversation. Cambridge Univ. Press.Cambridge. [2] Balbridge J. and Lascarides A. 2005. Probabilistic head-driven parsing for discourse structure. In Proc. of CoNLL 2005. [3] Beaugrande R. D. and Dressler W. 1981 Introduction to Text Linguistics. London: Longman. [4] Carlson L., Marcu D. and Okurowski M. 2003. Building a Discourse-tagged Corpus in the Framework of RST. In J. van Kuppevelt and R. Smith (eds). Current Directions in Discourse. New York: Kluwer. [5] DuVerle D. and Helmut P. 2009. A Novel Discourse Parser Based on Support Vector Machine Classification. In Proc. of ACL-IJCNLP 2009. [6] Forbes K., Miltsakaki E., Prasad R., Sarkar A., Joshi A. K. and Webber B.L. 2003. D-ltag system: Discourse parsing with a lexicalized tree-adjoining grammar. Journal of Logic, Language and Information, 12(3). [7] Gardent C. 1997. Discourse tree adjoining grammars. Technical Report 89, Saarbrücken, Saarbrücken, Germany. From: URL citeseer.ist.psu.edu/gardent98discourse.html [8] Grosz B.J. and Sidner C.L. 1986. Attention, Intentions, and the Structure of Discourse. Computational Linguistics, 12(3). [9] Hernault H., Danushka B. and Mitsuru I. 2010. A Sequential Model for Discourse Segmentation. In Proc. Of CICLing 2010. [10] Hobbs J.R. 1979. Coherence and coreference. Cognitive Science, 3(1). [11] Mann W. C. and Thompson S.A. 1988. Rhetorical Structure Theory: Toward a functional theory of text organization. Text, 8(3). [12] Mann W.C. and Thompson S.A. Relational propositions in discourse. Discourse Processing, 9(1). [13] Marcu D. 1997. The Rhetorical Parsing, Summarization, and Generation of Natural Language Texts. PhD Thesis, Department of Computer Science, University of Toronto. [14] Marcu D. 2000. The Theory and Practice of Discourse Parsing and Summarization. MIT Press. [15] Pitler E., Louis A. and Nenkova A. 2009. Automatic Sense Predication for Implicit Discourse Relations in Text. In Proc. of ACL-IJCNLP 2009. [16] Prasad R., Dinesh N., et al. 2008. The Penn Discourse Treebank 2.0. In Proc. of LREC 2008. [17] Schank R. and Abelson R. 1977. Scripts, Plans, Goals and Understanding. LEA Publishers. [18] Wellner B. 2009. Sequence Models and Ranking Methods for Discourse Parsing. Ph.D. thesis. Brandeis University, USA. [19] Wolf F. and Gibson E. 2005. Representing discourse coherence: A corpus-based study. Computational Linguistics, 31(1). [20] 曹政. 1984. 句群初探. 浙江教育出版社. [21] 乐明. 2006. 汉语财经评论的修辞结构标注及篇章研究. 中国传媒大学博士论文. [22] 乐明. 2008. 汉语篇章修辞结构的标注研究. 中文信息学报. 22(4). [23] 吕叔湘. 1979. 汉语语法分析问题. 商务印书馆. [24] 吴为章,田小琳. 1984. 句群. 上海教育出版社. [25] 邢福义. 2001. 汉语复句研究. 商务出版社. [26] 郑贵友. 2005.汉语篇章分析的兴起与发展. 汉语学习, 2005(5).
/
本文档为【《医学统计学》习题解答(最佳选择题和简答题)】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索