PowerGREP与语料库加工_严华下载_在线阅读_6

首页 > PowerGREP与语料库加工_严华

is_204063

暂无简介

PowerGREP与语料库加工_严华第 13 3 期 20 10 年 5 月外语电化教学 CAFLE N o M a y 133 20 10 * 版权所有文责自负 * Po w e rG R E P 与语料库加工严华 , , 王立非 , (1 . 扬州大学外国语学院 , 江苏扬州 2 2 5 009 ;2 . 对外经济贸易大学英语学院 , 北京 10 0 0 29) 摘要 : 语料库标注处理是语料库语言学研究中的一个重点和难题。除了词性标注 , 其他各类标注 (包括语义、句法、话语、语用等标注 )均较难实...

第 13 3 期 20 10 年 5 月外语电化教学 CAFLE N o M a y 133 20 10 * 版权所有文责自负 * Po w e rG R E P 与语料库加工严华 , , 王立非 , (1 . 扬州大学外国语学院 , 江苏扬州 2 2 5 009 ;2 . 对外经济贸易大学英语学院 , 北京 10 0 0 29) 摘要 : 语料库标注处理是语料库语言学研究中的一个重点和难题。除了词性标注 , 其他各类标注 (包括语义、句法、话语、语用等标注 )均较难实现批量或自动化生成。本文简述 Po w e‘甩P 的检索、编辑与替换、采集三大功能以及与语料库加工密切相关的正则表达式知识 , 并以批量删除、添加和修改英国国家语料库(B NC) 中语料赋码为例 , 说明如何运用 Po we 峪R E P 对语料库进行自动化或半自动化加工和处理。关键词 : Po w e峪R EP; 正则表达式 ;语料库加工中图分类号 : H 3 19 . 3 文献标识码 : A 文章编号 : 10 0 1 一5 7 9 5 (2 0 10 )0 5 习0 5 7刃0 0 6 无论是语料库的建设 , 还是语料库研究的数据处理 , 我们都需要对语料库进行加工与处理。 Po we ‘ - R E P 是一款基于正则表达式 (re即la r e x p re ss io n )的文件处理与搜索工具软件。与 W o记Sm ith 不同的是 , Po w e峪 R EP 不仅具备检索功能 ,还具备数据编辑、替换以及数据采集等功能。其中 , 检索功能可用于词汇搭配研究、类联接研究 ;数据编辑、替换与采集功能可用于语料库的加工与处理。 Po w e rG R EP 的特色在于正则表达式的运用 , 但正则表达式的专业性让一些语言学研究者认为其过于复杂 , 以致有畏难心理 , 因此 Po w er - G R E P在语料库研究中的应用并不多见。本文简述 Po w e尤R E P 的三大功能以及与语料库加工密切相关的正则表达式知识 , 并以加工和处理英国国家语料库 BN C 为例 , 说明如何运用 Po w er G R E P对语料库进行加工处理 , 以期语料库语言学研究者熟悉和使用此软件 , 促进语料库语言学研究的纵深发展。 1 . 1 信息检索信息检索是语料库研究中最常见的手段之一。利用 Po w er G R E P 进行检索 , 其检索方法主要为文本检索和正则表达式检索 , 前者比较直观、易学 , 但功能比较单一 , 可用于一些简单的检索 ;而后者的掌握需要一定时间的学习 ,但功能强大 , 可用于大型的检索。选择主界面 (图 l) 中的动作标签 (A ct ion ) , 在定义操作类型 (A ct ion typ e )栏的下拉菜单中选择显示搜索匹配 (D isp la y S e ar eh m a te he s ) , 并在定义搜索类型 (Se a r eh typ e )栏的下拉菜单中选择普通文本 (Lite r al te xt )或正则表达式。搜索类型默认为正则表达式 , 如果搜索词为普通检索词 , 软件会自动识别。不同的操 1 Po w e r G R E P 的基本功能本文评介的版本为 Po w e‘R E P 3 . 4 . l( 可从 ht - tp : / / www . p o w e r盯e p . e o而d o wn lo a d . htm l 处下载其评估试用版 , 完全版需另行购买 ) , 该软件主要具备三大功能 :信息检索 , 编辑与替换和数据采集。作者简介 :严华 : 男 , 副教授 , 博士生。研究方向 : 应用语言学。王立非 : 男 , 博士 , 教授 , 博士生导师。研究方向 : 应用语言学、二语习得。收稿日期 : 2 00 9一3 一 19 图 1 Po w e心R E P 主界面严华 , 等 : Po w e尤R EP 与语料库加工作类型与文本类型的确定会显示不同的选项供人们选择 , 如区别大小写(Cas e s e n sitivi ty s earc h ) 、大小写自适应(Ad ap t c as e of re 禅ac e m en t te xt )等。在搜索框中输人检索词或正则表达式 , 点击搜索即可完成检索。 2 . 2 编辑与替换在进行语料分析时 , 研究者们有时需要对语料库中的语料或标注重新进行加工 , 如删除、替换或添加标注等。我们可以使用 Pow e无R EP 的编辑与替换功能来批量完成这些任务。只要在定义操作类型栏的下拉菜单中选择搜索与替换 (Se arc h an d re plac e ) , 并在定义搜索类型栏的下拉菜单中选择普通文本或正则表达式 , 然后在搜索框与替换框上分别输入被替换词与替换词 , 点击替换按钮即可完成文本信息的替换。其编辑功能主要通过内置的编辑器 (E di to r )实现 , 用法类似于 W ind ~ 系统自带的记事本 ,这里不再介绍。 2 . 3 数据采集采集功能是 Po w e rG R EP 的又一特色 , 它的用途是将所有匹配检索词所在的句子保存为一个或多个文件 , 方便研究者根据自己的研究目的或需求对语料进行重新赋码。在定义操作类型栏的下拉菜单中选择采集数据(Co lle ot dat a) , 并在定义搜索类型栏的下拉菜单中选择普通文本或正则表达式。然后 , 在文件区域 (Fil e sec tio苗n g ) 的下拉菜单中选择逐行 (场e b y lin e ) , 并勾选采集或替换所有匹配区域 (Co nec 口Re - plac e w hole sec tio ns ) , 这么做的目的是保证采集结束后所有的匹配结果将以逐行的形式提取并可保存为一个文件。接着 , 设置保存的文件名、文件类型与路径。最后在检索框输人检索词并点击采集 (Co lle ct ) , 完成数据的采集工作。 2 正则表达式简述所谓正则表达式 , 就是用某种模式去匹配一类字符串的公式。它由一些普通字符和 n 个元字符 (m et ac haj ra c ters )组成。普通字符包括大小写的字母和数字 , 而元字符则具有特殊的含义。例如 , 汉语 “ 灰色”在英语中可以写为 g ay 或 gt’e y 。如果我们用一般文本检索的话 , 需要将 gra y 和 gre y分两次填人搜索框并进行两次检索。但如果使用正则表达式 , 我们只需选择搜索类型为正则表达式 , 然后在搜索框中一次输人 gr 【ae 」y就可以了。其中的方括号就是一个正则表达式 , 表示匹配方括号中 a 和 e 任意一个字符。我们于表 1 中列出了所有 n 个元字符 ,并逐一进行解释。在语料库语言学研究中 , 我们需要掌握一些基本的字符组合 , 即元字符和普通字符的组合。 \d 代表「0一」, 即 O 到 9 之间任意一个数字 ; 、w 代表〔A 一Za - z ] , 即 A 到 z 或 a 到 z 之间任意一个字母 ; \s 代表“空白字符 ” (w hite sp a e e eharac ter ) , 包括空格符 (spac e ) 、制表符(tab ) 、回车符 (re tu m )或换行符(n ewli n e ) 。如果将这三个正则表达式中的普通字符由小写改为大写 , 正则表达式的含义恰恰相反。 \D 表示〔‘\d 〕, 即非 0 到 9 之间任意一个数字 ; 、W 表示〔‘\w 」, 即非 A 到 Z 或 a 到 z 之间任意一个字符 ; \S 表示 [ “ \d〕, 即非空元字符表 1 元字符及其功能描述功能描述及举例匹配括号中的任何一个字符。例如 , 正则表达式rl aou 〕t匹配 rat 、以和皿 , 但是不匹配心。我们可以在括号中使用连字符来指定字符的区间 , 如正则表达式【0一〕可以匹配任何数字字符 ;还可以指定多个区间 , 如正则表达式〔A ~Za 一里 ]可以匹配任何大小写字母。〔〕内有多个不同字符或多区间字符时被称作字符集。匹匹匹配字符串或一行的开始。例如 , 正则表达式‘W h e n in 能够匹配字符串W 卜en in tke一 of hum an events 的开始 ,但是不能匹配 W hat an d w h e目 in th e 。但但是是是 , 如果‘用在【〕之内则表示否定。例如 , 正则表达式〔份58 A一〕将匹配除了 3 、5 、 8 和所有大写字母之外的任何字符。。匹匹匹配字符串或行的结束符。例如 . 正则表达式俄毗l 能够匹配字符申H e ’ 。 : ~ l的末尾 , 但是不能匹配字符申肠 e了, a bun e 卜of ~ b 。。匹匹匹配任意单个字符。例如正则表达式 r . t 匹配这些字符申: Iat , rut , rot ,但是不匹配耐。。 IIIII 表示在两个或两个以上选项间进行选择。例如 , 正则表达式 (址m !ber ) 匹配 it occ urs to hi m 和 it oc curs to her 中的拓m 或 ber , 但是不能匹配 it ~ tooo tttttha m 中的 th胭。。 ????? 零次或一次匹配前面的字符。例如 ,正则表达式阅】业 ? r 匹配 c司。世和加 lo r ooo ***** 零次或多次匹配前面的字符。例如 , 正则表达式 ab * 匹配 a ,曲 ,山b 等。。十十十一次或多次匹配前面的字符。例如 , 正则表达式曲十匹配曲 , 曲b ,曲b b 等。。 ((((( 标记一组字符串的开始。。 ))))) 标记一组字符串的结束。。 \\\\\ 引用符或转义符 ,用来将列出的元字符当作普通字符来进行匹配。例如 ,正则表达式、被用来匹配美元符号 ,而不是行尾。同样 , 正则表达式、. 用来匹配点点字字字符 , 而不是任何字符的通配符。严华 , 等 : Po w e‘R EP 与语料库加工格符、制表符、回车符、换行符。值得注意的是 , 如果将这些表示否定的字符组合放在方括号内 , 其意义将发生变化。例如 , 正则表达式【、D 、S」的含义为非数字或者非空格符、制表符、回车符、换行符。换言之 , 它可以匹配任意一个字符 , 包括数字、空格符、制表符、回车符、换行符和字母。而表达式〔、s、d 」的含义为既非数字 ,也非空格符、制表符、回车符或换行符 , 即该表达式匹配任意一个字母。在进行语料库检索中 , 我们还必须了解一些常用字符组合。 \b 匹配单词的前或后边界。例如 , \b ray \b 只能匹配 ray 这个单词(见图 3 . 5 ) , 这样做类似于文本检索中的 w ho le w o记5 o nl y ray , 而 ray \b 则可以匹配以字母 ray 结束的单词 ,如肛a y或者 ray 中的 ray , 但不能匹配 ray age 中的 ray 。这个表达式非常重要 , 在语料库研究中我们可以用 ti on \b 来检索以 tion 为后缀的所有单词 , 也可以使用、bPre 这个表达式来检索所有以 pre 为前缀的单词。又如 , 、A 表示文件的开始。此外 , 在语料库文本处理时还会用到三个不可显示的或非打印的特殊字符、r , \t 和、n , 它们分别代表回车符 , 制表符和换行符。在使用正则表达式的过程中 , 了解以上提及的字符与字符组合 , 我们还要注意优先级顺序。类似于数学表达式求值 , 正则表达式是从左至右按优先级顺序来描述一个字符串的。下表由高到低列出了各种正则表达式操作符的优先级顺序 : 表 2 操作特描述、转义符 () , (? : ) , (? 二 ) , [ ] 圆括号和方括号 * , + , ? , {n } , {n , } , { n , m } 限定符 ‘ , , 、元字符位置和顺序 I “或 ”操作 3 Po we rG R E P 在语料库加工中的应用语料库一般分为标注语料库与非标注语料库或生语料库。语料库语言学研究中非常重要的一环就是对语料库中的标注进行添加、删除或修改。语料库标注不仅包括词性标注 , 还包括句法标注、语义标注、话语标注和语用标注等 (Mey er Z阅 4 ) 。但 , 现有的语料库标注主要为词性标注 , 而由于其他形式的标注自动化赋码比较难以实现 (Hun s to n 2 002 ) , 一般采取人工标注 , 并仅限于一些小型语料库 . 。因此 , 根据不同的研究需求 ,大多时候语料库研究者需要对现有的语料库进行加工与处理。目前能够用于语料库赋码处理的软件为数不多 (如 Miero soft o ffi e e w o rd 和 u ltraE d it一2 等) , Po w e呜 rep 则是其中的一名佼佼者。本文重点举例说明 Po w etG rep 对 BNC 语料库标注进行删除、添加和修改的应用。 3 . 1 删除语料标注假设我们要调查中国大学生记叙文中单词 50 的使用情况 , 选用《中国学生英语口笔语语料库》 (SW ECCL )和《英国国家语料库》(BNC )进行对比研究 (严华 , 200 6 ) 。本研究需要按照 so 的话语功能分类进行标注 , 而后者的语料已进行过词性赋码 , 因此 , 我们需要先删除其原始词性标注。在正式删除词性标注前 , 我们有必要了解一下 BNC 的标注特征。 BNC 的标注一般放在一对尖括号内 , 具体的标注说明可以参照 B NCZ PO S . T昭gi ng G u id e (玩e eh & Sm ith 2 0(X) )和 U se rs R e fe re n e e Gu id e Bri tish N at io n al Co 印u s (B u m ard 199 5 ) , 这里仅补充他们没有提及但我们必须熟悉和了解的一些标注 : ¹ B NC 的文件头标注既包括尖括号内容 , 也包括普通文本 , 只有将之删除才能确保研究者进行词数统计的精确性 ; º 标注 < S n = “ 1” > 中的 s 代表句子 ( sen - te nc e ) , n = “ 1 ”代表第一行 ; » 尖括号内的所有单词的词性标注都是以字母 w 开始的 , 其中 , w 代表单词 wo rd ;¼ 标点符号除双引号外均以字母。开始 ; ½ &bqu 。 ;代表直接引语开始时的双引号 , &eq uo ;代表直接引语结束时的双引号。鉴于以上 B NC 的词性标注特征 , 我们将删除工作分为四步。 ( 1) 删除文件头用 Po w e 峪R EP 自带的编辑器 ( E di to r )打开选取的文件。 BN C 中 < s n 二 “ 1” > 标志正式文本语料开始的第一行 , 此前是对该文本的说明 , 即文件头。因此 , 我们在文本中定位到 < s n 二 “ 1 ” > , 然后删除 < s n 二 ,’l ” > 之前的文件头部分。 ( 2 ) 替换 &b q u o ;与 & e q u o ;为双引号。首先在定义操作类型 ( Act ion t即 e )栏的下拉菜单中选择搜索与替换 ( Se arc h an d re p lac e) , 并在搜索类型 ( Se are h 帅 e )栏的下拉菜单中选择正则表达式 ( R e 即lar e x p re s s io n ) 。然后 , 在搜索栏中输人 & b(Ill o ; 替换栏中输人双引号 , 点击替换按钮 ( Re 禅ac e ) , 将 . 如句法标注语料库Po W ( th e Po l尹e e h n ie of W al esc o甲 u , of 。hil - d re n ’ , s p o ko lan , age ) 。严华 , 等 : Po w er G R EP 与语料库加工 &b qu 。 ;替换成双引号。接着 , 我们采取同样的方法将 & e q u o ; 也替换成双引号。 (3) 替换 < s n 二 “ 1 ” > 等行号为空格。在搜索栏输人正则表达式 < s (一 ? ). > , 将光标插人替换栏 , 敲击两下空格键 , 这样做的目的是为了保持原文的格式 , 即首行缩进两个字符。接着 , 点击替换按钮(R 叩la ce ) , 完成语料中以 S 开头的行号标注的删除工作 (见图 2 ) 。 tio n typ e )栏的下拉菜单中选择采集 (Co lle e t d a ta ) , 并在搜索类型 (Sea rch typ e )栏的下拉菜单中选择正则表达式 (R e即la r e x pre ssio n ) 。然后 , 勾选 G r o u p re s ults fo r all fi le s 与 G r o u p id e n tie a l m a teh e s 两个选项 , 并在搜索栏中输人检索词 so 的正则表达式、bs 。、b . 。接着 , 在文件区域 (Fi le sec ti on ing )的下拉菜单中选择逐行 (Li n e by lin e ) , 并勾选采集或替换所有匹配区域 (Co l- le e“R epla e e w h o le s e e rio n s ) , 这样保证采集结束后所有的匹配结果将以逐行的形式提取并可保存为一个文件。在采集之前还需预先设置文件保存的类型和路径。因此 , 我们在创建目标文件 (Ta 嗯 e t Fil。 Cre a tio 。 ) 中选择将结果保存为单个文件 (Sa v e re s u lts in to a sin - gle fi le ) ,然后在目标文件地址 (T a吧e t file lo e a tio n )处填人保存文件名与路径 , 如 D : 、我的文挡、S O . txt 。最后 , 点击采集按钮 (Coll ec t )即可得到所有包含单词。。的句子。图 2 行号替换为空格后效果图 (4 ) 删除其余所有标注。在搜索栏中输人正则表达式 < (一 ?) > , 替换栏留空 , 然后点击替换按钮 (R eP lac e ) , 完成其余他所有标注的删除。我们用编辑器 (E di to r )查看最终的编辑效果。如图 3 所示 , 一个干净可读的文本展示在我们面前 , 将之直接保存即可。图 4 采集检索词 S 。所在句子图 3 处理后的干净文本 3 . 2 添加语料标注删除了 BNC 语料中的标注之后 , 接下来我们就可以按单词 so 的话语功能对中国学习者语料和 BN C 语料重新进行标注。我们需要先采集所有包含单词 so 的句子 , 然后利用 Po * 诏R EP 的编辑器功能进行人工赋码。 (l) 采集如图 4 所示 ,我们首先选择在定义操作类型 (A c - (2 ) 标注我们用 Po w e‘R EP 自带的编辑器 (E d iro r )打开刚刚采集并保存的文档。如图 5 所示 , 每行都只有一个单词 so ,这样既方便了赋码操作 , 又节省了我们研究者的时间。限于篇幅 , 具体的赋码过程在此不一一叙述。 BNC 语料赋码结束后 , 我们重复以上步骤对 SW E CCL 进行标注 , 这样就完成了单词 so 研究分析前的标注工作。 3 . 3 修改语料标注 Po w e峪 R E P 还可用来修改语料标注。语料标注的修改大致出于两种原因 :标注调整和赋码纠正。 3 . 3 . 1 标注调整研究过程中有时会因分析需要或新问题的出现对 . 正则表达式 (, * ?) 表示所有任意字符组合。 . \h so 、b 只能匹配单词、o , 这样做类似于文本检索中的 w ho le w o rd s o n ly 。严华 , 等 : Po w e‘R E P 与语料库加工图 5 标注采集结果标注进行相应调整。假设我们以 BNC 为参照语料库 , 调查中国学习者口语中 ca n 和 co ul d 的使用情况。我们将情态动词 Can 和 co ul d 按语义分为三类 : 知识情态、道义情态和动力情态 , 并分别对所选语料进行标注 (谈言玲 2 0 0 7 ) 。对比分析后发现 , C a n 和 Co u ld 的动力情态在这三类语义分布中占主导地位 , 并且中国学习者和本族语使用者在使用 C an 和 C ou ld 的动力情态频数. 上存在显著性差异。为了探求这一差异的原因 , 我们需要对语料中 Can 和 Cou kl 的动力情态标注做进一步分类细化。标注调整的具体过程分为两步 : ¹ 采集包含所有标注为动力情态。an 和 C ou ld 的语句 ; º 利用 Po w er G R EP 的编辑器进行重新标注。具体做法可参照本文 4 . 2 , 这里不再赘述。 3 . 3 . 2 赋码纠正自动词性赋码往往会出现一些错误 , 这就需要我们对其进行纠正。语料库词性标注尽管能够通过某些软件自动化实现 , 而且据称其标注准确率超过 90 % ( B ib e : e t 。1 . 19 9 5 ) , 但众所周知 , 英语中部分词汇词性单一 , 部分词汇具备多种词性 , 计算机进行词性标注主要是依据英语的词序确定 , 而句法的灵活多变性可能会造成标注软件对词性的误判。这就是说 , 标注软件对某些单词的标注准确率可以达到 ro o % , 而对其他某些单词标注准确率可能只有 70 % , 但总体平均准确率可以达到 9 0 % ( H u n s to n 20 02 ) 。 Po w e r G R E P 能够帮助我们有效地对具备多种词性的单词标注重新进行人工检查与替换。我们仍以 BN C 的语料标注为例。 BN C 中有部分语料标注属错误标注 , 还有 30 个待确定标注 ( Am bi gu - ity ta g ) , 如标注 AJo 一NNI 表示某词的词性可能为形容词 , 也可能为名词 ,但形容词的可能性稍大于名词的可能性。单词 h gh t 在 BN C 中一般被标注为形容词 < w A JO > , 名词 < w N N I > 或动词 < w V V B > 等。下面就以其为例来说明标注的修改 , 共分两步进行。 ( l) 检索匹配对象首先 , 用 Po w e G R E P程序打开 BN C 中 AMC 这一文件。然后 , 点击动作标签 “ Act ion ” , 在定义操作类型 (Ac tio n tyPe )栏的下拉菜单中选择显示检索匹配 ( Di s - p lay S e a r e h m a te h ) , 在检索类型 ( Se ar e h typ e )栏的下拉菜单中选择正则表达式 ( R e g u la r e x p r e s s io n ) , 最后在搜索栏输人检索词 h gh t 的正则表达式、bli gh t. , 并点击预览按钮 ( Pr e v i e w ) 或搜索按钮 ( Se a rc h )执行检索。检索结果显示 10 个匹配对象 , 其中有 2 个未确定标注和 1 个漏注 , 并皆以高亮显示。 ( 2) 修改语料标注鼠标左键双击第一个高亮显示的 hgh t , 软件将自动转到编辑器模式 , 进人编辑修改状态。 h gh t ra记中的 h gh t 被标注为待确定标注 < w A」0 一NN I > ( 见图 6 ) ,其实际表达的含义为“ 小规模空袭 ” , 标注应修改为 < w AJO > 。修改完毕后点击编辑器中的下一个匹配 ( N e x t m a te h )或按键盘上的 F6 , 查找 ligh t 的第二个待确定标注并完成其标注修改。至于漏注 , 在编辑器直接添加词性标注即可。图 6 h gh t 词性标注的编辑状态 4 结语在语料库建设和语料库语言学研究中 , 语料库的加工是进行信息处理、奠定基础的工作。借助一些简单的正则表达式 . , Po w er G R E P 可用来实现语料库的自动化或半自动化加工和处理。除此之外 , 它还具备其他众多检索软件难以媲美的优势 , 如可用做词汇搭 . 此处频数指的是

标准

excel标准偏差 excel标准偏差函数 exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载

化频数( n oo al iz e dfre q u e n e y) 。 . 正则表达式\l, lig h t 表示匹配 ligh t 、 lig ht s 、 lig ht e d 、lightin g 、 ligh te r 和 1ig hte s r 等。 . 如想了解正则表达式的其他用法 , 可访问 htt p :刀~ re gu Lar - e x Pre s s io n s . in fo 严华 , 等 : Po w er G R E P 与语料库加毛 ,一.J,‘Jes一、20厂LFesesL配、类联接 ( 孙海燕 , 陈永捷 , 2 006 ; 杨惠中 , 卫乃兴 , 2 005 )等研究。因而 , Po w e峪R E P 在语料库建设和语料库语言学研究中具有广阔的推广和应用前景。口参考文献 B ibe r , D , e t al . Co 甲。 l:鳍u 钻t i。仁M ] . C a m bri dg e : Ca m - b ri d g e U n i v e rs ity Pr e s s . 1 99 8 . B u ri , a rd , 1 . Us e rs r月爪三re , , e e g u ide : B r it is h Na t io n a l Co 甲。 [ M」. o xfo r d : o x fo rd t{ :, iv e r s ity p re s s . 199 5 · H u n s to n , 5 Co 甲o ra i n 卿li e d lin 邵 , is rics 犯M」. Ca m b ri d g e : C a m br id g e U n i v e r , ity Pre s s , 2 002 . 厅e e h , G . & s m ith , N . BN e Z p O S一 ta路in g Ma n u a l【W E / ( )L l , 2《兀旧 < www . n a te o 几) . o x . a e . u k/ doc s / bn e Z即id e . htm > [ 7 〕 [ 8 〕 [ 9 〕 M e ye r , C . E吧lish e o , 。 11咭u is t ics : a n i n ‘ro d uc tio n 〔M」. Ca n lb r id g e : Ca m b ri dg e U n iv e rs ity Pre ss , 2《X)4 . 孙海燕 , 陈永捷 . 中国英语学习者名词类联接的发展特征 :基于赋码语料库的研究〔J〕. 外语教学与研究 , 20() 6 ( 4 ) :2 72 一 2 78 . 谈言玲 . A Co印u s一 Ba se d s tu d y o fM o dal V e th s C a n , C o u一d , m ay , m ight i n Chi n e se 块a rn e r s ’ Spo k e n E n g lis h〔A〕. U n - p u b lis he d M A T h e s i s . Ya n g zho u U n i ve r s ity , 20() 7 . 严华 . A Co甲u s 一 B a s e d s tu d y o f “ 5 0 ” in Chin e s e Le a m - e rs ’ Sp o ke n a n d W ri t t e r, E n g li sh 〔A 」. Un p u blish e d MA T he s i s . Na nj i n g U n i ve rs ity , 2 (X) 6 . 杨惠中 , 卫乃兴 . 中国学习者英语口语语料库建设与研究 [ M〕. 上海 : 上海外语教育出版社 , 200 5 . , .J I, esesJ, .ee 气eses 1,山内j4r ‘fes广 .L户es.L Po w e rG R EP a n d C o rPu s Pr o e e s s i n g 州刀刀“忍 , , 洲lv ‘乙i一i , ( 1 . Se ho o l o f Fo r e ig n la n gU a g e s , Y a n g z ho u U n iv e r s ity . Yan g z ho u 2 2 5 0 0 9 , C hi n a ; 2 · U , , iv e rs ity o f In te rn a tio n a l B u s in e s s a n d E e o n o m i e s , B e iji n g 10 0 0 2 9 , C hi n a ) A b str a c t : Co 印u s a n n o ta tio n 15 a n im p o rt a n t bu t d iffi e u lt e o m p o n e n t in d o i n g e o 中u s li n即 is ti e s r e s e a re h . Pre se n tly all tyve s o f a n n o ta tio n s b u t the a n n o ta tio n o f w o r d e la s s e a n n o t b e a llo e at e d a u to m a ti e ally o r s e m i 一 a u to m at i e ally . T his a rt ie le d e s e ri b e s the thr e e m a in fo n e tio n s o f Po w e rG R EP : e o n e o rd a n e e , s u b stitu tio n a n d e o lle e tio n . T he n , it g iv e s a bri e f in tro d u e tio n to 比别la r e x p r e s s io n s e lo s e ly re le v a n t to e o印 u s p ro e e s s i n g , a n d fi n ally p re s e n ts ho w Po w e rG R EP 15 o p - e r at e d an d a Pp li e d in e o 印 u s Pro e e s s i n g , ho ld i n g u p the d a ta i n BNC a s a n e x am Ple . K e y w o r d s : Po w e r G R E P : R e g u la r E x p r e ss io n ; Co rp u s Pro e e s s in g 62

本文档为【PowerGREP与语料库加工_严华】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。

PowerGREP与语料库加工_严华

热门搜索

历史搜索