为了正常的体验网站,请在浏览器设置里面开启Javascript功能!
首页 > PowerGREP与语料库加工_严华

PowerGREP与语料库加工_严华

2013-05-19 6页 pdf 1MB 77阅读

用户头像

is_204063

暂无简介

举报
PowerGREP与语料库加工_严华 第 13 3 期 20 10 年 5 月 外语 电化教学 CAFLE N o M a y 133 20 10 * 版权所有 文责自负 * Po w e rG R E P 与语料库加工 严 华 , , 王 立非 , (1 . 扬州大学 外国语学院 , 江苏扬州 2 2 5 009 ;2 . 对外经济贸易大学 英语学院 , 北京 10 0 0 29) 摘 要 : 语料库标注处理是语料库语言学研究中的一个重点和难题 。 除 了词性标 注 , 其他各类标 注 (包括语义 、 句法 、话语 、语用等标 注 )均较难实...
PowerGREP与语料库加工_严华
第 13 3 期 20 10 年 5 月 外语 电化教学 CAFLE N o M a y 133 20 10 * 版权所有 文责自负 * Po w e rG R E P 与语料库加工 严 华 , , 王 立非 , (1 . 扬州大学 外国语学院 , 江苏扬州 2 2 5 009 ;2 . 对外经济贸易大学 英语学院 , 北京 10 0 0 29) 摘 要 : 语料库标注处理是语料库语言学研究中的一个重点和难题 。 除 了词性标 注 , 其他各类标 注 (包括语义 、 句法 、话语 、语用等标 注 )均较难实现批量或 自动化生成 。 本文简述 Po w e‘甩P 的检索 、 编辑与替换 、采集三大功能以及与语料库加工密切相关的正则表达式知识 , 并以批量删除 、添加和修改 英国国家语料库(B NC) 中语料赋码为例 , 说明如何运用 Po we 峪R E P 对语料库进行 自动化或半 自动化加 工和处理 。 关键词 : Po w e峪R EP; 正则表达式 ;语料库加工 中图分类号 : H 3 19 . 3 文献标识码 : A 文章编号 : 10 0 1 一5 7 9 5 (2 0 10 )0 5 习0 5 7刃0 0 6 无论是语料库的建设 , 还是语料库研究的数据处 理 , 我们都需要对语料库进行加工与处理 。 Po we ‘ - R E P 是一款基于正则表达式 (re即la r e x p re ss io n )的文 件处理与搜 索工具软件 。 与 W o记Sm ith 不同的是 , Po w e峪 R EP 不仅具备检索功能 ,还具备数据编辑 、替换 以及数据采集等功能 。 其中 , 检索功能可用于词汇搭 配研究 、类联接研究 ;数据编辑 、替换与采集功能可用 于语料库的加工与处理 。 Po w e rG R EP 的特色在于正则 表达式的运用 , 但正则表达式的专业性让一些语言学 研究者认为其过于复杂 , 以致有畏难心理 , 因此 Po w er - G R E P在语料库研究中的应用并不多见 。 本文简述 Po w e尤R E P 的三大功能以及与语料库 加工密切相关的正则表达式知识 , 并以加工和处理英 国国家语料库 BN C 为例 , 说明如何运用 Po w er G R E P对 语料库进行加工处理 , 以期语料库语言学研究者熟悉 和使用此软件 , 促进语料库语言学研究的纵深发展 。 1 . 1 信息检索 信息检索是语料库研究中最常见的手段之一 。 利 用 Po w er G R E P 进行检索 , 其检索方法主要为文本检索 和正则表达式检索 , 前者比较直观 、易学 , 但功能比较 单一 , 可用于一些简单的检索 ;而后者的掌握需要一定 时间的学习 ,但功能强大 , 可用于大型的检索 。 选择主界 面 (图 l) 中的动作标签 (A ct ion ) , 在定 义操作类型 (A ct ion typ e )栏的下拉菜单中选择显示搜 索匹配 (D isp la y S e ar eh m a te he s ) , 并在定义搜索类型 (Se a r eh typ e )栏的下拉菜单中选择普通文本 (Lite r al te xt )或正则表达式 。 搜索类型默认为正则表达式 , 如 果搜索词为普通检索词 , 软件会自动识别 。 不同的操 1 Po w e r G R E P 的基本功能 本文评介的版本为 Po w e‘R E P 3 . 4 . l( 可从 ht - tp : / / www . p o w e r盯e p . e o而d o wn lo a d . htm l 处下载其评 估试用版 , 完全版需另行购买 ) , 该软件主要具备三大 功能 :信息检索 , 编辑与替换和数据采集 。 作者简介 :严 华 : 男 , 副教授 , 博士 生。 研究方 向 : 应用语言学。 王 立非 : 男 , 博士 , 教授 , 博士生导师 。 研究方向 : 应用语言学 、二语习得 。 收稿 日期 : 2 00 9一3 一 19 图 1 Po w e心R E P 主界面 严 华 , 等 : Po w e尤R EP 与语料库加工 作类型与文本类型的确定会显示不同的选项供人们选 择 , 如区别大小写(Cas e s e n sitivi ty s earc h ) 、大小写自适 应(Ad ap t c as e of re 禅ac e m en t te xt )等 。 在搜索框中输 人检索词或正则表达式 , 点击搜索即可完成检索 。 2 . 2 编辑与替换 在进行语料分析时 , 研究者们有时需要对语料库 中的语料或标注重新进行加工 , 如删除 、替换或添加标 注等 。 我们可以使用 Pow e无R EP 的编辑与替换功能 来批量完成这些任务。 只要在定义操作类型栏的下拉 菜单中选择搜索与替换 (Se arc h an d re plac e ) , 并在定 义搜索类型栏的下拉菜单中选择普通文本或正则表达 式 , 然后在搜索框与替换框上分别输入被替换词与替 换词 , 点击替换按钮即可完成文本信息的替换 。 其编 辑功能主要通过内置的编辑器 (E di to r )实现 , 用法类 似于 W ind ~ 系统自带的记事本 ,这里不再介绍 。 2 . 3 数据采集 采集功能是 Po w e rG R EP 的又一特色 , 它的用途是 将所有匹配检索词所在的句子保存为一个或多个文 件 , 方便研究者根据 自己的研究 目的或需求对语料进 行重新赋码 。 在定义操作类型栏的下拉菜单中选择采 集数据(Co lle ot dat a) , 并在定义搜索类型栏的下拉菜 单中选择普通文本或正则表达式 。 然后 , 在文件区域 (Fil e sec tio苗n g ) 的下拉菜单中选择逐行 (场e b y lin e ) , 并勾选采集或替换所有匹配区域 (Co nec 口Re - plac e w hole sec tio ns ) , 这么做的 目的是保证采集结束 后所有的匹配结果将以逐行的形式提取并可保存为一 个文件。 接着 , 设置保存的文件名 、文件类型与路径 。 最后在检索框输人检索词并点击采集 (Co lle ct ) , 完成 数据的采集工作 。 2 正则表达式简述 所谓正则表达式 , 就是用某种模式去匹配一类字 符串的公式 。 它 由一些普通字符和 n 个元字符 (m et ac haj ra c ters )组成 。 普通字符包括大小写的字母和 数字 , 而元字符则具有特殊的含义 。 例如 , 汉语 “ 灰 色”在英语中可 以写为 g ay 或 gt’e y 。 如果我们用一般 文本检索的话 , 需要将 gra y 和 gre y分两次填人搜索框 并进行两次检索。 但如果使用正则表达式 , 我们只需 选择搜索类型为正则表达式 , 然后在搜索框中一次输 人 gr 【ae 」y就可以了 。 其中的方括号就是一个正则表 达式 , 表示匹配方括号中 a 和 e 任意一个字符。 我们 于表 1 中列出了所有 n 个元字符 ,并逐一进行解释 。 在语料库语言学研究中 , 我们需要掌握一些基本 的字符组合 , 即元字符和普通字符的组合 。 \d 代表 「0一」, 即 O 到 9 之间任意一个数字 ; 、w 代表〔A 一Za - z ] , 即 A 到 z 或 a 到 z 之间任意一个字母 ; \s 代表“空 白字符 ” (w hite sp a e e eharac ter ) , 包括空格符 (spac e ) 、 制表符(tab ) 、回车符 (re tu m )或换行符(n ewli n e ) 。 如 果将这三个正则表达式中的普通字符由小写改为大 写 , 正则表达式的含义恰恰相反 。 \D 表示〔‘\d 〕, 即非 0 到 9 之间任意一个数字 ; 、W 表示〔‘\w 」, 即非 A 到 Z 或 a 到 z 之间任意一个字符 ; \S 表示 [ “ \d〕, 即非空 元字符 表 1 元字符及其功能描述 功能描述及举例 匹配括号中的任何一个字符 。 例如 , 正则表达式rl aou 〕t匹配 rat 、以 和皿 , 但是不匹配心 。 我们可以在括号中使用连字符来指定字符的区间 , 如正则表 达式【0一〕可以匹配任何数字字符 ;还可以指定多个区间 , 如正则表达式〔A ~Za 一里 ]可以匹配任何大小写字母 。 〔〕内有多个不同字符或多区间字符时被称 作字符集 。 匹匹匹配字符串或一行的开始。 例如 , 正则表达式‘W h e n in 能够匹配字符串W 卜en in tke一 of hum an events 的开始 ,但是不能匹配 W hat an d w h e目 in th e 。 但但是是是 , 如果‘用在【〕之内则表示否定 。 例如 , 正则表达式〔份58 A一〕将匹配除了 3 、5 、 8 和所有大写字母之外的任何字符。。 匹匹匹配字符串或行的结束符 。 例如 . 正则表达式 俄毗l 能够匹配字符申H e ’ 。 : ~ l的末尾 , 但是不能匹配字符申肠 e了, a bun e 卜of ~ b 。。 匹匹匹配任意单个字符 。 例如正则表达式 r . t 匹配这些字符申: Iat , rut , rot ,但是不匹配耐 。。 IIIII 表示在两个或两个以上选项间进行选择 。 例如 , 正则表达式 (址m !ber ) 匹配 it occ urs to hi m 和 it oc curs to her 中的拓m 或 ber , 但是不能匹配 it ~ tooo tttttha m 中的 th胭 。。 ????? 零次或一次匹配前面的字符。 例如 ,正则表达式 阅】业 ? r 匹配 c司。世 和加 lo r ooo ***** 零次或多次匹配前面的字符 。 例如 , 正则表达式 ab * 匹配 a ,曲 ,山b 等。。 十十十 一次或多次匹配前面的字符 。 例如 , 正则表达式 曲 十匹配曲 , 曲b ,曲b b 等 。。 ((((( 标记一组字符串的开始 。。 ))))) 标记一组字符串的结束 。。 \\\\\ 引用符或转义符 ,用来将列出的元字符当作普通字符来进行匹配 。 例如 ,正则表达式、被用来匹配美元符号 ,而不是行尾 。 同样 , 正则表达式、. 用来匹配点点 字字字符 , 而不是任何字符的通配符 。 严 华 , 等 : Po w e‘R EP 与语料库加工 格符 、制表符 、回车符 、换行符 。 值得注意的是 , 如果将 这些表示否定的字符组合放在方括号内 , 其意义将发 生变化 。 例如 , 正则表达式【、D 、S」的含义为非数字 或者非空格符 、制表符 、回车符 、换行符 。 换言之 , 它可 以匹配任意一个字符 , 包括数字 、空格符 、制表符 、回车 符 、换行符和字母 。 而表达式〔、s、d 」的含义为既非数 字 ,也非空格符 、制表符 、回车符或换行符 , 即该表达式 匹配任意一个字母 。 在进行语料库检索中 , 我们还必须了解一些常用 字符组合。 \b 匹配单词的前或后边界 。 例如 , \b ray \b 只能匹配 ray 这个单词(见图 3 . 5 ) , 这样做类似于文本 检索中的 w ho le w o记5 o nl y ray , 而 ray \b 则可以匹配 以 字母 ray 结束的单词 ,如 肛a y或者 ray 中的 ray , 但不能 匹配 ray age 中的 ray 。 这个表达式非常重要 , 在语料库 研究中我们可以用 ti on \b 来检索以 tion 为后缀的所有 单词 , 也可以使用、bPre 这个表达式来检索所有以 pre 为前缀的单词 。 又如 , 、A 表示文件的开始 。 此外 , 在 语料库文本处理时还会用到三个不可显示的或非打印 的特殊字符、r , \t 和、n , 它们分别代表回车符 , 制表符 和换行符。 在使用正则表达式的过程中 , 了解以上提及的字 符与字符组合 , 我们还要注意优先级顺序 。 类似于数 学表达式求值 , 正则表达式是从左至右按优先级顺序 来描述一个字符串的 。 下表由高到低列出了各种正则 表达式操作符的优先级顺序 : 表 2 操作特 描述 、 转义符 () , (? : ) , (? 二 ) , [ ] 圆括号和方括号 * , + , ? , {n } , {n , } , { n , m } 限定符 ‘ , , 、元字符 位置和顺序 I “或 ”操作 3 Po we rG R E P 在语料库加工中的应用 语料库一般分为标注语料库与非标注语料库或生 语料库 。 语料库语言学研究中非常重要的一环就是对 语料库中的标注进行添加 、删除或修改。 语料库标注 不仅包括词性标注 , 还包括句法标注 、语义标注 、话语 标注和语用标注等 (Mey er Z阅 4 ) 。 但 , 现有的语料库 标注主要为词性标注 , 而由于其他形式的标注 自动化 赋码比较难以实现 (Hun s to n 2 002 ) , 一般采取人工标 注 , 并仅限于一些小型语料库 . 。 因此 , 根据不同的研 究需求 ,大多时候语料库研究者需要对现有的语料库 进行加工与处理 。 目前能够用于语料库赋码处理的软 件为数不多 (如 Miero soft o ffi e e w o rd 和 u ltraE d it一2 等) , Po w e呜 rep 则是其中的一名佼佼者 。 本文重点举 例说明 Po w etG rep 对 BNC 语料库标注进行删除 、添加 和修改的应用 。 3 . 1 删除语料标注 假设我们要调查中国大学生记叙文中单词 50 的 使用 情况 , 选 用 《中国学生英 语 口 笔 语语 料库》 (SW ECCL )和《英国国家语料库》(BNC )进行对 比研 究 (严华 , 200 6 ) 。 本研究需要按照 so 的话语功能分类 进行标注 , 而后者的语料已进行过词性赋码 , 因此 , 我 们需要先删除其原始词性标注 。 在正式删除词性标注前 , 我们有必要 了解一下 BNC 的标注特征 。 BNC 的标注一般放在一对尖括号 内 , 具体 的标 注说 明可 以 参 照 B NCZ PO S . T昭gi ng G u id e (玩e eh & Sm ith 2 0(X) )和 U se rs R e fe re n e e Gu id e Bri tish N at io n al Co 印u s (B u m ard 199 5 ) , 这里仅补充他 们没有提及但我们必须熟悉和了解的一些标注 : ¹ B NC 的文件头标注既包括尖括号内容 , 也包括普通文 本 , 只有将之删除才能确保研究者进行词数统计的精 确性 ; º 标注 < S n = “ 1” > 中的 s 代表句子 ( sen - te nc e ) , n = “ 1 ”代表第一行 ; » 尖括号内的所有单词 的词性标注都是以字母 w 开始的 , 其中 , w 代表单词 wo rd ;¼ 标点符号除双引号外均以字母 。 开始 ; ½ &bqu 。 ;代表直接引语开始时的双引号 , &eq uo ;代表直 接引语结束时的双引号 。 鉴于以上 B NC 的词性标注 特征 , 我们将删除工作分为四步 。 ( 1) 删除文件头 用 Po w e 峪R EP 自带的编辑器 ( E di to r )打开选取的 文件 。 BN C 中 < s n 二 “ 1” > 标志正式文本语料开始的 第一行 , 此前是对该文本的说明 , 即文件头 。 因此 , 我 们在文本中定位到 < s n 二 “ 1 ” > , 然后删除 < s n 二 ,’l ” > 之前的文件头部分 。 ( 2 ) 替换 &b q u o ;与 & e q u o ;为双引号 。 首先在定义操作类型 ( Act ion t即 e )栏的下拉菜单 中选择搜索与替换 ( Se arc h an d re p lac e) , 并在搜索类 型 ( Se are h 帅 e )栏 的下拉菜单 中选择正则表达式 ( R e 即lar e x p re s s io n ) 。 然后 , 在搜索栏中输人 & b(Ill o ; 替换栏 中输人双引号 , 点击替换按钮 ( Re 禅ac e ) , 将 . 如句法标注语料库Po W ( th e Po l尹e e h n ie of W al esc o甲 u , of 。hil - d re n ’ , s p o ko lan , age ) 。 严 华 , 等 : Po w er G R EP 与语料库加工 &b qu 。 ;替换成双引号 。 接着 , 我们采取同样的方法将 & e q u o ; 也替换成双引号 。 (3) 替换 < s n 二 “ 1 ” > 等行号为空格 。 在搜索栏输人正则表达式 < s (一 ? ). > , 将光标 插人替换栏 , 敲击两下空格键 , 这样做的目的是为了保 持原文的格式 , 即首行缩进两个字符 。 接着 , 点击替换 按钮(R 叩la ce ) , 完成语料中以 S 开头的行号标注的删 除工作 (见图 2 ) 。 tio n typ e )栏的下拉菜单中选择采集 (Co lle e t d a ta ) , 并 在搜索类型 (Sea rch typ e )栏的下拉菜单中选择正则表 达式 (R e即la r e x pre ssio n ) 。 然后 , 勾选 G r o u p re s ults fo r all fi le s 与 G r o u p id e n tie a l m a teh e s 两个选项 , 并在搜索 栏中输人检索词 so 的正则表达式、bs 。、b . 。 接着 , 在 文件区 域 (Fi le sec ti on ing )的下拉菜单中选择逐行 (Li n e by lin e ) , 并勾选采集或替换所有匹配区域 (Co l- le e“R epla e e w h o le s e e rio n s ) , 这样保证采集结束后所 有的匹配结果将以逐行的形式提取并可保存为一个文 件 。 在采集之前还需预先设置文件保存的类型和路 径 。 因此 , 我们在创建 目标文件 (Ta 嗯 e t Fil。 Cre a tio 。 ) 中选择将结果保存为单个文件 (Sa v e re s u lts in to a sin - gle fi le ) ,然后在 目标文件地址 (T a吧e t file lo e a tio n )处 填人保存文件名与路径 , 如 D : 、我的文挡 、S O . txt 。 最 后 , 点击采集按钮 (Coll ec t )即可得到所有包含单词 。。 的句子 。 图 2 行号替换为空格后效果图 (4 ) 删除其余所有标注 。 在搜索栏中输人正则表达式 < (一 ?) > , 替换栏 留空 , 然后点击替换按钮 (R eP lac e ) , 完成其余他所有 标注的删除 。 我们用编辑器 (E di to r )查看最终的编辑 效果 。 如图 3 所示 , 一个干净可读的文本展示在我们 面前 , 将之直接保存即可 。 图 4 采集检索词 S 。所在句子 图 3 处理后的干净文本 3 . 2 添加语料标注 删除了 BNC 语料中的标注之后 , 接下来我们就可 以按单词 so 的话语功能对中国学习者语料和 BN C 语 料重新进行标注 。 我们需要先采集所有包含单词 so 的句子 , 然后利用 Po * 诏R EP 的编辑器功能进行人工 赋码 。 (l) 采集 如图 4 所示 ,我们首先选择在定义操作类型 (A c - (2 ) 标注 我们用 Po w e‘R EP 自带的编辑器 (E d iro r )打开刚 刚采集并保存的文档 。 如 图 5 所示 , 每行都只有一个 单词 so ,这样既方便了赋码操作 , 又节省了我们研究者 的时间 。 限于篇幅 , 具体的赋码过程在此不一一叙述 。 BNC 语料赋码结束后 , 我们重复以上步骤对 SW E CCL 进行标注 , 这样就完成了单词 so 研究分析前的标注工 作 。 3 . 3 修改语料标注 Po w e峪 R E P 还可用来修改语料标注 。 语料标注的 修改大致出于两种原因 :标注调整和赋码纠正 。 3 . 3 . 1 标注调整 研究过程中有时会因分析需要或新问题的出现对 . 正则表达式 (, * ?) 表示所有任意字符组合。 . \h so 、b 只能匹 配单词 、o , 这样做类似于文本检索中的 w ho le w o rd s o n ly 。 严 华 , 等 : Po w e‘R E P 与语料库加工 图 5 标注采集结果 标注进行相应调整 。 假设我们以 BNC 为参照语料库 , 调查中国学习者 口语中 ca n 和 co ul d 的使用情况 。 我 们将情态动词 Can 和 co ul d 按语义分为三类 : 知识情 态 、道义情态和动力情态 , 并分别对所选语料进行标注 (谈言玲 2 0 0 7 ) 。 对比分析后发现 , C a n 和 Co u ld 的动 力情态在这三类语义分布中占主导地位 , 并且中国学 习者和本族语使用者在使用 C an 和 C ou ld 的动力情态 频数. 上存在显著性差异 。 为了探求这一 差异的原 因 , 我们需要对语料中 Can 和 Cou kl 的动力情态标注做 进一步分类细化 。 标注调整的具体过程分为两步 : ¹ 采集包含所有标注为动力情态 。an 和 C ou ld 的语句 ; º 利用 Po w er G R EP 的编辑器进行重新标注 。 具体做法 可参照本文 4 . 2 , 这里不再赘述 。 3 . 3 . 2 赋码纠正 自动词性赋码往往会出现一些错误 , 这就需要我 们对其进行纠正 。 语料库词性标注尽管能够通过某些 软件自动化实现 , 而且据称其标注准确率超过 90 % ( B ib e : e t 。1 . 19 9 5 ) , 但众所周知 , 英语中部分词汇词 性单一 , 部分词汇具备多种词性 , 计算机进行词性标注 主要是依据英语的词序确定 , 而句法的灵活多变性可 能会造成标注软件对词性的误判 。 这就是说 , 标注软 件对某些单词 的标注准确率可 以达到 ro o % , 而对其 他某些单词标注准确率可能只有 70 % , 但总体平均准 确率可以达到 9 0 % ( H u n s to n 20 02 ) 。 Po w e r G R E P 能够 帮助我们有效地对具备多种词性的单词标注重新进行 人工检查与替换 。 我们仍以 BN C 的语料标注为例 。 BN C 中有部分 语料标注属错误标注 , 还有 30 个待确定标注 ( Am bi gu - ity ta g ) , 如标注 AJo 一NNI 表示某词的词性可能为形容 词 , 也可能为名词 ,但形容词的可能性稍大于名词的可 能性 。 单词 h gh t 在 BN C 中一般被标注为形容词 < w A JO > , 名词 < w N N I > 或动词 < w V V B > 等 。 下面就 以其为例来说明标注的修改 , 共分两步进行 。 ( l) 检索匹配对象 首先 , 用 Po w e G R E P程序打开 BN C 中 AMC 这一 文件 。 然后 , 点击动作标签 “ Act ion ” , 在定义操作类型 (Ac tio n tyPe )栏的下拉菜单中选择显示检索匹配 ( Di s - p lay S e a r e h m a te h ) , 在检索类型 ( Se ar e h typ e )栏的下拉 菜单中选择正则表达式 ( R e g u la r e x p r e s s io n ) , 最后在 搜索栏输人检索词 h gh t 的正则表达式 、bli gh t. , 并点 击预览按钮 ( Pr e v i e w ) 或搜索按钮 ( Se a rc h )执行检索 。 检索结果显示 10 个匹配对象 , 其中有 2 个未确定标注 和 1 个漏注 , 并皆以高亮显示 。 ( 2) 修改语料标注 鼠标左键双击第一个高亮显示的 hgh t , 软件将 自 动转到编辑器模式 , 进人编辑修改状态 。 h gh t ra记 中 的 h gh t 被标注为待确定标注 < w A」0 一NN I > ( 见 图 6 ) ,其实际表达的含义为“ 小规模空袭 ” , 标注应修改 为 < w AJO > 。 修改完毕后点击编辑器中的下一个匹 配 ( N e x t m a te h )或按键盘上的 F6 , 查找 ligh t 的第二个 待确定标注并完成其标注修改 。 至于漏注 , 在编辑器 直接添加词性标注即可 。 图 6 h gh t 词性标注的编辑状态 4 结语 在语料库建设和语料库语言学研究中 , 语料库的 加工是进行信息处理 、奠定基础 的工作 。 借助一些简 单的正则表达式 . , Po w er G R E P 可用来实现语料库的 自动化或半自动化加工和处理 。 除此之外 , 它还具备 其他众多检索软件难以媲美的优势 , 如可用做词汇搭 . 此处频数指的是化频数( n oo al iz e dfre q u e n e y) 。 . 正则表达式\l, lig h t 表示 匹配 ligh t 、 lig ht s 、 lig ht e d 、lightin g 、 ligh te r 和 1ig hte s r 等 。 . 如想了解正则表达式的其他用法 , 可访问 htt p :刀~ re gu Lar - e x Pre s s io n s . in fo 严 华 , 等 : Po w er G R E P 与语料库加毛 ,一.J,‘Jes一、’20厂LFesesL配 、类联接 ( 孙海燕 , 陈永捷 , 2 006 ; 杨惠中 , 卫乃 兴 , 2 005 )等研究 。 因而 , Po w e峪R E P 在语料库建设和语 料库语言学研究中具有广阔的推广和应用前景 。 口 参 考 文 献 B ibe r , D , e t al . Co 甲。 l:鳍u 钻t i。仁M ] . C a m bri dg e : Ca m - b ri d g e U n i v e rs ity Pr e s s . 1 99 8 . B u ri , a rd , 1 . Us e rs r月爪三re , , e e g u ide : B r it is h Na t io n a l Co 甲。 [ M」. o xfo r d : o x fo rd t{ :, iv e r s ity p re s s . 199 5 · H u n s to n , 5 Co 甲o ra i n 卿li e d lin 邵 , is rics 犯M」. Ca m b ri d g e : C a m br id g e U n i v e r , ity Pre s s , 2 002 . 厅e e h , G . & s m ith , N . BN e Z p O S一 ta路in g Ma n u a l【W E / ( )L l , 2《兀旧 < www . n a te o 几) . o x . a e . u k/ doc s / bn e Z即id e . htm > [ 7 〕 [ 8 〕 [ 9 〕 M e ye r , C . E吧lish e o , 。 11咭u is t ics : a n i n ‘ro d uc tio n 〔M」. Ca n lb r id g e : Ca m b ri dg e U n iv e rs ity Pre ss , 2《X)4 . 孙海燕 , 陈永捷 . 中国英语学习者名词类联接的发展特 征 :基于赋码语料库的研究〔J〕. 外语教学与研究 , 20() 6 ( 4 ) :2 72 一 2 78 . 谈言玲 . A Co印u s一 Ba se d s tu d y o fM o dal V e th s C a n , C o u一d , m ay , m ight i n Chi n e se 块a rn e r s ’ Spo k e n E n g lis h〔A〕. U n - p u b lis he d M A T h e s i s . Ya n g zho u U n i ve r s ity , 20() 7 . 严 华 . A Co甲u s 一 B a s e d s tu d y o f “ 5 0 ” in Chin e s e Le a m - e rs ’ Sp o ke n a n d W ri t t e r, E n g li sh 〔A 」. Un p u blish e d MA T he s i s . Na nj i n g U n i ve rs ity , 2 (X) 6 . 杨惠中 , 卫乃兴 . 中国学习者英语口语语料库建设与研究 [ M〕. 上海 : 上海外语教育出版社 , 200 5 . , .J I, esesJ, .ee 气eses 1,山 内j4r ‘fes广 Ž .L户es.L Po w e rG R EP a n d C o rPu s Pr o e e s s i n g 州刀 刀“忍 , , 洲lv ‘乙i一i , ( 1 . Se ho o l o f Fo r e ig n la n gU a g e s , Y a n g z ho u U n iv e r s ity . Yan g z ho u 2 2 5 0 0 9 , C hi n a ; 2 · U , , iv e rs ity o f In te rn a tio n a l B u s in e s s a n d E e o n o m i e s , B e iji n g 10 0 0 2 9 , C hi n a ) A b str a c t : Co 印u s a n n o ta tio n 15 a n im p o rt a n t bu t d iffi e u lt e o m p o n e n t in d o i n g e o 中u s li n即 is ti e s r e s e a re h . Pre se n tly all tyve s o f a n n o ta tio n s b u t the a n n o ta tio n o f w o r d e la s s e a n n o t b e a llo e at e d a u to m a ti e ally o r s e m i 一 a u to m at i e ally . T his a rt ie le d e s e ri b e s the thr e e m a in fo n e tio n s o f Po w e rG R EP : e o n e o rd a n e e , s u b stitu tio n a n d e o lle e tio n . T he n , it g iv e s a bri e f in tro d u e tio n to 比别la r e x p r e s s io n s e lo s e ly re le v a n t to e o印 u s p ro e e s s i n g , a n d fi n ally p re s e n ts ho w Po w e rG R EP 15 o p - e r at e d an d a Pp li e d in e o 印 u s Pro e e s s i n g , ho ld i n g u p the d a ta i n BNC a s a n e x am Ple . K e y w o r d s : Po w e r G R E P : R e g u la r E x p r e ss io n ; Co rp u s Pro e e s s in g 62
/
本文档为【PowerGREP与语料库加工_严华】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索