第 13 3 期
20 10 年 5 月
外语 电化教学
CAFLE
N o
M a y
133
20 10
* 版权所有 文责自负 *
Po w e rG R E P 与语料库加工
严 华 , , 王 立非 ,
(1
. 扬州大学 外国语学院 , 江苏扬州 2 2 5 009 ;2 . 对外经济贸易大学 英语学院 , 北京 10 0 0 29)
摘 要 : 语料库标注处理是语料库语言学研究中的一个重点和难题 。 除 了词性标 注 , 其他各类标
注 (包括语义 、 句法 、话语 、语用等标 注 )均较难实现批量或 自动化生成 。 本文简述 Po w e‘甩P 的检索 、
编辑与替换 、采集三大功能以及与语料库加工密切相关的正则表达式知识 , 并以批量删除 、添加和修改
英国国家语料库(B NC) 中语料赋码为例 , 说明如何运用 Po we 峪R E P 对语料库进行 自动化或半 自动化加
工和处理 。
关键词 : Po w e峪R EP; 正则表达式 ;语料库加工
中图分类号 : H 3 19 . 3 文献标识码 : A 文章编号 : 10 0 1 一5 7 9 5 (2 0 10 )0 5 习0 5 7刃0 0 6
无论是语料库的建设 , 还是语料库研究的数据处
理 , 我们都需要对语料库进行加工与处理 。 Po we ‘ -
R E P 是一款基于正则表达式 (re即la r e x p re ss io n )的文
件处理与搜 索工具软件 。 与 W o记Sm ith 不同的是 ,
Po w
e峪 R EP 不仅具备检索功能 ,还具备数据编辑 、替换
以及数据采集等功能 。 其中 , 检索功能可用于词汇搭
配研究 、类联接研究 ;数据编辑 、替换与采集功能可用
于语料库的加工与处理 。 Po w e rG R EP 的特色在于正则
表达式的运用 , 但正则表达式的专业性让一些语言学
研究者认为其过于复杂 , 以致有畏难心理 , 因此 Po w er -
G R E P在语料库研究中的应用并不多见 。
本文简述 Po w e尤R E P 的三大功能以及与语料库
加工密切相关的正则表达式知识 , 并以加工和处理英
国国家语料库 BN C 为例 , 说明如何运用 Po w er G R E P对
语料库进行加工处理 , 以期语料库语言学研究者熟悉
和使用此软件 , 促进语料库语言学研究的纵深发展 。
1
.
1 信息检索
信息检索是语料库研究中最常见的手段之一 。 利
用 Po w er G R E P 进行检索 , 其检索方法主要为文本检索
和正则表达式检索 , 前者比较直观 、易学 , 但功能比较
单一 , 可用于一些简单的检索 ;而后者的掌握需要一定
时间的学习 ,但功能强大 , 可用于大型的检索 。
选择主界 面 (图 l) 中的动作标签 (A ct ion ) , 在定
义操作类型 (A ct ion typ e )栏的下拉菜单中选择显示搜
索匹配 (D isp la y S e ar eh m a te he s ) , 并在定义搜索类型
(Se a
r eh typ e )栏的下拉菜单中选择普通文本 (Lite r al
te xt )或正则表达式 。 搜索类型默认为正则表达式 , 如
果搜索词为普通检索词 , 软件会自动识别 。 不同的操
1 Po w e r G R E P 的基本功能
本文评介的版本为 Po w e‘R E P 3 . 4 . l( 可从 ht -
tp : / /
www
.
p o w e r盯e p . e o而d o wn lo a d . htm l 处下载其评
估试用版 , 完全版需另行购买 ) , 该软件主要具备三大
功能 :信息检索 , 编辑与替换和数据采集 。
作者简介 :严 华 : 男 , 副教授 , 博士 生。 研究方 向 : 应用语言学。
王 立非 : 男 , 博士 , 教授 , 博士生导师 。 研究方向 : 应用语言学 、二语习得 。
收稿 日期 : 2 00 9一3 一 19
图 1 Po w e心R E P 主界面
严 华 , 等 : Po w e尤R EP 与语料库加工
作类型与文本类型的确定会显示不同的选项供人们选
择 , 如区别大小写(Cas e s e n sitivi ty s earc h ) 、大小写自适
应(Ad ap t c as e of re 禅ac e m en t te xt )等 。 在搜索框中输
人检索词或正则表达式 , 点击搜索即可完成检索 。
2
.
2 编辑与替换
在进行语料分析时 , 研究者们有时需要对语料库
中的语料或标注重新进行加工 , 如删除 、替换或添加标
注等 。 我们可以使用 Pow e无R EP 的编辑与替换功能
来批量完成这些任务。 只要在定义操作类型栏的下拉
菜单中选择搜索与替换 (Se arc h an d re plac e ) , 并在定
义搜索类型栏的下拉菜单中选择普通文本或正则表达
式 , 然后在搜索框与替换框上分别输入被替换词与替
换词 , 点击替换按钮即可完成文本信息的替换 。 其编
辑功能主要通过内置的编辑器 (E di to r )实现 , 用法类
似于 W ind ~ 系统自带的记事本
,这里不再介绍 。
2
.
3 数据采集
采集功能是 Po w e rG R EP 的又一特色 , 它的用途是
将所有匹配检索词所在的句子保存为一个或多个文
件 , 方便研究者根据 自己的研究 目的或需求对语料进
行重新赋码 。 在定义操作类型栏的下拉菜单中选择采
集数据(Co lle ot dat a) , 并在定义搜索类型栏的下拉菜
单中选择普通文本或正则表达式 。 然后 , 在文件区域
(Fil
e sec tio苗n g ) 的下拉菜单中选择逐行 (场e b y
lin
e
)
, 并勾选采集或替换所有匹配区域 (Co nec 口Re -
plac e w hole
sec tio ns )
, 这么做的 目的是保证采集结束
后所有的匹配结果将以逐行的形式提取并可保存为一
个文件。 接着 , 设置保存的文件名 、文件类型与路径 。
最后在检索框输人检索词并点击采集 (Co lle ct ) , 完成
数据的采集工作 。
2 正则表达式简述
所谓正则表达式 , 就是用某种模式去匹配一类字
符串的公式 。 它 由一些普通字符和 n 个元字符
(m et ac haj ra
c ters )组成 。 普通字符包括大小写的字母和
数字 , 而元字符则具有特殊的含义 。 例如 , 汉语 “ 灰
色”在英语中可 以写为 g ay 或 gt’e y 。 如果我们用一般
文本检索的话 , 需要将 gra y 和 gre y分两次填人搜索框
并进行两次检索。 但如果使用正则表达式 , 我们只需
选择搜索类型为正则表达式 , 然后在搜索框中一次输
人 gr 【ae 」y就可以了 。 其中的方括号就是一个正则表
达式 , 表示匹配方括号中 a 和 e 任意一个字符。 我们
于表 1 中列出了所有 n 个元字符 ,并逐一进行解释 。
在语料库语言学研究中 , 我们需要掌握一些基本
的字符组合 , 即元字符和普通字符的组合 。 \d 代表
「0一」, 即 O 到 9 之间任意一个数字 ; 、w 代表〔A 一Za -
z
]
, 即 A 到 z 或 a 到 z 之间任意一个字母 ; \s 代表“空
白字符 ” (w hite sp a e e eharac ter )
, 包括空格符 (spac e ) 、
制表符(tab ) 、回车符 (re tu m )或换行符(n ewli n e ) 。 如
果将这三个正则表达式中的普通字符由小写改为大
写 , 正则表达式的含义恰恰相反 。 \D 表示〔‘\d 〕, 即非
0 到 9 之间任意一个数字 ; 、W 表示〔‘\w 」, 即非 A 到
Z 或 a 到 z 之间任意一个字符 ; \S 表示 [ “ \d〕, 即非空
元字符
表 1 元字符及其功能描述
功能描述及举例
匹配括号中的任何一个字符 。 例如 , 正则表达式rl aou 〕t匹配 rat 、以 和皿 , 但是不匹配心 。 我们可以在括号中使用连字符来指定字符的区间 , 如正则表
达式【0一〕可以匹配任何数字字符 ;还可以指定多个区间 , 如正则表达式〔A ~Za 一里 ]可以匹配任何大小写字母 。 〔〕内有多个不同字符或多区间字符时被称
作字符集 。
匹匹匹配字符串或一行的开始。 例如 , 正则表达式‘W h e n in 能够匹配字符串W 卜en in tke一 of hum an events 的开始 ,但是不能匹配 W hat an d w h e目 in th e 。 但但是是是 , 如果‘用在【〕之内则表示否定 。 例如 , 正则表达式〔份58 A一〕将匹配除了 3 、5 、 8 和所有大写字母之外的任何字符。。
匹匹匹配字符串或行的结束符 。 例如 . 正则表达式 俄毗l 能够匹配字符申H e ’ 。 : ~
l的末尾 , 但是不能匹配字符申肠 e了, a bun e 卜of ~
b
。。
匹匹匹配任意单个字符 。 例如正则表达式 r . t 匹配这些字符申: Iat , rut , rot ,但是不匹配耐 。。
IIIII 表示在两个或两个以上选项间进行选择 。 例如 , 正则表达式 (址m !ber ) 匹配 it occ urs to hi m 和 it oc curs to her 中的拓m 或 ber , 但是不能匹配 it
~
tooo
tttttha m 中的 th胭 。。
????? 零次或一次匹配前面的字符。 例如 ,正则表达式 阅】业 ? r 匹配 c司。世 和加 lo r ooo
***** 零次或多次匹配前面的字符 。 例如 , 正则表达式 ab * 匹配 a ,曲 ,山b 等。。
十十十 一次或多次匹配前面的字符 。 例如 , 正则表达式 曲 十匹配曲 , 曲b ,曲b b 等 。。
((((( 标记一组字符串的开始 。。
))))) 标记一组字符串的结束 。。
\\\\\ 引用符或转义符 ,用来将列出的元字符当作普通字符来进行匹配 。 例如 ,正则表达式、被用来匹配美元符号 ,而不是行尾 。 同样 , 正则表达式、. 用来匹配点点
字字字符 , 而不是任何字符的通配符 。
严 华 , 等 : Po w e‘R EP 与语料库加工
格符 、制表符 、回车符 、换行符 。 值得注意的是 , 如果将
这些表示否定的字符组合放在方括号内 , 其意义将发
生变化 。 例如 , 正则表达式【、D 、S」的含义为非数字
或者非空格符 、制表符 、回车符 、换行符 。 换言之 , 它可
以匹配任意一个字符 , 包括数字 、空格符 、制表符 、回车
符 、换行符和字母 。 而表达式〔、s、d 」的含义为既非数
字 ,也非空格符 、制表符 、回车符或换行符 , 即该表达式
匹配任意一个字母 。
在进行语料库检索中 , 我们还必须了解一些常用
字符组合。 \b 匹配单词的前或后边界 。 例如 , \b ray \b
只能匹配 ray 这个单词(见图 3 . 5 ) , 这样做类似于文本
检索中的 w ho le w o记5 o nl y ray , 而 ray \b 则可以匹配 以
字母 ray 结束的单词 ,如 肛a y或者 ray 中的 ray , 但不能
匹配 ray age 中的 ray 。 这个表达式非常重要 , 在语料库
研究中我们可以用 ti on \b 来检索以 tion 为后缀的所有
单词 , 也可以使用、bPre 这个表达式来检索所有以 pre
为前缀的单词 。 又如 , 、A 表示文件的开始 。 此外 , 在
语料库文本处理时还会用到三个不可显示的或非打印
的特殊字符、r , \t 和、n , 它们分别代表回车符 , 制表符
和换行符。
在使用正则表达式的过程中 , 了解以上提及的字
符与字符组合 , 我们还要注意优先级顺序 。 类似于数
学表达式求值 , 正则表达式是从左至右按优先级顺序
来描述一个字符串的 。 下表由高到低列出了各种正则
表达式操作符的优先级顺序 :
表 2
操作特 描述
、 转义符
()
,
(?
:
)
,
(? 二 )
,
[ ] 圆括号和方括号
* , +
,
?
,
{n }
,
{n
,
}
,
{
n , m } 限定符
‘ , , 、元字符 位置和顺序
I
“或 ”操作
3 Po we rG R E P 在语料库加工中的应用
语料库一般分为标注语料库与非标注语料库或生
语料库 。 语料库语言学研究中非常重要的一环就是对
语料库中的标注进行添加 、删除或修改。 语料库标注
不仅包括词性标注 , 还包括句法标注 、语义标注 、话语
标注和语用标注等 (Mey er Z阅 4 ) 。 但 , 现有的语料库
标注主要为词性标注 , 而由于其他形式的标注 自动化
赋码比较难以实现 (Hun s to n 2 002 ) , 一般采取人工标
注 , 并仅限于一些小型语料库 . 。 因此 , 根据不同的研
究需求 ,大多时候语料库研究者需要对现有的语料库
进行加工与处理 。 目前能够用于语料库赋码处理的软
件为数不多 (如 Miero soft o ffi e e w o rd 和 u ltraE d it一2
等) , Po w e呜 rep 则是其中的一名佼佼者 。 本文重点举
例说明 Po w etG rep 对 BNC 语料库标注进行删除 、添加
和修改的应用 。
3
.
1 删除语料标注
假设我们要调查中国大学生记叙文中单词 50 的
使用 情况 , 选 用 《中国学生英 语 口 笔 语语 料库》
(SW ECCL )和《英国国家语料库》(BNC )进行对 比研
究 (严华 , 200 6 ) 。 本研究需要按照 so 的话语功能分类
进行标注 , 而后者的语料已进行过词性赋码 , 因此 , 我
们需要先删除其原始词性标注 。
在正式删除词性标注前 , 我们有必要 了解一下
BNC 的标注特征 。 BNC 的标注一般放在一对尖括号
内 , 具体 的标 注说 明可 以 参 照 B NCZ PO S . T昭gi ng
G u id e (玩e eh & Sm ith 2 0(X) )和 U se rs R e fe re n e e Gu id e
Bri tish N at io n al Co 印u s (B u m ard 199 5 )
, 这里仅补充他
们没有提及但我们必须熟悉和了解的一些标注 : ¹
B NC 的文件头标注既包括尖括号内容 , 也包括普通文
本 , 只有将之删除才能确保研究者进行词数统计的精
确性 ; º 标注 < S n = “ 1” > 中的 s 代表句子 ( sen -
te nc e )
, n = “ 1 ”代表第一行 ; » 尖括号内的所有单词
的词性标注都是以字母 w 开始的 , 其中 , w 代表单词
wo rd ;¼ 标点符号除双引号外均以字母 。 开始 ; ½
&bqu 。 ;代表直接引语开始时的双引号 , &eq uo ;代表直
接引语结束时的双引号 。 鉴于以上 B NC 的词性标注
特征 , 我们将删除工作分为四步 。
( 1) 删除文件头
用 Po w e 峪R EP 自带的编辑器 ( E di to r )打开选取的
文件 。 BN C 中 < s n 二 “ 1” > 标志正式文本语料开始的
第一行 , 此前是对该文本的说明 , 即文件头 。 因此 , 我
们在文本中定位到 < s n 二 “ 1 ” > , 然后删除 < s n 二
,’l ” > 之前的文件头部分 。
( 2 ) 替换 &b q u o ;与 & e q u o ;为双引号 。
首先在定义操作类型 ( Act ion t即 e )栏的下拉菜单
中选择搜索与替换 ( Se arc h an d re p lac e) , 并在搜索类
型 ( Se are h 帅 e )栏 的下拉菜单 中选择正则表达式
( R e 即lar e x p re s s io n ) 。 然后 , 在搜索栏中输人 & b(Ill o ;
替换栏 中输人双引号 , 点击替换按钮 ( Re 禅ac e ) , 将
. 如句法标注语料库Po W ( th e Po l尹e e h n ie of W al esc o甲 u , of 。hil -
d re n ’ , s p o ko lan , age )
。
严 华 , 等 : Po w er G R EP 与语料库加工
&b qu
。 ;替换成双引号 。 接着 , 我们采取同样的方法将
& e q u o ; 也替换成双引号 。
(3) 替换 < s n 二 “ 1 ” > 等行号为空格 。
在搜索栏输人正则表达式 < s (一 ? ). > , 将光标
插人替换栏 , 敲击两下空格键 , 这样做的目的是为了保
持原文的格式 , 即首行缩进两个字符 。 接着 , 点击替换
按钮(R 叩la ce ) , 完成语料中以 S 开头的行号标注的删
除工作 (见图 2 ) 。
tio n typ e )栏的下拉菜单中选择采集 (Co lle e t d a ta ) , 并
在搜索类型 (Sea rch typ e )栏的下拉菜单中选择正则表
达式 (R e即la r e x pre ssio n ) 。 然后 , 勾选 G r o u p re s ults fo r
all fi le s 与 G r o u p id e n tie a l m a teh e s 两个选项 , 并在搜索
栏中输人检索词 so 的正则表达式、bs 。、b . 。 接着 , 在
文件区 域 (Fi le sec ti on ing )的下拉菜单中选择逐行
(Li
n e by lin e )
, 并勾选采集或替换所有匹配区域 (Co l-
le e“R epla e e w h o le s e e rio n s ) , 这样保证采集结束后所
有的匹配结果将以逐行的形式提取并可保存为一个文
件 。 在采集之前还需预先设置文件保存的类型和路
径 。 因此 , 我们在创建 目标文件 (Ta 嗯 e t Fil。 Cre a tio 。 )
中选择将结果保存为单个文件 (Sa v e re s u lts in to a sin -
gle fi le )
,然后在 目标文件地址 (T a吧e t file lo e a tio n )处
填人保存文件名与路径 , 如 D : 、我的文挡 、S O . txt 。 最
后 , 点击采集按钮 (Coll ec t )即可得到所有包含单词 。。
的句子 。
图 2 行号替换为空格后效果图
(4 ) 删除其余所有标注 。
在搜索栏中输人正则表达式 < (一 ?) > , 替换栏
留空 , 然后点击替换按钮 (R eP lac e ) , 完成其余他所有
标注的删除 。 我们用编辑器 (E di to r )查看最终的编辑
效果 。 如图 3 所示 , 一个干净可读的文本展示在我们
面前 , 将之直接保存即可 。
图 4 采集检索词 S 。所在句子
图 3 处理后的干净文本
3
.
2 添加语料标注
删除了 BNC 语料中的标注之后 , 接下来我们就可
以按单词 so 的话语功能对中国学习者语料和 BN C 语
料重新进行标注 。 我们需要先采集所有包含单词 so
的句子 , 然后利用 Po * 诏R EP 的编辑器功能进行人工
赋码 。
(l) 采集
如图 4 所示 ,我们首先选择在定义操作类型 (A c -
(2 ) 标注
我们用 Po w e‘R EP 自带的编辑器 (E d iro r )打开刚
刚采集并保存的文档 。 如 图 5 所示 , 每行都只有一个
单词 so ,这样既方便了赋码操作 , 又节省了我们研究者
的时间 。 限于篇幅 , 具体的赋码过程在此不一一叙述 。
BNC 语料赋码结束后 , 我们重复以上步骤对 SW E CCL
进行标注 , 这样就完成了单词 so 研究分析前的标注工
作 。
3
.
3 修改语料标注
Po w e峪 R E P 还可用来修改语料标注 。 语料标注的
修改大致出于两种原因 :标注调整和赋码纠正 。
3
.
3
.
1 标注调整
研究过程中有时会因分析需要或新问题的出现对
. 正则表达式 (, * ?) 表示所有任意字符组合。
. \h so 、b 只能匹 配单词 、o , 这样做类似于文本检索中的 w ho le
w o rd s o n ly
。
严 华 , 等 : Po w e‘R E P 与语料库加工
图 5 标注采集结果
标注进行相应调整 。 假设我们以 BNC 为参照语料库 ,
调查中国学习者 口语中 ca n 和 co ul d 的使用情况 。 我
们将情态动词 Can 和 co ul d 按语义分为三类 : 知识情
态 、道义情态和动力情态 , 并分别对所选语料进行标注
(谈言玲 2 0 0 7 ) 。 对比分析后发现 , C a n 和 Co u ld 的动
力情态在这三类语义分布中占主导地位 , 并且中国学
习者和本族语使用者在使用 C an 和 C ou ld 的动力情态
频数. 上存在显著性差异 。 为了探求这一 差异的原
因 , 我们需要对语料中 Can 和 Cou kl 的动力情态标注做
进一步分类细化 。 标注调整的具体过程分为两步 : ¹
采集包含所有标注为动力情态 。an 和 C ou ld 的语句 ; º
利用 Po w er G R EP 的编辑器进行重新标注 。 具体做法
可参照本文 4 . 2 , 这里不再赘述 。
3
.
3
.
2 赋码纠正
自动词性赋码往往会出现一些错误 , 这就需要我
们对其进行纠正 。 语料库词性标注尽管能够通过某些
软件自动化实现 , 而且据称其标注准确率超过 90 %
( B ib e : e t 。1
.
19 9 5 )
, 但众所周知 , 英语中部分词汇词
性单一 , 部分词汇具备多种词性 , 计算机进行词性标注
主要是依据英语的词序确定 , 而句法的灵活多变性可
能会造成标注软件对词性的误判 。 这就是说 , 标注软
件对某些单词 的标注准确率可 以达到 ro o % , 而对其
他某些单词标注准确率可能只有 70 % , 但总体平均准
确率可以达到 9 0 % ( H u n s to n 20 02 ) 。 Po w e r G R E P 能够
帮助我们有效地对具备多种词性的单词标注重新进行
人工检查与替换 。
我们仍以 BN C 的语料标注为例 。 BN C 中有部分
语料标注属错误标注 , 还有 30 个待确定标注 ( Am bi gu -
ity ta g )
, 如标注 AJo 一NNI 表示某词的词性可能为形容
词 , 也可能为名词 ,但形容词的可能性稍大于名词的可
能性 。 单词 h gh t 在 BN C 中一般被标注为形容词 < w
A JO >
, 名词 < w N N I > 或动词 < w V V B > 等 。 下面就
以其为例来说明标注的修改 , 共分两步进行 。
( l) 检索匹配对象
首先 , 用 Po w e G R E P程序打开 BN C 中 AMC 这一
文件 。 然后 , 点击动作标签 “ Act ion ” , 在定义操作类型
(Ac tio n tyPe )栏的下拉菜单中选择显示检索匹配 ( Di s -
p lay S e a r e h m a te h )
, 在检索类型 ( Se ar e h typ e )栏的下拉
菜单中选择正则表达式 ( R e g u la r e x p r e s s io n ) , 最后在
搜索栏输人检索词 h gh t 的正则表达式 、bli gh t. , 并点
击预览按钮 ( Pr e v i e w ) 或搜索按钮 ( Se a rc h )执行检索 。
检索结果显示 10 个匹配对象 , 其中有 2 个未确定标注
和 1 个漏注 , 并皆以高亮显示 。
( 2) 修改语料标注
鼠标左键双击第一个高亮显示的 hgh t , 软件将 自
动转到编辑器模式 , 进人编辑修改状态 。 h gh t ra记 中
的 h gh t 被标注为待确定标注 < w A」0 一NN I > ( 见 图
6 )
,其实际表达的含义为“ 小规模空袭 ” , 标注应修改
为 < w AJO > 。 修改完毕后点击编辑器中的下一个匹
配 ( N e x t m a te h )或按键盘上的 F6 , 查找 ligh t 的第二个
待确定标注并完成其标注修改 。 至于漏注 , 在编辑器
直接添加词性标注即可 。
图 6 h gh t 词性标注的编辑状态
4 结语
在语料库建设和语料库语言学研究中 , 语料库的
加工是进行信息处理 、奠定基础 的工作 。 借助一些简
单的正则表达式 . , Po w er G R E P 可用来实现语料库的
自动化或半自动化加工和处理 。 除此之外 , 它还具备
其他众多检索软件难以媲美的优势 , 如可用做词汇搭
. 此处频数指的是
化频数( n oo al iz e dfre q u e n e y) 。
. 正则表达式\l, lig h t 表示 匹配 ligh t 、 lig ht s 、 lig ht e d 、lightin g 、 ligh te r
和 1ig hte s r 等 。
. 如想了解正则表达式的其他用法 , 可访问 htt p :刀~ re gu Lar
-
e x Pre s s io n s
.
in fo
严 华 , 等 : Po w er G R E P 与语料库加毛
,一.J,‘Jes一、20厂LFesesL配 、类联接 ( 孙海燕 , 陈永捷 , 2 006 ; 杨惠中 , 卫乃 兴 ,
2 005 )等研究 。 因而 , Po w e峪R E P 在语料库建设和语
料库语言学研究中具有广阔的推广和应用前景 。 口
参 考 文 献
B ibe r
,
D
, e t al
.
Co 甲。 l:鳍u 钻t i。仁M ] . C a m bri dg e : Ca m -
b ri d g e U n i v e rs ity Pr e s s
.
1 99 8
.
B u ri , a rd
,
1
.
Us
e rs r月爪三re , , e e g u ide : B r it is h Na t io n a l Co 甲。
[ M」. o xfo r d : o x fo rd t{ :, iv e r s ity p re s s . 199 5 ·
H u n s to n
,
5 Co 甲o ra i n 卿li e d lin 邵 , is rics 犯M」. Ca m b ri d g e :
C a m br id g e U n i v e r , ity Pre s s
,
2 002
.
厅e e h , G . & s m ith , N . BN e Z p O S一 ta路in g Ma n u a l【W E /
( )L l
,
2《兀旧 <
www
.
n a te o 几) . o x . a e . u k/ doc s / bn e Z即id e . htm >
[ 7 〕
[ 8 〕
[ 9 〕
M e ye r
,
C
.
E吧lish e o , 。 11咭u is t ics : a n i n ‘ro d uc tio n 〔M」.
Ca n lb r id g e : Ca m b ri dg e U n iv e rs ity Pre ss
,
2《X)4 .
孙海燕 , 陈永捷 . 中国英语学习者名词类联接的发展特
征 :基于赋码语料库的研究〔J〕. 外语教学与研究 , 20() 6
( 4 )
:2 72 一 2 78
.
谈言玲 . A Co印u s一 Ba se d s tu d y o fM o dal V e th s C a n , C o u一d ,
m ay , m ight i
n Chi n e se 块a rn e r s ’ Spo k e n E n g lis h〔A〕. U n -
p u b lis he d M A T h e s i s
.
Ya n g zho u U n i ve r s ity
,
20() 7
.
严 华 . A Co甲u s 一 B a s e d s tu d y o f “ 5 0 ” in Chin e s e Le a m -
e rs
’
Sp o ke n a n d W ri t t
e r, E n g li sh 〔A 」. Un p u blish e d MA
T he s i s
.
Na nj i
n g U n i ve rs ity
,
2 (X) 6
.
杨惠中 , 卫乃兴 . 中国学习者英语口语语料库建设与研究
[ M〕. 上海 : 上海外语教育出版社 , 200 5 .
, .J I, esesJ, .ee
气eses
1,山
内j4r
‘fes广
.L户es.L
Po w e rG R EP a n d C o rPu s Pr o e e s s i n g
州刀 刀“忍 , , 洲lv ‘乙i一i ,
( 1
.
Se ho o l o f Fo r e ig n la n gU a g e s
,
Y a n g z ho u U n iv e r s ity
.
Yan g z ho u 2 2 5 0 0 9
,
C hi n a ;
2
·
U , , iv e rs ity o f In te rn a tio n a l B u s in e s s a n d E e o n o m i e s
,
B e iji
n g 10 0 0 2 9
,
C hi n a )
A b str a c t : Co 印u s a n n o ta tio n 15 a n im p o rt a n t bu t d iffi e u lt e o m p o n e n t in d o i n g e o 中u s li n即 is ti e s r e s e a re h . Pre se n tly
all tyve s o f a n n o ta tio n s b u t the a n n o ta tio n o f w o r d e la s s e a n n o t b e a llo e at e d a u to m a ti e ally o r s e m i 一 a u to m at i e ally
.
T his
a rt ie le d e s e ri b e s the thr e e m a in fo n e tio n s o f Po w e rG R EP : e o n e o rd a n e e
, s u b stitu tio n a n d e o lle e tio n
.
T he n
,
it g iv e s a
bri e f in tro d u e tio n to 比别la r e x p r e s s io n s e lo s e ly re le v a n t to e o印 u s p ro e e s s i n g , a n d fi n ally p re s e n ts ho w Po w e rG R EP 15 o p -
e r at e d an d a Pp li e d in e o 印 u s Pro e e s s i n g , ho ld i n g u p the d a ta i n BNC a s a n e x am Ple .
K e y w o r d s : Po w
e r G R E P : R e g u la r E x p r e ss io n ; Co rp u s Pro e e s s in g
62