为了正常的体验网站,请在浏览器设置里面开启Javascript功能!
首页 > GuDai_HanYu_JiGaoPinZi_TanSuo_2001

GuDai_HanYu_JiGaoPinZi_TanSuo_2001

2017-08-18 16页 pdf 1MB 14阅读

用户头像

is_152516

暂无简介

举报
GuDai_HanYu_JiGaoPinZi_TanSuo_2001《语言研究》2001年第3期(总第44期)古代汉语极高频字探索’郭小武中国社会科学院语言研究所内容提要本文分为四个部分:第一部分介绍网络资源利用和字频分级情况,第二部分展示古代汉语100极高频字的统计数据,第三部分从词性、语义、字音及字形各方面探讨极高频字词的分布特点,第四部分附录从古到今六部著作中的极高频字。本文所做极高频字统计,所列根词字集、极高频根词字集,以及对于极高频实词的语用解释,对于词类封闭性、开放性的分析,对于字音、字形分布所体现的“经济原则”的论证等,均有一定新意.关键词:古...
GuDai_HanYu_JiGaoPinZi_TanSuo_2001
《语言研究》2001年第3期(总第44期)古代汉语极高频字探索’郭小武中国社会科学院语言研究所内容提要本文分为四个部分:第一部分介绍网络资源利用和字频分级情况,第二部分展示古代汉语100极高频字的统计数据,第三部分从词性、语义、字音及字形各方面探讨极高频字词的分布特点,第四部分附录从古到今六部著作中的极高频字。本文所做极高频字统计,所列根词字集、极高频根词字集,以及对于极高频实词的语用解释,对于词类封闭性、开放性的分析,对于字音、字形分布所体现的“经济原则”的论证等,均有一定新意.关键词:古代汉语极高频字根词经济原则中图分类号:Hlog.2:H124文献标识码:A文章编号:1000一1263(2001)03一0069一16一引子Ll网络资源利用随着计算机技术的迅猛发展,互联网上的中文文献将会越来越多。这是一个前辈学者无缘一见的宝库,而今摆在了我们面前,我们没有理由把自己关在门外。作为汉语、汉字研究人员,对于浩繁的网上资源,除了一般的阅读、学习外,还有一个收集、分析、研究的任务。虽然网上的电子文本常常流于粗糙,校对不精,还存在内码不一、格式不一、出处不详、缺字严重等问题,但它所具备的共享性及便于查找、引录、对比、统计等优点,却是书本文献无法比拟的。正是基于这样的考虑,笔者两年来广泛收集了上百种有代性且较准确的古代中文文献①,并相应进行了统一内码、.统一格式及部分重校等基础工作。此外,我们还亲自制作了一些简单实用的程序②,建立了规模庞大的词库,这些都为研究工作提供了很大方便。我们相信,新的材料形式和新的处理手段,应能为科研成果的推陈出新带来更多更好的机会;最少从理论上说该是如此。本文是笔者近期所做字频、词频系列研究中的一个分支课题。LZ频级情况介绍由于字频是个连续体,因而分级总带有人为性。《汉字信息字典》既分“字级”,又分“频级”。“字级”有三,分别对应于《国家标准》基本集(GB2312一80)的一、二级字和未收字;“频级”凡五,采取郑林曦、高景成主编《汉字频度表》的最常用字(1一560)、常用字(56卜1367)、次常用字(1368一2400)、不常用字(2401一4170)、偶用字(4171以次)。其实,“字级”是“频级”的折射,二者都是对于字频的分级,也都带有人为性。*本文曾在第五届全国古代汉语学术研讨会(2000年8月,广州)上宣读,受到较广泛关注和好评,也受到一些同行质询;大家都是好意,借此一并致谢.另,与会前后,文稿得到沈家煊、何乐士、郭拐良等先生指教,笔者不胜感激,并遵嘱进行必要修改、补充.极高频字即最常用字。用较大规模频率统计方法对古汉语文献最常用字的情况进行摸底、分级和探讨,本身是个新的尝试。但因论文容量有限,不大可能讨论很多的字,所以本文拟以其最常用的100字作为主要讨论对象。本文把这oro字分为“极高频A级”10字,“极高频B级”20字,“极高频C级”70字。1.3极高频字的提取和考察目标关于极高频字的提取,需要简单说明三方面的情况:其一是所依据的材料;其二是所采用的方法,其三是所统计的结果。材料上,本文以典型性为基本要求,同时注意保证量的充足。方法上,本文以类型分析为基本框架,在对单部著作进行统计的基础上进行综合的统计、分析。本文所统计结果是从有关文献全部字频中筛选出来形成的,程序本身无差错,差错率随文本质量变动。本文的统计、提取和研究,一是为了摸底,求其然;二是为了解释,求其所以然。我们尝试解答以下儿个问题:在古汉语里,究竟哪些字属于极高频字?为什么它们能够成为极高频字?它们的分布和构成有什么特点?它们在断代的汉语系统里充当着怎样的角色?它们在历时的汉语系统里经过了怎样的演变?二极高频字的统计.21“专书一综合”极高频字的统计与说明.21.1“专书一综合”极高频字统计简表(表l)表1《《《左传》》《论语》》《诗经》》综合合序序号号字字次数数频率%%%字字次数数频率%%%字字次数数频率%%%字字次数数频率%%%lllll之之7344443.74666子子975556.10888之之1176663.79666之之9133333.7599922222子子4988882.54444曰曰759994.75555不不630002.03444子子6440002.6500033333曰曰3732221.90444之之613333.84000我我590001.90555不不4845551.9944444444不不3632221.85333不不583333.65222有有568881.83444曰曰4572221.8822255555也也3601111.83777也也533333.33999其其545551.75999也也4223331.7388866666公公3447771.75888而而345552.16111子子477771.54000以以3944441.6233377777以以3426661.74888其其270001.69222于于338881.09111公公3604441.4833388888而而3128881.59666者者219991.37222兮兮324441.04666而而3530001.4533399999其其2662221.35888人人219991.37222彼彼308880.99444其其3477771.43111lll000人人2577771.31555以以211111.32222以以30777.099111人人3068881.26333上上小计计385377719.659999947277729.613333352633316.999999468366619.27666BBB3000褚褚927770.47333焉焉88880.55111载载116660.37444将将1132220.46666上上小计计665088833.924444474655546.764444489922229.0299999791999932.59555CCC10000爵爵375550.19111今今26660.16333明明52220.16888既既443330.18222...卜总计计1074200054.7944444106422266.6700000141811145.77888881271577752.33222.21.2B、C两级字的补充表中“B30”及“C10O”分别是“极高频B级”与“极高频C级”的最后一字,上面均有省略,按降频补充如下。《左传》B级:于晋放君有侯高月师王使杳大楚然郸将伯圃褚;C级:焉如夫典伐是矣可及宋街叔徐何我乎氏十二故命年吾盟三夏者锦捉隙曹精能具U必若葫来植毅臣乃出春秋事成入自冬行在所卒先死遂至民告言吴知文季奔弗封又薛。《论语》B级:有矣蠢焚君乎可如典言然lRJ尚知何吾仁夫道焉;C级:行渭植必孔斯三能晃李哉事是固公未路我好在已所得小天民粱邦亦使大下欲真褚政捉文食善援德求恶封信死然仲由非一遇出足雕居夏己及父予甫张友色季成今立。《诗经》B级:然人雄如既雨矣王君言在天心是何什止高方载;C级:予民思女南大来匪斯公四亦山行蹄莫也命集且此自受可曰月日采剔将靡舆壹德中百文圃孔卓夙育生兄束者酒或葫下胡周小焦而哉侯弟毅云皇乎福式士父衣所食明。“综合”B级:有于晋君焚高侯热王月郎大使我杳楚如矣郸将;C级:典可是夫伯圃何焉褚乎者及伐徐叔宋街命十氏吾盟RJl二三言年故朗在捉渭夏能行来必檀隙事民自出葫知天官所若成乃臣毅入文死春亦冬秋先至卒告晃遂父未德既。.21.3次数与频率说明《左传》、《论语})、《诗经》用字数据详见表2一2。综合以上三书,带标点总字数310904,不带标点总字数242983,标点占22.85%;三书所用单字共统计到4213个。本文之所以采用“不带标点总字数”作为频率计算的分母,看得见的原因是多标少标见仁见智,出入可以很大。深一层的原因是,如果把“带标点总字数”作为频率计算的分母,就应该相应地统计各种标点的频率,而像逗号、句号等必会出现在极高频的高位。③如表1,《左传》中出现最多的是“之”字,排1号,共7344次,占不带标点总字数196043的3.746%。《论语》中出现最多的是“子”,《诗经》中出现最多的是“之”,不赘述。综合以上三书,“之”字出现最多,排1号,共9133次,占三书不带标点总字数的242983的3.759%;这也就是说,此三书每100字中“之”平均出现近4次。表中第10号字下的“上小计”是指“极高频A级”10字出现次数与频率的累计;B30号字下的“上小计”是指“极高频A级”与“极高频B级”共30字出现次数与频率的累计;末行的“上总计”指A、B、C二级100极高频字出现次数与频率的累计。二书综合100字累计频率达到52.332%,表明最常用的100字对于三书的覆盖率超过了一半④,而此一数据是只有经过仔细统计才能真正弄清楚的。2.L4作品类别与高频分布《现代汉语常用字表·说明》在谈到“分布和使用度”时说:“统计汉字在不同学科的分布,可以衡量某个字的使用分布是否均匀。如某个字在单一学科中使用频率较高,但在其他学科中却很少出现,这说明它的分布是不均匀的。与此相反,有的字不仅使用频率较高,而且能在多学科中出现,这说明它的分布是均匀的。选取分布均匀的字,可以避免选字的片面性。”⑤可见“使用度”是结合分布对频率的再调整。表l中,《左传》是历史类作品,《论语》是哲学类作品,《诗经》是诗歌类作品,二类作品用字情况有所差别,尤其诗歌类与前两类差别明显,说明需要考虑用字的分布。本文设有“综合”,用于对分布进行调整。至于“使用度”的方法,本文不予专门分析。下面拟扩大材料规模,先分类统计,再综合统计。.22“分类一综合”极高频字的统计与说明.2.21“分类一综合”极高频字统计简表(表2一l).2.22B、C两级字的补充历史类B级:人者有公大放十下侯君天圃年于典上三将二使;C级:是所臣熬秦故夫杏至中太fllJ事乃楚相得一可言褚自五军帝行月矣皆立兵百民四如欲今及出何能援峙见此入趟喝漠提后死晋日束令成简必畏在地知周文乎六安数谓。哲学类B级:高nlJ有赞燕故天所君下可是知矣能王公民圃夫;C级:大得行言典乎此一渭非必何上事道然觅生臣使若三用如死至治今欲相在明主自十中利特日地善五吾物羲二俊令百出未焉皆食翌将文亦成恶士简足心身德四畏先雕。诗歌类B级:人何于彼心既维君如掬天王言雨矣在典焚可思;C级:日自锦是行乎将所来方山南女中此只下_止载日予大夙莫夫速民命四梁曼晃流也公上知斯畴生皇亦明雕月吾水徒德镶周卓民束且采镯文者团具U靡壹哀未高美百焉寅。表2一1历历历史类类哲学类类诗歌类类综合合序序号号字字次数数频率%%%字字次数数频率%%%字字次数数频率%%%字字次数数频率%%%lllll之之50750002.89000之之41223334.57777兮兮2640004.55000之之93897773.4599922222不不29283331.66777不不25623332.84777之之192444331666不不560()2222.0633333333以以28030001.59666也也23293332.58888不不1096661.88999以以45944441.6933344444高高23059991.31333而而20339992.26000而而1023331.76333也也44369991.6355555555而而22426661.27777以以17187771.90999其其742221.27999而而43788881.6133366666「于!!!21722221.23777者者15170001.68555以以727771.25333翔翔34514441.2722277777子子216]000皿.23000其其13973331.55222有有654441.12777子子34124441.2577788888王王2105999卫.19999人人13科lll1.49333我我621111.07000其其33813331.2466699999也也20962221.19333子子1198999133222子子525550.90555曰曰33732221.24333lll000其其19098881.08777日日11878881.32000然然469990.80888人人30082221.10888上上小计计2579999914.68999991941166621.5655555104211117.96000004502655516.55888BBB3000使使7508880.42888夫夫4204440.46777思思188880.32444可可10738880.39666___七小计计4545711125.88333333176477735.2899999155533326.80555557678388828.28888CCC10000渭渭3248880.18555雕雕1363330.15111育育80000.13888未未4808880.17777...仁总计计7865422244.78555554827899953.6355555237700040.967777712661200046.64555综合类数据是以下讨论的主体,这里兼出A级10字,分行排列如下:A级10字:之不以也而高子其曰人B级20字:者王有敖公大只U天然下君所故圃是十典上夫可C级70字:三使侯臣矣将得二言于事一行能民年至中知此何相杳自秦乎五晃必太如乃谓今欲褚道皆非百死然畴生楚出筱日四帝在立月兵军令用地成捉若明简入及文畏吾我未.22.3文献材料数据表(表2一2见下页).22.4补充说明与一般观察从表1和表2一1的对比可以看出,不但不同类作品的用字彼此存在差异,即使是同类作品之间也存在一定差异。如,“表1”《左传》极高频A级10字降频是“之子曰不也公以而其人”,表2一1“历史类”极高频A级10字降频则是“之不以高而日子王也其”:表1“综合”栏极高频A级10字降频是“之子不日也以公而其人”,表2一】“综合”栏极高频A级10字降频则是“之不以也而高子其曰人”,频率次序均有相当调整。这表明规模的扩大意味着偶然性的减小,而扩大了规模的极高频字统计更具典型性、代表性。至此可以较有把握地回答古汉语里究竟哪些字最为常用的问题,它们就是“之不以也而高子其曰人”等。按表2一2,我们统计了23种作品,带标点总计3342963字,不带标点总计2714387字,标点占1.88%。在这23种电子版繁体汉字作品中,共出现单字8162个。8162个单字,减去仅出现1次的冷僻字2954个(约:卜36.19%),所余5208个单字(约占63.81%),大致就是先秦两汉汉语中的“通用字”。这5208个`·通用字”对于2714387字文献材料的覆盖率达99.891%。⑥三极高频字的分布.31词性分布古汉语的词汇系统是以单音节为主的词汇系统,而一个汉字往往就是一个词,因此可以说,古汉语里的极高频字往往就是古汉语里的最常用词。同样顺理成章的是,古汉语里的最常用词承担着古汉语里最常用的表达任务,它在语法上的折射则是最常用的语法范畴、语法类型。这为通过文字形式探讨语法问题提供了较高程度的可能性:尽管其间的区别也会带来一定偏差,运用时需要谨慎折算处理,但在大方向上仍不失其独有的利用价值。表2一2作作作品品有标点字数数无标点字数数标点比率率单字量量历历历今文尚书书2069555163577720.9666159777史史史史史史史史史史史史史史史史史史史史史史史史史史史史史史左左左传传250799991960433321.8444323888国国国语语9263555719533322.3333259222战战战国策策162946661297422220.3888264999礼礼礼记记12257666982022219名999297333史史史记记609856664990133318.1888472111汉汉汉书书905946667449244417.7888531555[[[[[类综合]]]21654533317562344418.9000683000诸诸诸周易易30221112184777277111135777子子子子子子子子子子子子子子子子子子子子子子子子子子子子子子周周周老子子66222254777717.300079555易易易易易易易易易易易易易易易易易易易易易易易易易易易易易易附附附论语语2160444159622226.1222134555前前前前前前前前前前前前前前前前前前前前前前前前前前前前前前墨墨墨子子9396222772277717.8222239999商商商君书书2433222202577716.7555118777孙孙孙子子74244460855518.044476888庄庄庄子子7956777644644418.9999289888孟孟孟子子4479000352899921.22}}}187666荀荀荀子子9099555748999917.6999250999韩韩韩非子子128032221063377716.9555266333管管管子子154663331265599918.1777276444晏晏晏子子5452888439755519.3555199444吕吕吕氏春秋秋1235188810100555182333295444论论论衡衡246904442007488818.6999318333[[[[[类综合]]]1107162229001311118.7000552333诗诗诗诗经经3850111309788819.5444281000歌歌歌歌歌歌歌歌歌歌歌歌歌歌歌歌歌歌歌歌歌歌歌歌歌歌歌歌歌歌楚楚楚辞辞3184777270444415.0888310333[[[[[类综合]]]7034888580222217.5222425000总总总[共23种]]]3342963字字2714387字字18.80%%%8162字字工LI极高频字(词)主要词性分布表(表3)。表3溉溉溉词性分布布类次数数类比例例单音节节多音节节词均次次词均比比(((((((次)))(%)))词(个)))词(个)))(次)))(%)))名名名子人王公天下:君故.圃上:夫.使:侯臣将.言:::2502000022.22444们们1920006102220.54222事事事.行,能,民年中.知,相,杳秦今.欲:道:畴,,,,,,,,楚楚楚援.日帝月兵军令,用J地文文文文文文文文动动动高:曰有然:下:舆.上:可使2得言2事:行2能2222316000020.572223666140006433330.57111至至至中:知:相2晃.如.渭欲:死生出在.立令:::::::::::::::用用用2成捉.若.简入及畏,,,,,,,,形形数数大下3故:是1上3中3太褚.非,然:明畏:十三三1262000011.21000l99980006642220.59000二二二一,五百四四四四四四四四副副副不其.热2将J一2相,自:觅2必乃J今2皆非22210630000.9科222l66650006644440.59000畴畴畴:俊:未未未未未未未未代代代之1其,是2夫.此何乃,褚,若.吾我我9060000.804888llll<10008236660.73222介介介以.高2赞典,于自2乎i在2捉22293800008.33222999<100010422220.92666连连连以:而具U故3典3如2然:若:::89000007.905558882<OOO11125550.98888助助助之:也者夫.所矣乎,,1381000012.26777777<100019729991.75222综综合统计计合计计合计计合计计合计计总均次次总均比比1111112580000100%%%147772<240007659990.6803.1.2词性分布说明表3词类行次从实到虚排列。这个行次本是依据通常顺序(名、动、形、数、(量、)代、副、介、连、助(、叹))排列的,但我们做过数据统计后发现,古汉语词类的实虚顺序大致可按“词均次”、“词均比”(见表)的递增顺序排列,因而进行了尝试性的大胆调整:合并形容词和数词;代词后移。至于量词和叹词,它们在古汉语里出现的次数本来就很有限,涉及极高频字的就更少;偶尔涉及到的,量词姑且计入名词,叹词姑且计入助词。对于极高频字(词)的词性分布,表3的处理方式是:当一个字有多种用法且分属不同词类时,如果其间具有源流关系,则依次下标序号(也有例外,特别是名、动之间,颇有从动到名发展的,但标号次序不变);如果其间没有历史渊源关系或关系不很明确(如彼此为假借用法),则在后面加下标`,j”。如:“之”在古汉语里主要有代词、助词两种用法(动词等用例较少,仍照例统计,但不标字目⑧),其间或有一个从代词到助词的派生过程,可用“之,一之2”表示。“以一以2”(介~连),“高一高2”(动~介)等仿此。副词“其”与代词“其”之间是否存在“其一其J”的源流关系,不易论定,代词作“其J”。表3右五列是通过部分抽查概算出来的词性分布统计数据(原则上通过微调精确到百位)。“类次数”表示极高频字(词)在各词类中出现的次数,合计1125800次。这1125800次是词化后的统计:只要多音节词中含有极高频字,此处就给予统计;如果多音节词中含有两个或两个以上的极高频字,则不予重复统计。这样,经折算后,此表中统计到的词次数要比前文表2一1中统计到的字次数少140320次。由于古汉语的多音节词中,双音节词占绝对多数,所以可大致理解为在古汉语极高频范围内,就动态文本而言,双音节词占1.2646%,单音节词占87354%。次一栏“类比例”是“类次数”的百分比,合计为100%。按照“类次数”或“类比例”所得八类词的降次/降频排列是:名>动>助>形数>副>介>代>连。“单音节词”表示每类中所含单音节词的成员数,因一个字可能分属多个类,故合计为147个,比100极高频字多出47个。这也意味着极高频字的语法一语义负荷很重。“词目数”降次排列是:名>动>形数>副>代>介>连>助。“多音节词”分类统计单音节词构成多音节词的个数(为静态的常见同性多音节词统计,原则上精确到十位),合计略少于2240个。其降次排列顺序与“词目数”大同小异,所异者是连词的个数略多于代词和介词。“词均次”是“类次数”除以“单音节词”所得结果,表示某词类中平均每个单音节词所出现的次数。某词类的“类次数”多,或许是因为其成员多,名、动就是这样。由此可见,“类次数”是绝对值指标,主要体现的是某类词整体的负荷量;“词均次”是相对值指标,主要体现的是该类词中每个成员作为个体的平均负荷量。提出“词均次”的直接目的是便于从个体观察整体。“总均次”不是“词均次”的综合平均数,而是1125800除以147所得的结果,表示147个词在1125800词数的语料中平均每个出现7659次。以此为界标,其上属实词(平均出现次数少于7659)、下属虚词(平均出现次数多于7659)、实词部分有接近于“总均次”的形数、副词,处在过渡状态,是半实半虚的类型。“词均比”是“词均次”的百分比,“总均比”.0680%的数值同样可以作为实词与虚词的界标(参看图1)。按照“词均次”或“词均比”所得八类词的增次/增频排列是:名<动<形数<副<代<介<连<助这个顺序与“单音节词”数目的降次排列相同。经与现代汉语等统计数据相对比,证知“单音节词”降次排列可有一定波动(虽然波动不大,就像“多音节词”中连词会稍多于代词和介词那样),而“词均次”或“词均比”增次排列则更趋稳定,也就是说,有更大的必然性。有鉴于此,我们认为,“词均次”或“词均比”增次/增频排列的顺序应该就是汉语词类(古今大致一致)从实到虚的本然顺序。明确汉语从实到虚的本然顺序有着重要意义,对于语法化研究尤其重要,因为它在事实上为语法化研究找到了一个可靠坐标。下面把表3的数据转换成形象直观的图示(图)l,以求醒目。⑨因二团团口形形数数’`一一名名名名频频频频频级级外延延虚实实功能能助助助助助助助助助助助助助助助助’’’’’高高封闭闭虚虚调配配·····中中过渡渡过滤滤过渡渡副副副副·低低开放放实实骨干干动动动动动动动动动图,极高频字(词)主要词性分布示意图图示以词框的高低表示相对频级的高低,以词框的宽窄表示字词绝对数量的多少,以各词框右部的虚实程度、宽窄程度表示各类词开放、封闭的性质及大概的可扩展度。图右的标注是图示基本含意的文字说明。.31.3词性分布论析如图1所示,联系到频级情况,可从外延、虚实、功能诸角度对词性分布加以探讨。图1表明,频级、外延、虚实、功能几方面具有相当的统一性:这种统一性在典型意义上是倾向性,在本质属J性上就是规律性。通过量变的排比以寻求质变的答案,此一宏观问题可望得到较好解释。各词类的外延情况差别很大,底层的名、动外延开放,高层的代、介、连、助外延封闭,中层的形数、副词半开放、半封闭。假如我们只统计极高频A级的话,高层词类的词在频级上将会更加突出,而其下层词类的词将“望尘莫及”;又假如我们统计到全部字词的话,底层词类所占比例将会稳定增加,而其他词类的增幅则会相对小些。为什么呢?原因就在于类型的高封闭性与词均的高频率性紧密相关;比较而言,类型开放意味着成员繁多、总体频率不低、词均频率不高(但在极高频A级也占可观的比例,那是由词汇的离散性造成的)。名词、动词的频率情况显然属于后者。在一种语言的整个词汇系统中,封闭性强的词类一般地总是对应于相对高频的词类,而相对高频的词类一般总是虚的,总是此种语言中语法要点的最重要的承担者、体现者。从封闭、开放或虚、实角度看世界,各种事物无不如此,可见语法体现了物质世界的普遍法则。从极高频字词看古汉语的语法要点,判断、否定、疑问、指代以及关联诸范畴均居于显著地位。以判断为例,涉及助词“者、也”,副词“乃、非”,动词“高、曰”等,其中的“者、也”甚为典型;“乃、非”和“高、曰”等虽非虚词,但也都因为具有特殊封闭性和与表达判断范畴关系密切而有别于一般的开放性实词。。再以否定为例,涉及到的字词有“不、热、非、未”等。封闭性强的词类处在高位,开放性强的词类处在低位,彼此对立明确,不相混淆,由此证明词类虚、实与词类封闭、开放之联系的紧密。代词语义很虚;通常认为代词属于实词,现在看来这种归属不一定合适,至少对于古汉语不一定合适。代词的语义是漂移的,所指一般并不固定:它们虽可单独作句子成分,但却很少单独使用。如果把代词归入虚词,则词类的虚实与词类的封闭性、开放性就基本一致起来了,而这对于古汉语语法的易于分析把握未尝不是一件好事。形数、副词属于半封闭、半开放的类,可相应地认为是半虚半实的类。古汉语形数、副词的主要功能一是前置构成偏正结构的偏的部分(定中的定或状中的状),二是后置作述语(相对于主语)或补语(相对于述语),且罕有独用者,可见半虚半实也确实合乎它们的自身特点。从词类功能看,作为实词的名、动主要起支撑、解释作用,可以合称“骨干词”;作为虚词的代、介、连、助主要起调节、配合作用,可以合称“调配词”;处于骨干词和调配词之间的是半实半虚的形数、副词,它们具有双重身份,兼有双重功能,但又没有两极词类那么典型、充分和完整。这便是古汉语词类的“梯级”分布和“链式”结构,层层相叠,环环相扣,并由此构成一个统一体。3.2语义分布高频虚词应语法要点而产生,高频实词应语用热点而产生;实词之能够进入高频行列,主要的动因在于语用,在于某些语义在语用条件下的高度激活。上节讨论了极高频字词在词性分布上的表征,本节期望能观察到极高频字词在语义一语用分布上的表征。这同样是个值得认真探讨的宏观问题。12.1字频变化与义项分布我们起初设想在义项数量的静态分布上可以看到一个明晰变化,然而事实否定了这一设想,因为义项随频率变化而变化的量甚小,在小范围内几乎观察不到。请看后面表4的“主要义项分布”与各“频级”的对应情况,其静态部分并没有明显的衰减轨迹(平均.481个)。放大观察范围后,其衰减轨迹才有所呈现。《汉书》字频排在第1001一10or号的10字是“柴舞捐的身佐豫祥纳怪”,排在第2001一2010号的10字是“砰懦腊陌眠妙裹脏潞谬”,排在第5001一5010号的10字是“揭拮醋警蘸翰越崎激皎”,其平均义项数量虽渐近于1(单一、单纯),但变化幅度仍嫌不够明显。再看这些低频字的词性分布,可发现它们大致已全属实词。由此可知,上面说的词性分布对于频率变化的反应是敏感的,而这里说的义项分布对于频率变化的反应是不敏感的;从不太敏感点入手探讨问题,似乎并非理想途径。统计义项的动态分布是个功德无量的工程,但这首先需要对基础文本进行全面的义项标注,一人一时实难做到,此处只好从略。为探讨字频变化与义项分布的有机联系,下面尝试引入“根词”、“极高频根词”概念,以便转换一个新的视角。.3.22极高频字与根词词汇系统可分为基本词汇和一般词汇两部分,基本词汇是词汇系统的基础。基本词汇又可分为根词和非根词两部分,根词占据基本词汇的核心位置。根词,也叫核心词,以词义方面具有超强的稳定性、构词方面具有超强的多产性、语音方面具有超强的凝固性为主要特征。可通过两种途径获取根词集:一种是经验型的,主要依据词义的原始性、普适性、单纯性、基础性等,以单音节词为主进行筛选;一种是统计型的,直接从多音节词汇中提取出现次数最多、时空局限性最小的一些单音节词。这两种途径所得结果并不完全一致,差异主要表现在对“人体词”(如血、肉、耳、目等)、语法词(如人称代词、判断词、处所介词等)的处理方式不同:前者允许常用“人体词”、语法词进入根词系统,后者不允许任何构词能力不强的词进入根词系统。西方学者斯瓦迪士(M.swadesh)在19世纪50年代从印欧语言中先后挑选出200个、100个最稳定的词作为基本词(核心词),是经验型的,我国当代学者陈保亚先生(19%:187)认为“有一定的普适性”。陈先生曾设想“通过语素的组合指数来确定词汇的阶”,但并未实现。笔者所见有限,未注意有学者提出系统的汉语根词集。为便利与极高频字进行对比,我们新近从自备的12万条古今兼容多音节词词库中提取出一个300根词集,但未对时空局限性作严格排查。前100字如下(降序):子人不大一老生心水小地然中圃有工下李天上行勤出凤分家手事面主花高力文自作登口外畏阴成朋山相物筱白来道握年民合用理平重金火光公流峙焉本高日方情海军明眼得卓起三名言数政空色好意羲教崖定通神食正路新前晃同身下面是“极高频字主要义项分布、极高频字与根词重合字表”(表4)。表4羹羹淤、、遭竺竺A级级B当当贬贬C级级合计计IIIII000200030004000500060007000800090001000000主主要义项分布布622242224999422261114555388846664777499948111与与根词词经验验不曰曰大大舆舆舆一此此何显显皆皆死日日月地地若简畏畏l999重重合字字型的的人人人人人人人人人人我我我统统统计计不高高有公大大圃上上三得得事一行行相自兑兑道道峙生出出罩用用明文一良良3888型型型的的子人人天熬下下可可门门民年中中中中俊日日地成拿100极高频字与我们新得前100根词(统计型的)在主要义项上与斯瓦迪士100基本词(经验型的)。进行对比,可从中发现一些重要信息。极高频字与统计型根词重合38字,与经验型根词重合19字,差异明显。两种类型根词在此自身重合只有8个(不人大一晃日地畏),数目太小。如果把两种类型根词综合起来,可得49字与极高频字重合,但这实际上等于把根词对比的数目扩大了,也不恰当。为稳妥起见,下面的分析主要基于统计型根词。相对而言,极高频字与根词似乎取向很不相同:极高频字代表了词汇中最常用、最活跃的部分,含有较大时空变数;根词代表了词汇中最基础、最稳定的部分,含有较小时空变数。既然取向这么不同,两者的重合比例何以会那么高呢(假设在数以万计的汉字中做两次随机的百字抽取,其重合概率也只有百分之一左右)?换句话说,有38字兼备极高频字和根词的双重性,原因何在?其实,通过排除定位的方法就可以很快找到问题的答案:所有频率不高的字被一概排除了,但构词众多的字不在其中;所有构词不多的字也被一概排除了,但高频实词一般不在其中;经此排除,所剩下的字已很有限。再从正面看,高频实词本身就倾向于多产,多产的根词本身就倾向于高频,两者显然并不矛盾,也不游离,而是处在相互交叉状态;为倾向性所决定,交叉的部分还不会太小—交叉部分的字便是具有高频与多产双重性的字。由此可见,所谓“取向很不相同”,实际上也只是观察事物的着眼点很不相同,并不意味着矛盾或游离。可以给极高频字同根词重合的部分起个专名,叫做“极高频根词”。极高频根词的主体由极高频字中构词能力较强的实词组成;极高频根词不包含极高频字中的虚词和时空局限性强的实词(如君、臣、鸯、楚等)。极高频根词的成功离析和界定,可使我们对极高频字和根词各自的构成特点有一个更准、更细的认识。1.23极高频根词的历史走势极高频根词的历史走势是个大问题,这里无法深入讨论,只是附带论及。请看下面的系列图示。高频词300200100233646O64ō、ù,l气JO八ù成Uōfé,j|||广|!卜|.|卜000000傀、ù,`l高频字O—100200300根词图2一,古代汉语高频字与根词重合情况分级对比图O一10020030()根词图-22现代汉语高频词与根词孟合情况分级对比图画画画工远古状态H发展状态m再发展状态图例大圆表词汇系统;小圆加竖表高频词;小圆加横表根词:重合部分表极高频根词。图2一3极高频根词历史走势示意图图2一1取古汉语高频字和根词各300个,分三级对比两者的重合情况。纵坐标分别三级高频字,1一100高频字与1一100根词重合38个(即极高频根词);101一200高频字与1一100根词重合巧个,加合为53个;201~300高频字与1一100根词重合8个,加合为61个。38衰减到15、再衰减到8的重合数,说明上文(3..22)关于100极高频字与100根词高比例重合的判断是合理的。横坐标分别三级根词,l一100根词与1一100高频字重合38个(己述,即极高频根词);101一200根词与1一100高频字重合16个,加合为54个;201一300根词与1一100高频字重合6个,加合为60个。38衰减到16、再衰减到6的重合数,同样说明关于100极高频字与100根词高比例重合的判断是合理的。图2一2取现代汉语高频词和根词各300个,分三级对比两者的重合情况。解说可如图2一1类推,请特别关注各级重合数的不同。另外,古代汉语以“高频字”隐指高频词,而现代汉语字词差距很大,最好以词为统计单位。。对比图2一1、2一2可知,极高频根词在古今汉语里的数目有明显差异:古代汉语38,现代汉语23。据此可尝试对极高频根词的历史走势做出如下推断:远古汉语的极高频根词数目会比古代汉语更大,未来汉语的极高频根词数目会比现代汉语更小。这一推断的基本内容,比较直观地反映在图2一3之中。本文之所以做出极高频根词的数目会越来越小的推断,除有统计数据的支持外,还出于对辩证唯物主义历史观的尊重:自然、社会,人的认知和人的语言,其中有一个从简单到复杂、从低级到高级的、同向但不同速的发展过程。远古人类生活内容有限,认知范围有限,语言表达所常用的词汇(常用即高频)也就有限(有限必向根词集中),而极高频根词的数目自然很大。随着时代推移,血缘界限、地域界限、行业界限终将被一一打破,人类生活内容空前丰富,认知范围空前扩大,语言表达所常用的词汇必会随之拓展范围,增加标识,趋于抽象,并因应社会和认知不断涌现的新的热点而加快变换节奏。极高频根词本是极高频词与根词重合的产物,当重合面减小、胶着力减弱时,数量自然会降下来一些。数量衰减意味着趋O,但趋O只是接近0,却很难达到0。换言之,极高频根词一般不可能消失,不可能从根词中游离出去。至于再往前推,推到语言的初始状态,则两圆该是几乎重合(接近100),但又不会完全重合(达到100)。如果以上论证能够成立的话,可以设想,极高频根词数目从多到少演化的推断,不仅适用于古今汉语,而且适用于其他语言的演变。当然,根词本身也还有是否可以断代、是否容许转义以及范围到底多大等问题。篇幅所限,此不繁说。.3.24极高频实词的语用解释这里主要讨论社会文化高热点与极高频实词之间的因果关系。为方便讨论,极高频实词可以三分:第一分为“长后延极高频实词”,亦即极高频根词,见表4所列“统计型的”38字;第二分为“中后延极高频实词”,含极高频字与101一300号根词重合的“入死二月能兵立知百五四徒在使非十今令lRJ欲太必”22字;第三分为“短后延极高频实词”,含“王君侯臣杳秦楚简曰至渭未”等字。三分极高频实词本属连续体,相互间并无截然分明的界限。三分极高频实词在语用方面的相同处是都属于文献撰写年代的社会文化高热点词,不同处是保持高热点词地位所向后延续的年代有长短之分,如图3所示。i【所同11【所异1l(文献年代)i后延年代)卜--~.......叫一短一中一一长图3三分极高频实词同异示意社会文化的高热点是极高频实词存在的直接动因和充要条件。“社会文化的高热点”宜作广泛而抽象的理解,举凡能够引起人们高度关注和高度重视的事物、事件、状况、数量、关系、理念等均在其中。古汉语文献以春秋、战国、秦汉时代为主,当时的政治、军事、战争以及哲学论辩等都是特别引人注目的热点问题,因而与此相关的一些字词,像“王、侯、臣、霄、秦、楚”等,使用频度随之剧增。试设想,假如没有齐、秦、楚三国,或者三国的重要性不够、引人注目的程度不够,“鸯、秦、楚”三字还能够进入极高频实词行列吗?又假如鲁、宋、燕三国比齐、秦、楚更重要、更引人注目,它们的使用频度还可能比齐、秦、楚低吗?当然,引人注目的因素不只是重要性,还有新颖性、变动性、唯一性、对立性、持久性等。拿现代例子来说,电脑出现了,才/就会有“电脑”一词;电脑的重要性、新颖性、变动性等足以成为引人注目的高热点事物,于是“电脑”一词的频率才/就会迅速攀升。古今道理是相通的。极高频实词(特别是中、长后延极高频实词)里的一些成员除了具有超常的重要性、持久性外,还具有很强的唯一性、对立性,它们的地位不可替代、难以动摇,因而能够通行于古今。如“圃、事、天、地、人、民、高、用、可、使、有、熬、生、死、大、上、下、中、俊、出、入、不、非、必、日、月、年”以及常用数字等。。以上道理或许太简单了,简单得就像开多大水龙头就出多大的水一样。其实,这种简单到家的“水龙头效应”正是奥妙所在。既然社会文化热点与字词频率变化有直接因果关系,那就不仅允许由因求果,而且一定允许由果求因—把字词频率作为社会文化的“晴雨表”,透过字词频率的变化去分析社会文化的变化,透过极高频实词的构成去探究社会文化的高热点、大潮流,就如同透乎水流量的大小去判断水龙头打开的大小一样。字词频率对于关注程度的高灵敏度反应特性,可以广泛运用于经济形势分析、社会动态调查、密码破译、刑侦破案诸多领域:“无风不起浪”,特殊的频率必有特殊的起因。从这个意义上说,如能有杰出学者为之倡导,则建立起一门系统的频率语言学,决然不会是徒劳无益的“空穴来风”。13字音、字形分布所体现的“经济原则”字音和字形是两套连带的符号系统。两者的主要不同之处在于:前者作用于听觉,是主体;后者作用于视觉,是副体。主要相同之处在于:都具有自然、社会双重属性,都属于符号代码表意系统,都遵从“约定俗成原则”、“经济原则”和“分配原则”(关于词语离散性有机分布的原则)等。因极高频字音、形分布系统对经济原则有典型体现,而以往对此观察、研究得又不很充分,所以本节拟予专门讨论。从实质上讲,“经济原则”就是讲求效率的原则:用较少时间花费获得较高交流功效,在花费与功效之间找到一个最佳结合点、平衡点。这一思想同优选法原理相通,只不过它是长期“磨合”、自然“锤炼”的结果,并非一时一地人为因素所营造。譬如有个字,我们每天就用它百次(常用字),又有个字,我们百天才用它一次(冷僻字),那么按照“经济原则”的要求,前者将相对趋简,后者将相对趋繁。或许有个别例外,但一旦扩大到整体和系统上,走向必会十分分明。又譬如前面提到的例子“电脑”,也叫“计算机”,“电子计算机”,刚兴起时对它的称名还争论了一阵;其实,随着频率的提高,人们会自然而然地做出选择—“电脑”,且不说“名实”问题,单从“经济原则”和频率走势己不难得其仿佛。在“经济原则”作用下,极高频字在音、形等形式方面应有一个明显的简化趋势(可叫做“高频从简”或“高频压缩,’)。而且由于极高频字一般属于“高活性词”,不属于“惰性词”,其简化属于频率性调整(个体调整为主),不属于结构性调整(类型调整为主),因而其理论解释似乎更倾向于支持词汇扩散论的“有例外变异”学说,不倾向于支持历史比较法的“无例外变异”学说。。近、现代汉语“了”的语音变异就是很典型的例子:il[au〕>l[ao]或〔!ou〕>l[a]或l[。]。。声学实验成果、语言发生模式(起源模式、习得模式)及世界语言语音的常规构成显示,音素、音节的动态选择可有下列的一般序列(>表多于或优于;/表平列;暂不考虑声调、长短等因素):。*部位(方法同)舌尖中/舌根/双唇>舌尖前/舌尖后/舌面~闷方法(部位同)塞>擦/塞擦;不送气>送气;鼻>边:浊/清元音间/[e]/[i]/[u](/[。1)>[a]/[。]/[o]/[。];标准元音>非标准元音。音节(单音素/)二音素>三音素>四音素..(·);(词长:单音节>多音节)这个序列的形成一定有其生理的、声学的基础,也一定与“经济原则”及普遍的频率倾向有紧密关联。下面从“经济原则”视角看古汉语极高频字的语音分布。古音学家关于古音系统有各种构拟,这里主要采用黄侃十九纽、王力三十部(有等呼)的说法。下面是极高频字古音分布的一般序列列示(取声韵母分类,不取元辅音分类,两种分类区别明显,但这里并不影响排列次序)。舌尖中39>舌根29>舌尖前18>双唇12(凡98;零声母2)塞43>塞擦24>擦7:鼻22>边2;浊59>清39(零声母2),四音素43>三音素25>五音素17>二音素14>六音素1因各家对元音的构拟分歧严重,这里不予罗列、排序;不过大致可以肯定,如果所拟主要元音中缺少〔a]/e[]/i[]/【u](/【司)等通行的强势元音,总是不完善的。。100极高频字古音分布的声纽序列与上出普通序列基本印合,应系正常次序。100极高频字古音分布的音节序列与上出普通序列出入太大,值得重新思考:我们认为,不是普通序列错了,而是构拟系统出了问题:音节偏长而且长短错置。构拟系统100极高频字的平均音节长度为3.“音素,高峰值在三、四音素上,这在世界各种语言的100极高频字词序列里恐怕均难以达到。现代汉语100极高频字的平均音节长度才.274音素,高峰值在二、三音素上。应该说,已故王力先生构拟的音苗还是较短的(问题可能主要出在等呼部分不当),而有的构拟系统音节更长,几近无法开口,偏差也就更大。至于高峰值的
/
本文档为【GuDai_HanYu_JiGaoPinZi_TanSuo_2001】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索