【冯志伟】汉字的熵下载_在线阅读_6

首页 > 【冯志伟】汉字的熵

is_277965

暂无简介

【冯志伟】汉字的熵 · 冯志伟 · 汉字的嫡本文用逐渐扩大汉字容量的办法 , 计算出当汉语书面语文句中的汉字容量扩大到�� 个汉字时 , 包含在一个汉字中的嫡为� � �� 比特。并从理论上说明了 , 如果再进一步扩大汉字容量 , 这个嫡值不会再增加 , 因而� � �� 比特就是在全部现代汉语书面语文句中 , 包含在一个汉字中的嫡 � 嫡是反映语言的数学面貌的一个重要的信息论参数。在与汉语有关的通讯技术和中文信息处理的工作中, 有必要了解汉字的嫡 , 这样才能做到胸中有数 , 把这些工作搞得更有成效。从信息论...

· 冯志伟 · 汉字的嫡本文用逐渐扩大汉字容量的

办法

鲁班奖评选办法下载鲁班奖评选办法下载鲁班奖评选办法下载企业年金办法下载企业年金办法下载

, 计算出当汉语书面语文句中的汉字容量扩大到�� 个汉字时 , 包含在一个汉字中的嫡为� � �� 比特。并从理论上

说明

关于失联党员情况说明岗位说明总经理岗位说明书会计岗位说明书行政主管岗位说明书

了 , 如果再进一步扩大汉字容量 , 这个嫡值不会再增加 , 因而� � �� 比特就是在全部现代汉语书面语文句中 , 包含在一个汉字中的嫡 � 嫡是反映语言的数学面貌的一个重要的信息论参数。在与汉语有关的通讯技术和中文信息处理的工作中, 有必要了解汉字的嫡 , 这样才能做到胸中有数 , 把这些工作搞得更有成效。从信息论的角度看来 , 用自然语言交际的过程 , 就是从语言的发送者通过通讯媒介 , 传输到语言的接收者的过程〔�〕。语言的发送者连续地发送出一个一个的语言符号 �如英文字母、汉字等 � , 而语言的接收者则连续地接收到一个一个的语言符号 �如英文字母、汉字等 � 。如果我们把这些语言符号的发送或接收看成是一些随机试验 , 把所发送或接收的语言符号看成是随机试验的结局 , 那么 , 语言就可以看作是一系列具有不同随机试验结局的链〔�〕。如果语言只有两个符号 , 而且这两个符号的出现概率有很大区别 � 例如 , 一个符号的出现概率为 � � �� , 而另一个符号的出现概率为 � � � � � , 那么 , 在接收者接收到语言符号之前 , 他能够满有把握地预言 , 他最可能接收到哪一个符号 , 而不大可能接收到哪一个符号 , 也就是说 , 这个随机试验结局的不肯定性程度很小 , 而当语言的符号数目增大时 , 接收者预言他所可能接收到的语言符号的把握就减小 , 也就是说 , 这个随机试验结局的不肯定性程度增大了。当还是这些数目的语言符号而这些符号的出现概率相等的时候 , 接收者不能对其中的任何一个符号寄予较多或较少的希望 , 这样 , 预言他所可能接收到的语言符号的把握就更小 , 也就是说 , 这个随机试验结局的不肯定性程度更大了。但是 , 不论在哪一种场合, 当接收者一旦接收到语言符号之后 , 这种不肯定性便被消除。这时 , 我们就可以说 , 接收者从所接收到的语言符号中获得了一定量的信息。不肯定性消除的程度越大 , 获得的信息就越多。因此 , 我们可以用在接收者接收到语言符号之前 , 随机试验结局不肯定性程度的大小来

表

关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf 视力表打印pdf 用图表说话 pdf

示语言符号所负荷的信息量。在信洲鱼胆史竺� � 担堕坦丝结局的王赏宝丝程度一鲍齐皿、叭做娜。一在接收到语言符号之道婆� � � �垣里语言蠢号的数目和出现概率的不同而有所不回。布接收到语言符号之后� 不肯定性被逍除, 嫡等于零、 ,可见 , 信息量等于被消除的嫡 , 我们只要测出了语言符号的嫡 , 就可以了解到该语言符号所负荷的信息量是多少。如果我们做某一有� 个可能的等概率结局的随机试验 , 那么 , 容易证明 � 这个随机试验结局的嫡 � 。应该与 �� 。 � 成正比。即� 。 � � �� 。 � , 其中�为比例常数信息论中采用比特 � �� 作为信息量的单位。如果某一消息由两个出现概率相等的符号构成 , 那么, 包含在这个消息的符号中的信息量 , 叫做 � 比特。由于信息量等于被消除的嫡 , 因而我们也可采用比特作嫡的单位。当 � 。的单位用比特, 对数的底数 � � � 时 , 比例常数� �� 。这时 , 我们得到公式 � 。 � �� 如果随机试验有 � 个结局, 而这些结局是不等概率的 , 设第 � 个结局的概率为 � � , 那么 , 这个随机试验结局的嫡 � 用下述公式计算 � � � 一习 � � �� 二 � 在公式 � � � 中, 因对数以 � 为底 , 故嫡的单位是比特。且 � � �� 公式�� 是一个更为一般的公式。如果我们把汉语书面语的发送和接收看成是随机试验 , 那么 , 这个随机试验的结局就是汉字, 这个随机试验结局的婉就是包含在一个汉字中的嫡。由于汉字在汉语书面语中的出现概率是不相等的 , 下面我们将采用公式 � � � 来计算包含在一个汉字中的摘。汉语书面语的组成符号是汉字。汉字的数量很大 , 据《康熙字典》记载就有 � � � � 个。目前报刊杂志上用的汉字大约也有八、九千个 , 而且这些汉字在书面语中出现概率又不相同。因此 , 要测定在汉语书面语文句中, 包含在一个汉字中的嫡 , 其计算是十分繁复的。近二十年来, 国外学者已经陆续地测出了一些使用拼音文字的语言如英语、法语、德语、俄语、意大利语、西班牙语、罗马尼亚语等包含在一个字母中的嫡。这些语言使用的字母数目非常有限, 如俄语只有 �� 个字母 , 英语只有�� 个字母。要测出这些语言包含在一个字母中的嫡是比较容易的 , 而要测出包含在一个汉字中的嫡就困难得多。本文作者多年来进行汉字嫡的统计和计算工作 , 初步测出了包含在一个汉字中的比较稳定的嫡值。要测汉字的滴 , 首先要计算出这些汉字在汉语书面语中的出现概率。为简单起见 , 我们可以认为 , 在相当长的文句中 , 汉字的出现概率 � � 近似地等于它的出现频率 , 例如 , 在文句的总字次为 � � � � �个字次时 , “ 的”字的出现次数为� � � �次 , 那么 , “的” 字的出现概率 � � � �� 。应该注意 , 汉语中文句的总字次与文句中出现了多少个不同的汉字是两个不同的概念。我们把前者称为文句长度 , 用�表示 , 把后者称为汉字容量 , 用� 表示。我们用逐渐扩大汉字容量的办法 , 根据公式 � � � 计算出在不同文句长度、不同汉字容量时 , 包含在一个汉字中的嫡如下 � 文句长度 � 汉字容盆 � �� , � � 。。, � � � 。, � �� ‘�� , � � ‘��“‘�� , ‘� � 一早甲一卜� 竺竺� �⋯一竺竺� 一卜竺竺� �⋯“ � 了· � � � � · �� 。· � � ��比特 � � �比特 � � �比特 � � �比特 � � � �� 墒 � � � � � �比特 � � � � � 比特 � � � � � �比特 � 从上表中我们可以看出 , 当汉字容量 � 比较小的时候 , 随着汉字容量 � 的扩大 , 摘值�相应地迅速增大。而当汉字容量 � 继续扩大时 , 嫡值�的增加就变得比较迟缓了。当汉字容量� 很大时 , 随着汉字容量 � 的扩大 , 摘值�的增加就更为迟缓了。随着汉字容量的继续扩大 , 摘值�的增加越 � 来越不显著。当汉字容量� 从 �� 扩大到重� � 。时 , 嫡值由� � �� 比特增加到 � � �� 比特, 仅增加了 � 。 � �比特。估计 , 当汉字容量 � 超过 � � � � 。以后 , 随着汉字容量 � 的继续扩大 , 烧值�不会有显著的增加。下面, 我们画出汉语文句中包含在一个汉字中的炳 � 随着汉字容量 � 的增加而变化的图象。横坐标表示汉字容量 � , 纵坐标表示包含在一个汉字中的嫡 � � 为什么随着汉字容量的不断扩大 , 包含在一个汉字 �一�一 � 一�一� ” 中的烙会增加得越来越迟缓呢 �这是因为 �第一 , 随着汉字容量的扩大 , 文句中常用汉字的出现概率逐渐趋于稳定 , 不再会有明显的增大。例如 , 常用汉字 “ 的” 字在不同的汉字容量中由公 �,州到司叫灼�单位峨。�� 比待� 二�� 旧习� �马�� 乙� 江工文句古量 � 单位 � 个 � 巴 � � 随首 � 的增大, �的增六越米脚旦级式 � � , 、 � � ‘, 二 , � � , � , � � , � �一孟不甘异出盯出现矶举见� 卜�、 , ��人,曰只� ��口��汉字容量 � 文句长度� 出现次数 �� 出规概率 � � �� ⋯一三燮些生卜, 些竺三一一⋯一一竺竺里竺一卜一里生一卜一竺些二一一�一竺兰旦卫竺一� � · �� 、� · �� · �� 从表中可看出 , 当汉字容量较小时 , 随着汉字容量由� � � �扩大到 � � �。, “ 的” 字的出现概率由� � � � �陡然降到� � �� , 但随着汉字容量的继续扩大 , “的” 字的出现概率逐渐稳定于 � � � �� 。汉语中 “的” 字的出现概率最高 , 因此 , 汉字的出现概率 � � 毛。� �� , 即� � 在区间 � � , �� 内取值。在这个区间之内 , 一 � � �� 随着 � � 的增加而增加 , 我们可作出如下图象 � �一�价厂一� �� 外。, � 。�� 。�� 。� � � � ‘ � �� 】� � � �� 一 � � �� 旧� �� ! �一,阮盯� 由图中可看出 , 当� �簇 0.0 42 时 , 汉语中出现概率P : 较高的常用汉字 , 它们相应的一P :Io g ZP r , 也较高 , 因而它们对于包含在一个汉字中的嫡 H 的影响也就比较大。既然这些常用汉字的出现概率随着汉字容量的扩大而趋于稳定 , 所以包含在一个汉字中的嫡也将随着汉字容量的扩大而趋于稳定。第二 , 汉语中的非常用汉字的字数虽多 , 但它们的出现概率极低 , 随着汉字容量的扩大 , 这些非常用汉字的出现概率还会有所减小 , 因而包含在一个汉字中的墒丫o乞.石。: 图2: 0.0工0 0.020 0 0 , 0 0 . 时0 当卫气。.。必时 , 一P 庄。鸽P哒着介的增加而增加也就会有所减小 , 而此时随着汉字容量的扩大 , 文句中又增加了一些新的非常用汉字 , 从而使包含在一个汉字中的嫡有所增加 , 这便补偿了由于原来那些非常用汉字的出现概率减小而减小的嫡 , 使得从总体上来看 , 包含在一个汉字中的嫡变动不大。 ’ 那么 , 究竟当汉语书面语文句中的汉字容量达到多少的时候 , 包含在一个汉字中的嫡值就不再增加了呢?也就是说 , 我们能不能求出使包含在一个汉字中的嫡值不再增加的最大汉字容量呢 ? 几我们可以借助子数理语言学中著名的Zi p f定律来解决这个问题。 zi p f 定律指出〔2〕、〔5〕, 假设我们研究某一足够长的文句 , 把这个文句中的词按出现概率递减的顺序排列起来 , 并且顺次从1 ( 出现概率最大的词 ) 到L ( 出现概率最小的词 ) 编上号码 , 造出这个文句的词表。词的出现概率用 P r表示 , 词的号码用r表示 , r 可取区间 1( r( L 内的全部自然数值。词表的形式如下 : 词的号码 (r ) 2 ⋯ ⋯r .·一L 词的出现概率 ( P r ) P l P 2. · · ⋯ P : ⋯ ” · P L 随着词在词表中编号数目r的增大 , 相应的词在文句中的出现概率P , 逐渐减小 , r 由 1 增大到 L , P r 就由p i减小到P :。 p r 与r之间的关系 , 可用公式 P , 二上r名表示。式中, r 表示词在词表中的号码 , Pr 表示号码为r 由实验测出, 丫二 1 , K = 0 . 1 。因此 , 上式可简化为的词的出现概率 , K 和丫都是常数 , zi p f P : = 坚丫 (3 ) 我们知道 , 在根据公式 ( 2 ) 求嫡时 , 各个符号的出现概率P , 应该满足条件万 pr=1r二 1 把表示Zi p f定律的公式 ( 3 ) 代入 , 得因此女, r = 女, 浮=二昌、二, 1 , 八 2 , —= 上U之九 r (4 ) 从而有 ( 4 )式即 ”· ‘恩:一 , 1 十 12 + ⋯ 1 , ., . —一 = 二廿如果求得了 n 的值 , 那么 , 我们就求得了使文句中各个词出现概率之和为工的最大的词汇容量。欲求n的精确值 , 可以把调和级数又 , 1 _ , . 1 _ . 1 二 12, 一一二 1 .护一二夕 , . 一奋丁 , . . ’ . , . 一二一汽片 ’r 2 o n 顺次逐项相加 , 看加到多少项时其部分和等于 10 , 算量太大。这里介绍一个求n的近似值的方法。那么 , · “ 的精确值就是多少。但这样做起来气通过一定的数学推导 , 我们得到近似公式U , ‘, l _ _1 _ . 。2 , —陌沮n 1 1 宁七宾九 ’r ( 5 ) 式中 , I n 表示自然对数 , C 二 0 . 5 7 7 2 1 5 ⋯ , 叫做E uler常数。由公式 ( 5 ) 可得 Inn 澎习生_c 侣 1 0 一 C = 1 0 一 0 。 5 7 7 2 1 5 ⋯ = 9 。 4 2 2 7 8 5 ⋯ 由对数换底公式 ,一餐(, · 表示自然对数 , ,· 表示常用对数 , 一2· 7 , 82 提 “然对数的底 , l g n 二 l = l n n · l g e n n · l : 2 . 7 1 8 2 8 岛 9 。 4 2 2 7 8 5 丫 0 。 4 3 4 2 9 岛 4 。 0 9 2 2 2 1 3 到以得所 n 岛 12 3 6 6 计算结果告诉我们 , 如果对于某种可用 zi p f 定律来描述的语言 , 当它的词汇容量大约等于 123 66时 , 这些词汇的出现概率之和为1’ 因而如果再增加新的词汇 , 这些新词汇的出现概率对于整个语言的数学面貌不再有明显的影响。当根据词的出现概率来计算嫡时 , 如果词汇容量超出 123 66 , 包含在一个词中的嫡就不再增加了。国外许多有关语言文字的统计试验证明 , zi p f 定律不仅适用于词 , 而且也可以适用于英文字母、俄文字母等文字 , 也就是说 , Zi p f 定律抽象的数学形式对于语言中的各种离散单元 ( 如词、字母等等)具有一定的普遍性。对这个定律作过深入探索的美国语文学家 G .K .Zi p f 本人甚至把这个定律叫做 ,’人类行为的最小用力原则" (p r in eip le o f le as t e ffo r t o f h u m a n b eh av io r ), 试图把它推广到语言之外的其它人类行为的研究中〔2 〕。据我们初步的观察 , 如果把Zi p f定律中的词看成汉字 , 汉语大体上是可以用Zi pf 定律来描述的。因此 , 上述讨论也大体上适用于以汉字为离散单元的汉语。这样 , 我们可以粗略地说 , 当汉字容量不大时 , 包含在一个汉字中的嫡随着汉字容量的增加而增加 , 当汉字容量达到 12 366 个字珍年育夸万t 得守史的竹罄否丹增匆可。在我们测定汉字嫡的计算中, 当H 一。.6 5 比特时 , 汉字容量已达 123 70 个 , 它大于 12366 个。根据以上讨论 , 我们可以预计 , 如果再继续扩大汉字容量 , 包含在一个汉字中的滴还是 9.65 比特。《康熙字典》共收汉字 47035 个 , 我们姑且把这个数目看成是汉字的总字数 , 而我们用来计算筑的最大的汉字容量为 123 66 , 仅占汉字总字数的26.3% , 其余73 .7% 的34669个汉字 , 对于包含在一个汉字中的嫡已没有什么影响 , 完全没有必要再继续扩大汉字容量进行计算了。这样 , 我们可以说 , 从汉语书面语文句的总体来考虑 , 在浩如烟海的全部现代汉语书面语文句中 , 包含在一个汉字中的嫡为 9.65 比特 , 因而每当我们从汉语书面语文句中读到一个汉字时 , 我们就获得9.65 比特的信息量。 1 % 1 年 , 美国数学家 c .E .Sha n no n 首次运用信息论方法测出了英语中包含在一个字母中的俏〔3〕。此后 , 在实践的迫切要求下 , 人们又测出了一些印欧语系的语言包含在一个字母中的嫡〔4〕。这里 , 我们把这些语言包含在一个字母中的嫡以及汉语书面语包含在一个汉字中的嫡画图比较如下 : 法语意大利语西班牙语英语德语夕马尼亚讹媲语己又诏从图中可看出, 各印欧语系语言的包含在一个字母中的嫡相差不大 , 最小为 3.98 比特 , 最大为 4.35 比特 , 而汉语书面语包含在一个汉字中的嫡为 9.65 比特 , 比它们的嫡大得多。之所以出现这种情况 , 是由于印欧语系的这些语言都是使用拼音文字 , 采用的字母数目不多 , 因而它们的不肯定性程度小 , 而汉语不是使用拼音文字 , 汉字数目成千上乳 “比特万 , 因而不肯定性程度很大。汉字的嫡如此之大 , 对于通讯技术和中文信息处理工作都极为不利。根据Shannon信道编码定理 , 在一种非扩展的无记忆信源中 , 码字的平均长度不能小于信源的墒。汉字的嫡值大 , 其相应的码字的平均长度也就很大 , 即使是一个最优的信道编码系统 , 其码字的平均长度至少也应与汉字的嫡相等 , 这就必然要影响到通讯的效率。在中文信息处理中 , 汉字的输入输出是一个关键间题 , ’ 汉字的嫡值大 , 其输入输出的信息量也就很大 , 这就给汉字的输入输出带来很大的困难。尽管现在已经研制出了一些汉字输入输出设备 , 但其工作效率比英文或俄文输入输出的工作效率差得多。因此 , 我们一定要搞好文字改革工作 , 大幅度地减少汉字的数量 , 逐步过渡到使用拼音文字 , 走上世界文字共同的拼音方向 , 使汉语的书面形式适应现代科学技术发展的要求。参考资料仁1」 C .E .Sh onn on an d W . W eav er, T h e m at h e m at i e al t h e o ry o f e o m m u n i e a t i o n , U rb a o a - 1 9 49 G . K . Z I P f , H u m a n b e h a v i o r a n d t h e Pri n c i P l e o f l e a s t C . E . S h a n 皿o n a n d E n t ro Py o f p r i n t e d e f fo rt , C a m b ri d g e , M as s , ( 1 9 4 9 ) . E n g l is h , 心B e ll Sy stem T ee灿ica 田碑 Jo urn毓》 , P 5 0 一64 , L 4 〕 G .A · Ba r n ax d P r e di e t i o n 1 9 5 1 ) . St at i s t i e a l e alc u lat i o n o f w o rd e 皿t加Ples fo r fo ur w estern lang uag es, 嵘I R E tra n sa c tio 习5 o n I n l o 幻刀掀io n T heory 》, V o l . 1 , N o . 1 , ( 1 9 5 5 〔目冯志伟 , 《齐普夫定律的来龙去脉》 , ‘情报科学》 , 1 9 8 3 年第 2 期 , p 3 了一42 。

本文档为【【冯志伟】汉字的熵】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。

【冯志伟】汉字的熵

热门搜索

历史搜索