为了正常的体验网站,请在浏览器设置里面开启Javascript功能!
首页 > 【冯志伟】汉字的熵

【冯志伟】汉字的熵

2012-04-24 6页 pdf 2MB 58阅读

用户头像

is_277965

暂无简介

举报
【冯志伟】汉字的熵 · 冯志伟 · 汉 字 的 嫡 本文用逐渐扩大汉字容量的办法 , 计算出当汉语书面语文句中的汉字容量扩大到�� ��个汉字时 , 包含在一个汉字中的嫡为� � �� 比特。 并从理论上说明了 , 如果再进一步扩大汉字容量 , 这个嫡值不会再 增加 , 因而� � �� 比特就是在全部现代汉语书面语文句中 , 包含在一个汉字中的嫡 � 嫡是反映语言的数学面貌的一个重要的信息论参数。 在与汉语有关的通讯技术和中文信息处 理的工作中, 有必要了解汉字的嫡 , 这样才能做到胸中有数 , 把这些工作搞得更有成效 。 从信息论...
【冯志伟】汉字的熵
· 冯志伟 · 汉 字 的 嫡 本文用逐渐扩大汉字容量的 , 计算出当汉语书面语文句中的汉字容量扩大到�� ��个汉字时 , 包含在一个汉字中的嫡为� � �� 比特。 并从理论上了 , 如果再进一步扩大汉字容量 , 这个嫡值不会再 增加 , 因而� � �� 比特就是在全部现代汉语书面语文句中 , 包含在一个汉字中的嫡 � 嫡是反映语言的数学面貌的一个重要的信息论参数。 在与汉语有关的通讯技术和中文信息处 理的工作中, 有必要了解汉字的嫡 , 这样才能做到胸中有数 , 把这些工作搞得更有成效 。 从信息论的角度看来 , 用自然语言交际的过程 , 就是从语言的发送者通过通讯媒介 , 传输到 语言的接收者的过程〔�〕。 语言的发送者连续地发送出一个一个的语言符号 �如英文字母 、 汉字等 � , 而语言的接收者 则连续地接收到一个一个的语言符号 �如英文字母 、 汉字等 � 。 如果我们把这些语言符号的发送 或接收看成是一些随机试验 , 把所发送或接收的语言符号看成是 随机试验的结局 , 那么 , 语言就 可以看作是一系列具有不同随机试验结局的链〔�〕。 如果语言只有两个符号 , 而且这两个符号的出现概率有很大区别 � 例如 , 一个符号的出现概 率为 � � �� , 而另一个符号的出现概率为 � � � � � , 那么 , 在接收者接收到语言符号之前 , 他能够满 有把握地预言 , 他最可能接收到哪一个符号 , 而不大可能接收到哪一个符号 , 也就是说 , 这个随 机试验结局的不肯定性程度很小 , 而当语言的符号数 目增大时 , 接收者预言他所可能接收到的语 言符号的把握就减小 , 也就是说 , 这个随机试验结局的不肯定性程度增大了 。 当还是这些数 目的 语言符号而这些符号的出现概率相等的时候 , 接收者不能对其中的任何一个符号寄予较多或较少 的希望 , 这样 , 预言他所可能接收到的语言符号的把握就更小 , 也就是说 , 这个随机试验结局的 不肯定性程度更大了 。 但是 , 不论在哪一种场合, 当接收者一旦接收到语言符号之后 , 这种不肯 定性便被消除 。 这时 , 我们就可以说 , 接收者从所接收到的语言符号中获得了一定量的信息 。 不 肯定性消除的程度越大 , 获得的信息就越多 。 因此 , 我们可以用在接收者接收到语言符号之前 , 随机试验结局不肯定性程度的大小来示语言符号所负荷的信息量 。 在信洲鱼胆史竺� � 担堕坦丝结局的王赏宝丝程度一鲍齐皿、叭做娜。 一在接收到语言符号之道婆� � � �垣里语言蠢号的数目和出现概率的不 同而有所不回。 布接收到语言符号之后� 不肯定性被逍除, 嫡等于零、 ,可见 , 信息量等于被消除 的嫡 , 我们只要测出了语言符号的嫡 , 就可以 了解到该语言符号所负荷的信息量是多少 。 如果我们做某一有� 个 可 能的等概率结局的随机试验 , 那么 , 容易证明 � 这个随机试验结局 的嫡 � 。 应该与 �� � 。 � 成正比 。 即� 。 � � �� � 。 � , 其中�为比例常数 信息论中采用比特 � �� � � 作为信息量的单位 。 如果某一消息由两个出现概率相等的符 号 构 成 , 那么, 包含在这个消息的符号中的信息量 , 叫做 � 比特 。 由于信息量等于被消除的嫡 , 因而 我们也可采用比特作嫡的单位 。 当 � 。 的单位用比特, 对数的底数 � � � 时 , 比例常数� �� � 。 这时 , 我们得到公式 � 。 � �� � � � �� � 如果随机试验有 � 个结局, 而这些结局是不等概率的 , 设第 � 个结局的概率为 � � , 那么 , 这 个随机试验结局的嫡 � 用下述公式计算 � � � 一 习 � � �� � � � � �� � � 二 � 在公式 � � � 中, 因对数以 � 为底 , 故嫡的单位是 比特 。 且 � � �� 公式��� 是一个更为一般的公式 。如果我们把汉语书面语的发送和接收看成是随机试验 , 那么 , 这个随机试验的结局就是汉字, 这个随机试验结局的婉就是包含在一个汉字中的嫡 。 由于汉字在 汉语书面语中的出现概率是不相等的 , 下 面我们将采用公式 � � � 来计算包含在一个汉字中的摘 。 汉语书面语的组成符号是汉字。 汉字的数量很大 , 据《康熙字典》记载就有 � � � � 个 。 目前报 刊杂志上用的汉字大约也有八 、 九千个 , 而且这些汉字在书 面语中出现概率又不相同 。 因此 , 要 测定在汉语书面语文 句中, 包含在一个汉字中的嫡 , 其计算是十分繁复的 。 近二十年来, 国外学 者 已经陆续地测出了一些使用拼音文字的语言如英语 、 法语、 德语 、 俄语 、 意大利语 、西班牙语 、 罗马尼亚语等包含在一个字母中的嫡 。 这些语言使用的字母数 目非常有限, 如俄语只 有 �� 个 字 母 , 英语只 有�� 个字母 。 要测出这些语言包含在一个字母中的嫡是 比较容易的 , 而要测出包含在一 个汉字中的嫡就困难得多。 本文作者多年来进行汉字嫡的统计和计算工作 , 初步测出了包含在一个汉字中的比较稳定的 嫡值。 要测汉字的滴 , 首先要计算出这些汉字在汉语书面语 中的出现概率 。 为简单起见 , 我们可以 认为 , 在相当长的文句中 , 汉字的出现概率 � � 近似地等于它的出现频率 , 例如 , 在文句的总字次为 � � � � �个字次时 , “ 的”字的出现次数为� � � �次 , 那么 , “的” 字的出现概率 � � � �� � � � � � � � � � � � � � � 。 应该注意 , 汉语中文句的总字次与文句中出现了多少个不同的汉字是两个不同的概念 。 我们 把前者称为文句长度 , 用�表示 , 把后者称为汉字容量 , 用� 表示 。 我们用逐渐扩大汉字容量的办法 , 根据公式 � � � 计算出在不同文句长度、 不同汉字容量时 , 包含在一个汉字中的嫡如下 � 文句长度 � 汉字容盆 � ��� , � � 。。, � � � 。, � �� � � ‘�� �� , � � ‘��“‘�� � � �� , ‘� � 一早甲一卜� 竺竺� �⋯一竺竺� 一卜竺竺� �⋯“ � 了· � � � � · �� � 。· � � ��比特 � � �比特 � � �比特 � � �比特 � � � �� � �� � � � ��� � 墒 � � � � � �比特 � � � � � 比特 � � � � � �比特 � 从上表中我们可以看出 , 当汉字容量 � 比较小的时候 , 随着汉字容量 � 的扩大 , 摘值�相应地 迅速增大 。 而当汉字容量 � 继续扩大时 , 嫡值�的增加就变得比较迟缓了 。 当汉字容量� 很大时 , 随着汉字容量 � 的扩大 , 摘值�的增加就更为迟缓了 。 随着汉字容量的继续扩大 , 摘值�的增加越 � 来越不显著。 当汉字容量� 从 �� � �扩大到重� � 。时 , 嫡值由� � �� 比特增加到 � � �� 比特, 仅增加 了 � 。 � �比特 。 估计 , 当汉字容量 � 超过 � � � � 。以后 , 随着汉字容量 � 的继续扩大 , 烧值�不会有显著的增加 。 下面, 我们画出汉语文 句中包含在一个汉字中的炳 � 随着汉字容量 � 的增加而变化的图象 。 横坐标表示汉字容量 � , 纵坐标表示包含在一个汉字中的嫡 � � 为什么随着汉字容量的不断扩大 , 包含在一个汉字 �一�一 � 一�一� ” 中的烙会增加得越来越迟缓呢 �这是因为 �第一 , 随着汉字容量的扩大 , 文句中常用汉 字的出现概率逐渐趋于稳定 , 不再会有明显的增大 。 例如 , 常用汉字 “ 的” 字在不同的汉字容量中由公 �,州到司叫 灼�单位 峨。�� 比待� 二��� 旧习� �马�� ��� 乙� 江工 文句古量 � 单位 � 个 � 巴 � � 随首 � 的增大, �的增六越米脚旦级 式 � � , 、 � � ‘, 二 , � � , � , � � , � �一孟不甘异出 盯 出 现矶举见� 卜�、 , ���人,曰只� ��口������汉字容量 � 文句长度� 出现次数 �� 出规概率 � � �� �� �� �� � � �� � ��� �� � � ��� �� � �� � � � �� ⋯一三燮些生卜, 些竺三一一⋯一一竺竺里竺一卜一里生一卜一竺些二一一�一竺兰旦卫竺一� � · �� � � 、� · ��� � � · ��� � � 从表中可看出 , 当汉字容量较小时 , 随着汉字容量由� � � �扩大到 � � �。, “ 的” 字的出现概率 由� � � � �陡然降到� � �� � , 但随着汉字容量的继续扩大 , “的” 字的出现概率逐渐稳定于 � � � �� 。 汉语中 “的” 字的出现概率最高 , 因此 , 汉字的出现概率 � � 毛。� ��� , 即� � 在区间 � � , �� � �� � 内取值 。 在这个区间之 内 , 一 � � �� � � � � 随着 � � 的增加而增加 , 我们可作出如下图象 � �一�价厂 一� �� � ��外 。, � 。�� ��� � � 。��� 。� � � � ‘ � �� 】� � � �� � � �� � � � � �� � � � �� � 一 � � �� � � � � � �� �� ��� � � � ���� � �� � 旧� �� ��� �� � � �� ��� ! �一,阮盯� 由图中可看出 , 当� �簇 0.0 42 时 , 汉语中出现概率P : 较高的常用汉字 , 它们相应的 一P :Io g ZP r , 也较高 , 因而 它们对于包含在一个汉字中的嫡 H 的影响也就比较大 。 既然这些常用汉字的出现概率随着汉字容量的扩大而趋 于稳定 , 所 以包含在一个汉字中的嫡也将随着汉字容量 的扩大而趋于稳定 。 第二 , 汉语中的非常用汉字的字数虽多 , 但它们的 出现概率极低 , 随着汉字容量的扩大 , 这些非常用汉字 的出现概率还会有所减小 , 因而包含在一个汉字中的墒 丫o乞.石。: 图2: 0.0工0 0.020 0 0 , 0 0 . 时0 当卫气 。.。必时 , 一P 庄。鸽P哒着介的增加而增加 也就会有所减小 , 而此时随着汉字容量的扩大 , 文句中又增加了一些新的非常用汉字 , 从而使包 含在一个汉字中的嫡有所增加 , 这便补偿了由于原来那些非常用汉字的出现概率减小 而 减 小 的 嫡 , 使得从总体上来看 , 包含在一个汉字中的嫡变动不大 。 ’ 那么 , 究竟当汉语书面语文句中的汉字容量达到多少的时候 , 包含在一个汉字中的嫡值就不 再增加了呢?也就是说 , 我们能不能求出使包含在一个汉字中的嫡值不再增加的最大汉字容量呢 ? 几 我们可以借助子数理语言学中著名的Zi p f定律来解决这个问题。 zi p f 定律指出〔2〕、 〔5〕, 假设我们研究某一足够长的文句 , 把这个文句中的词按出现概率递 减的顺序排列起来 , 并且顺次从1 ( 出现概率最大的词 ) 到L ( 出现概率最小的词 ) 编上号码 , 造 出这个文句的词表 。 词的出现概率用 P r表示 , 词的号码用r表示 , r 可取区间 1( r( L 内的全部自 然数值。 词表的形式如下 : 词的号码 (r ) 2 ⋯ ⋯r .·一L 词的出现概率 ( P r ) P l P 2. · · ⋯ P : ⋯ ” · P L 随着词在词表中编号数目r的增大 , 相应的词 在文句中的出现概率P , 逐渐减小 , r 由 1 增大到 L , P r 就 由p i减小到P :。 p r 与r之间的关系 , 可用公式 P , 二 上r名 表示 。 式 中, r 表示词在词表中的号码 , Pr 表示号码为r 由实验测出, 丫二 1 , K = 0 . 1 。 因此 , 上式可简化为 的词的出现概率 , K 和 丫 都 是常数 , zi p f P : = 坚丫 (3 ) 我们知道 , 在根据公式 ( 2 ) 求嫡时 , 各个符号的出现概率P , 应该满足条件 万 pr=1r二 1 把表示Zi p f定律的公式 ( 3 ) 代入 , 得 因此 女, r = 女, 浮=二 昌 、二, 1 , 八 2 , —= 上U之九 r (4 ) 从而有 ( 4 )式即 ”· ‘恩:一 , 1 十 12 + ⋯ 1 , ., . —一 = 二廿 如果求得 了 n 的值 , 那么 , 我们就求得 了使文句中各个词出现概率之和为 工的最大的词汇容 量 。 欲求n的精 确值 , 可以把调和级数 又 , 1 _ , . 1 _ . 1 二 12, 一一 二 1 .护 一二 夕 , . 一奋丁 , . . ’ . , . 一二一汽片 ’r 2 o n 顺次逐项相加 , 看加到多少项时其部分和等于 10 , 算量太大。 这里介绍一个求n的近似值的方法。 那么 , · “ 的精确值就是多少。 但这样做起来气通过一定的数学推导 , 我们得到近似公式U , ‘, l _ _1 _ . 。2 , —陌沮n 1 1 宁 七宾九 ’r ( 5 ) 式中 , I n 表示 自然对数 , C 二 0 . 5 7 7 2 1 5 ⋯ , 叫做E uler常数 。 由公式 ( 5 ) 可得 Inn 澎 习生_c 侣 1 0 一 C = 1 0 一 0 。 5 7 7 2 1 5 ⋯ = 9 。 4 2 2 7 8 5 ⋯ 由对数换底公式 ,一餐(, · 表示 自然对数 , ,· 表示常用对数 , 一2· 7 , 82 提 “然对数的底 , l g n 二 l = l n n · l g e n n · l : 2 . 7 1 8 2 8 岛 9 。 4 2 2 7 8 5 丫 0 。 4 3 4 2 9 岛 4 。 0 9 2 2 2 1 3 到以得所 n 岛 12 3 6 6 计算结果告诉我们 , 如果对于某种可用 zi p f 定律来描述的语言 , 当它的词汇容量大约 等 于 123 66时 , 这些词汇的出现概率之 和为1’ 因而如果再增加新的词汇 , 这些新词汇的出现概率对于 整个语言的数学面貌不再有明显的影响。 当根据词的出现概率来计算嫡时 , 如果词汇 容 量 超 出 123 66 , 包含在一个词中的嫡就不再增加了 。 国外许多有关语言文字的统计试验证明 , zi p f 定 律不仅适用于词 , 而且也可以适用于英文字 母 、 俄文字母等文字 , 也就是说 , Zi p f 定律抽象的数学形式对于语言中的各种离散单元 ( 如词 、 字母等等)具有一定的普遍性 。 对这个定律作过深入探索的美国语文学家 G .K .Zi p f 本人甚至把这 个定律叫做 ,’人类行为的最小用力原则" (p r in eip le o f le as t e ffo r t o f h u m a n b eh av io r ), 试图把它推广到语言之外的其它人类行为的研究中 〔2 〕。 据我们初步的观察 , 如果把Zi p f定律中的词看成汉字 , 汉语大体上是可以用Zi pf 定律来描述 的 。 因此 , 上述讨论也大体上适用于 以汉字为离散单元的汉语 。 这样 , 我们可 以粗略地说 , 当汉 字容量不大时 , 包含在一个汉字中的嫡随着汉字容量的增加而增加 , 当汉字容量达到 12 366 个字 珍 年育夸万t 得守史的竹罄否丹增匆可。 在我们测定汉字嫡的计算中, 当H 一 。.6 5 比特时 , 汉 字容量已达 123 70 个 , 它大于 12366 个 。 根据以上讨论 , 我们可以预计 , 如果再继续扩大汉字容 量 , 包含在一个汉字中的滴还是 9.65 比特 。 《康熙字典》共收汉字 47035 个 , 我们姑且把这个数 目看成是汉字的总字数 , 而我们用来计算 筑的最大的汉字容量为 123 66 , 仅占汉字总字数的26.3% , 其余73 .7% 的34669个汉字 , 对于 包含 在一个汉字中的嫡已没有什么影响 , 完全没有必要再继续扩大汉字容量进行计算了 。 这样 , 我们可以说 , 从汉语书面语文句的总体来考虑 , 在浩如烟海的全部现代汉语书面语文 句中 , 包含在一个汉字中的嫡为 9.65 比特 , 因而每当我们从汉语书面语文句中读到 一个汉字时 , 我们就获得9.65 比特的信息量 。 1 % 1 年 , 美国数学家 c .E .Sha n no n 首次运用信息论方法测出了英语中包含在一个字母中 的 俏 〔3〕。 此后 , 在实践的迫切要求下 , 人们又测出了一些印欧语系的语言包含在一个字母中的嫡 〔4〕。 这里 , 我们把这些语言包含在一个字母中的嫡以及汉语书 面语包含在一个汉字中的嫡画图 比较如下 : 法 语 意大利语 西班牙语 英 语 德 语 夕马尼亚讹 媲 语 己又 诏 从 图中可看 出, 各印欧语系语言的包含在一个 字母中的嫡相差不大 , 最小为 3.98 比特 , 最 大 为 4.35 比特 , 而汉语 书面语包含在一个汉字中的嫡为 9.65 比特 , 比它们的嫡大得多 。 之所以出现这种情 况 , 是由于印欧语系的这些语言都是使用拼音文字 , 采 用 的 字母 数 目 不多 , 因而它们的不肯定性程度 小 , 而汉语不是使用拼音文字 , 汉字数 目成 千 上 乳 “比特 万 , 因而不肯定性程度很大 。 汉字的嫡如此之大 , 对于 通讯技术和中文信息 处理工作都极为不利 。 根据Shannon信道编码定理 , 在一种非扩展的无记忆信源中 , 码字的平均长度不能小于信源的墒 。 汉字的嫡值大 , 其相应的码 字的平均 长度也就很大 , 即使是一个最优的信道编码系统 , 其码字的平均长度至少也应与汉字的 嫡相等 , 这就必然要影响到通讯的效率 。 在中文信息处理中 , 汉字的输入输出是一个关键间题 , ’ 汉字的嫡值大 , 其输入输出的信息量也就很大 , 这就给汉字的输入输 出带来很大的困难。 尽管现 在 已经研制出了一些汉字输入输出设备 , 但其工作效率 比英文或俄文输入输出的工作 效 率 差 得 多 。 因此 , 我们一定要搞好文字改革工作 , 大幅度地减少汉字的数量 , 逐步过渡到使 用 拼 音 文 字 , 走 上 世 界 文字共同的拼音方向 , 使汉语的书面形式适应现代科学技术 发展的要求 。 参 考 资 料 仁1」 C .E .Sh onn on an d W . W eav er, T h e m at h e m at i e al t h e o ry o f e o m m u n i e a t i o n , U rb a o a - 1 9 49 G . K . Z I P f , H u m a n b e h a v i o r a n d t h e Pri n c i P l e o f l e a s t C . E . S h a n 皿o n a n d E n t ro Py o f p r i n t e d e f fo rt , C a m b ri d g e , M as s , ( 1 9 4 9 ) . E n g l is h , 心B e ll Sy stem T ee灿ica 田碑 Jo urn毓 》 , P 5 0 一64 , L 4 〕 G .A · Ba r n ax d P r e di e t i o n 1 9 5 1 ) . St at i s t i e a l e alc u lat i o n o f w o rd e 皿t加Ples fo r fo ur w estern lang uag es, 嵘I R E tra n sa c tio 习5 o n I n l o 幻刀掀io n T heory 》, V o l . 1 , N o . 1 , ( 1 9 5 5 〔目 冯志伟 , 《齐普夫定律的来龙去脉 》 , ‘情报科学 》 , 1 9 8 3 年第 2 期 , p 3 了一42 。
/
本文档为【【冯志伟】汉字的熵】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索