为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

红楼梦文本分析

2017-09-02 37页 doc 501KB 383阅读

用户头像

is_153723

暂无简介

举报
红楼梦文本分析2013高教社杯全国大学生数学建模竞赛(选拔赛) 承 诺 书 我们仔细阅读了中国大学生数学建模竞赛的竞赛规则. 我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。 我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。 我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处...
红楼梦文本分析
2013高教社杯全国大学生数学建模竞赛(选拔赛) 承 诺 书 我们仔细阅读了中国大学生数学建模竞赛的竞赛规则. 我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛有关的问题。 我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。 我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。 我们参赛选择的题号是(从A/B/C/D中选择一项填写): 我们的参赛报名号为(如果赛区设置报名号的话): 所属学校(请填写完整的全名): 参赛队员 (打印并签名) :1. 2. 3. 指导教师或指导教师组负责人 (打印并签名): 日期: 年 月 日 赛区评阅编号(由赛区组委会评阅前进行编号): 队员信息表,必须如实填写, 是否有笔 学号 姓名 所属院 专业 年级 电话 指导教师 记本 201100800277 周怡 数学与统计学院 统计学 2011 未选定 201100820017 段熙玉 数学与统计学院 统计学 2011 未选定 201000800138 林阳 机电与信息工程 软件工程 2010 未选定 注:如未选定指导教师可不填写“指导教师”一栏。 2013高教社杯全国大学生数学建模竞赛(选拔赛) 编 号 专 用 页 赛区评阅编号(由赛区组委会评阅前进行编号): 赛区评阅(可供赛区评阅时使用): 评 阅 人 评 分 备 注 全国统一编号(由赛区组委会送交全国前编号): 全国评阅编号(由全国组委会评阅前进行编号): 对《红楼梦》文本的计算机识别的研究与设计 摘 要 本文通过对文本人物关系、文本结构分层、作者行文风格的分析来分析中文文本。 针对问题一,我们运用聚类分析和层次分析建立模型从物理结构与逻辑结构两方面来分析文本,我们提取文本中和文本标题中的人名作为特征项,用matlab编程分别统计每个人名在各个段落中的频数。通过运用主成分分析法对文本进行的分析我们得出自变量与常数项几乎不相关,因此不需要采取主成分回归分析。通过系统聚类分析,我们得到了聚类图,从中得出了主演人物之间的关系。通过层次划分,我们将样本一划分为两层,样本二划分为两层,样本三划分为两层。最后通过matlab编程统计样本中虚词的频数,并且分别对样本中虚词总体和各个虚词进行统计,运用计算风格学理论,我们得出前八十回与后四十回作者的行文风格存在差异。 针对问题二,我们对聚类分析、层次划分、行文风格进行了检验。对于聚类分析的结果,我们与从对文本概述的文学概括分析得到的人物关系进行比较检验,验证了聚类分析结果是可靠性。对于层次分析,我们通过用Excel对数据做出折线图,对图形进行分析,得出与用层次分析算法得出的相同的人物关系结论。 针对问题三,我们计算了各个样本中主要人物的比重,做出了折线图,从图中我们得出了文本结构一致性的结论,体现了三个样本的相同性。通过计算同一个人物在不同样本中的频数(以黛玉为例),我们得出各个样本由于主题思想的不同主要人物也有差异。 最后说明模型的优缺点及需要改进的地方。 关键字:系统聚类 计算风格学 文本层次分析 一、问题重述 文本(text),与 讯息(message)的意义大致相同,是有一定的符号或符码组成的信息结构体,这种结构体可采用不同的表现形态,如语言的、文字的、影像的等等。文本是由特定的人制作的,文本的语义不可避免地会反映人的特定立场、观点、价值和利益。因此,由文本内容分析,可以推断文本提供者的表述方式,意图和目的。 文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。使计算机能够通过对这种模型的计算和操作来实现对文本的识别。由于文本是非结构化的数据,要想从大量的文本中挖掘有用的信息就必须首先将文本转化为可处理的结构化形式。 在分析问题是我们了解到目前有关文本表示的研究主要集中于文本表示模型的选择和特征词选择算法的选取上。用于表示文本的基本单位通常称为文本的特征或特征项。特征项必须具备一定的特性:(1)特征项要能够确实标识文本内容;(2)特征项具有将目标文本与其他文本相区分的能力;(3)特征项的个数不能太多;(4)特征项分离要比较容易实现。在中文文本中可以采用字、词或短语作为表示文本的特征项。相比较而言,词比字具有更强的表达能力,而词和短语相比,词的切分难度比短语的切分难度小得多。因此,目前大多数中文文本分类系统都采用词作为特征项,称作特征词。因此,在处理问题时角度和特征项的选择是关键。我们要解决的问题是: (1)从第一回--第四十回,第四十一回--第八十回,第八十一回--第一百二十回分别选取3段文字(每段不少于2000字,指出开始,结束的页码和行数)作为3个样本,对这3个样本提出文本分析的角度,特征项的选取及数量表征,并建立数学模型。 (2)分别估计3个模型的参数,并对模型进行检验。 (3)基于你们的模型,对3个文本进行比较分析(包括相同点和它们之间的差异性分析)。 将上述研究结果写成综合性的研究报告。 二、问题分析 本问题主要是通过不同的文本分析角度,建立数学模型,实现对文本的识别,来推断文本提供者的表述方式,意图和目的。 对于问题一,根据物理结构和逻辑结构两个角度确立我们文本分析角度,物理结构方面,通过计算文本虚词使用频率确定作者的行文风格;逻辑结构方面,以红楼梦主要 人物名字为特征值对人物关系进行分析,和以标题词汇为特征值的文本层次分析。使用聚类和层次分析法建模。 对于问题二,运用所建立的模型对选择样本进行运算,得到文本总字数,虚词的使用情况,人物关系情况由聚类法得到,再将文本由标题词汇判定段落分层。在模型检验方面,我们由人为读出的结论与模型得到的人物关系进行大致方向上的比较,由分段后主要人物在各层次所占比重判断层次分析的精确性,作者行文风格通过所得结论与专家推断比较检验。 对于问题三,分别选取三个样本中的虚词频率和人物分析进行比较。通过虚词频率的比较我们可以大致分析出各四十回中作者的行文风格从而判断红楼梦作者是否为一人;而对人物分析方面,对人物与人物之间关联度的比较,能大致确立出在整篇文章中的主要人物和与其关联密切的人物的关系进展,通过关联度相同性与差异性的比较,确立主要人物的日常交际圈和主要人物之间的关系变化。 三、模型假设 [1]每个样本拥有独立性(不受其他样本影响也不影响其他样本); [2]样本选取是随机的,具有普遍性; [3]虚词的使用频率的异同可以充分区分作者的行文风格; [4]标题中词汇在整个文本中具有代表性(标题是整个文本中心思想的概括); [5]3个样本在整个文本各四十回中的人物关系具有代表性。 [6]可忽略同名不同义的词对研究结果的影响 [7]样本中出现频率很低的人物名可忽略,对结果无影响。 四、符号系统 ——人物i在第j段中的频数 T——特征值组成的向量 xij pitij——表示人物i的第j个特征值的频数 ——第i自然段 五、建立文本识别模型 1)人物关系:由主要人物每段出现频数向量确定人物相关性; 2)文本结构分析:由标题词汇每段出现频数比较分层,使层内差异达到最小值; 3)行文风格:统计虚词使用情况。 5.1人物关系模型研究与确立 目前人们通常采用向量空间模型来描述文本向量,但是如果直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维,那么这个向量的维度将是非常的大。这种未经处理的文本矢量不仅给后续工作带来巨大的计算开销,使整个处理过程的效率非常低下,而且会损害分类、聚类算法的精确性,从而使所得到的结果很难令人满意。因此,必须对文本向量做进一步净化处理,在保证原文含义的基础上,找出对文本特征类别最具代表性的文本特征。为了解决这个问题,最有效的办法就是通过特征选择来降维。红楼梦通篇是文言文,在进行文本分析时,由于虚词在文本内容角度的无用性我们将虚词统计次数后用批处理技术删除,同时去除的还有停用词(常用词如‘了’等和生僻词)。 从人物关系的分析角度看,由于文本中形容词的多样化与词义分析方面的复杂性,不从该角度分析。为使操作简单化,我们根据研究的角度,将红楼梦中主要人物名字设 置为特征值, T,(t1,t2,?,tn) T表示由人名组成的向量,表示第i个人名特征值,n表示人名特征值的个数为n ti 可将选择的文本表示为 I,P1,P2,P3,?,PN 表示文本I中的第i自然段,N表示文本i中共有N个自然 I表示所选文本,pi 段。 将人物在文本每一自然段中出现的次数组合成向量,经过对不同人物之间的相关性度量,组合成相关系数矩阵,再对其聚类分析得出人物关联度。 11121Nxx?x,,,,21222Nxx?x,, ,, A,????,, ????,, ,,xn1xn2?xnN,, A表示各特征词在各段的频数矩阵,表示第i个特征词在第j自然段中的频数,Axij 矩阵的行与行向量之间对应数据关系即可反映在该文本中两人物之间的联系。,这里我们使用在对变量聚类分析时利用最多的相关系数矩阵 ,,nxxxx,ijjikk,,,,,r,1jki1/2nn,, 22,,,,,,xxxx,,ijjikk,, ,,,,ii11 越接近1,与越相关或越相近;越接近0,与的相关性越弱。与xjxjxjxkxk|rjk||rjk| tj分别表示与两个特征值的频数特征向量。由于红楼梦中主要人物过多,我们要对tkxk 特征值进行降维处理,再考虑人物关系。 人物关系体系建立: 利用多元统计分析的主成分分析法、系统聚类分析法将所选主要人物特征值进行简化归类。 5.1.1主成分分析法 在多元统计分析中,主成分分析(:Principal components analysis,PCA)是一种分析、简化数据集的技术。主成分分析经常用于减少数据集的维数,同时保持数据集中的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。由于主成分分析依赖所给数据,所以数据的准确性对分析结果影响很大。[1] 人为主要人物往往带有主观性,必须对所选文件的特征值用数理统计方法,由上所 得的相关系数矩阵经过正交化处理,将文本所确立的人名特征值转化为少数几个综合人名后的新指标(即主成分),其中每个主成分都是原始变量的线性组合,各主成分之间相互正交,从而这些主成分能够反映始变量的绝大部分信息,且所含的信息互不重叠,把复杂问题简单化。 ,主成分分析法的基本步骤 ,选取的文本人名特征值总数为p,则由估计样本的原第一步:设估计样本数为n 始数据可得矩阵,其中表示第i个特征值在第j段中的频数。 ,,A,a,ijij 第二步:为了消除各项理化指标之间在量纲化和数量级上的差别,用极差化法对指标数据进行规范化,将其化为0,1间的标准数据得到规范化矩阵。 第三步:根据规范化数据矩阵建立协方差矩阵R,是反映标准化后的数据之间相关关系密切程度的统计指标,值越大,说明有必要对数据进行主成分分析。其中,(i,Rijj=1,2,„,p)为原始变量与的相关系数。由数据可得是对称矩阵,其计算aRakjij n____,,,,--,,,,,aaaa,,,,ikijjki,1,,,,,公式为: Rkj22n___,,,,--,,,,,aaaa,,,,ikijjki,1,,,, __n1,其中 ,aakikn,1i 第四步:根据协方差矩阵R求出特征值、主成分贡献率和累计方差贡献率,确定主 ,E,R,0成分个数。解特征方程,求出特征值λ(i=1,2,„,p)。因为R是正i 定矩阵,所以其特征值λi都为正数,将其按大小顺序排列,即λ1?λ2?„?λi?0,其对应的特征向量为。特征值是各主成分的方差,它的大小反映了各个主成分的影响, 力。主成分的贡献率 Bi p , ,,,,Wjj,1ipmj累计贡献率为 jj ,,,,j,1j,1 根据选取主成分个数的原则,特征值要求大于等于1且累计贡献率达85%的特征值λ1,λ2,„,λm所对应的1,2,„,m(m?p),其中整数m即为主成分的个数。 第五步:建立初始因子载荷矩阵,解释主成分。因子载荷量是主成分与原始指Bi ,,R,标的相关系数,揭示了主成分与各理化指标之间的相关程度。 ABAiii 第六步:计算综合人名后的新指标,并进行降序排列: Fm ,,,,aF11,,,, ?,,?,,,, ,,,, aFmm,,,, 第七步:主成分与方差贡献率构建出文本中人物关系模型 ,,?,pWWFF1m1mi ,文本原始人名特征值的主成分分析 首先对三个文本的原始矩阵进行处理得规范化矩阵(见附录),然后用matlab并经 过一列变换后得评价指标相关系数,见下表: 上述表显示自变量几乎不存在共线性,常数项(Constant)与变量x中的任何几个几乎均没有一致性,因此自变量与常数项几乎不相关,不需要采取主成分回归分析。[2] 5.1.2聚类分析法 聚类分析(英语:Cluster analysis,亦称为群集分析)是对于静态数据分析的一门技术,在许多领域受到广泛应用,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(subset),这样让在同一个子集中的成员对象都有相似的一些属性,常见的包括在坐标系中更加短的空间距离等。由于我们选用对人物名频数计算比较的方法,在人物关系上我们选用系统聚类分析法。 1). 聚类要素的数据处理 假设有m 个聚类的对象,每一个聚类对象都有 个要素构成。它们所对应的要素数据可用 表3.4.1给出。(点击显示该表) 在聚类分析中,常用的聚类要素的数据处理方法有如下几种。 ? 总和标准化 ? 标准差标准化 ? 极大值标准化 经过这种标准化所得的新数据,各要素的极大值为1,其余各数值小于1。 ? 极差的标准化 经过这种标准化所得的新数据,各要素的极大值为1,极小值为0,其余的数值均在0与1之间。 2). 距离的计算 距离是事物之间差异性的测度,差异性越大,则相似性越小,所以距离是系统聚类分析的依据和基础。 ? 绝对值距离 选择不同的距离,聚类结果会有所差异。我们运用欧式距离距离进行聚类。 5.2文本结构分析 层次是文章思想内容的表现次序,它着眼于文章思想内容的逻辑关系,是表示意义的结构单位。而段落是构成文章的最小单位,段落是体现层次的外部形式。在一般情况下,层次大于或等于自然段。层次具有有序性,是由若干连续有序的自然段组成。 同一层次的若干自然段,由于共同支持该层次所表达主题思想,因此在选用的词汇上以及 用词的频率上往往具有很大的相同之处,可。针对《红楼梦》样本的实际分析,我们从一到四十回、四十一到八十回、八十一到一百二十回分别选取一回作为研究样本,由于作者已给出没一回的标题,从标题中我们可以得到该回描述的主题思想(根据标题可分为两部分),为了让读者能清晰、准确、方便地找出样本正文中的层次,我们采取有序聚类的方式来划分文本的层次,保证每一个层次都由若干连续的互不交叉的自然段组成,从而达到识别样本的目的。 设样本T 具有n 个自然段, K 个层次,用H 表示文本层次, P 表示自然段,则有如下组成 关系: T = H1 H2 ?HK = { Pi1 ?Pi2 - 1} { Pi2 ?Pi3 - 1} ?{ Pik ?Pik + 1 - 1} 其中: i1 = 1 ?i2 ??.?i K ?i K + 1 - 1 = n (为了叙述和书写方便, P1 , P2 , ?, Pn 简记为1 ,2 , ??, n) 设文本T 的特征项集为{ t1 , t2 , ??, tm } 则设Pi = ( w i1 , wi2 , ??, w im ) 为第i 段的特 征向量。其中w ij是特征项t j 在第i 段中权重。 将n 个段落划分为K 个层次,则所有可能的分法共有CK - 1n - 1种, 设S ( n , K) 是任一种分,其中S ( n , K) = { i1 = 1 , i1 + 1 , ?, i2 - 1} , ?, { ij , ij + 1 , ?, ij + 1 - 1} , ?, { i K , i K + 1 , ?,n} 。有序聚法 类就是寻找一种分法使K 个层次内差异尽可能地小, 而层次间的差异尽可能地大。设D (i,i,1) 表示第j 层内的差异量,则总体误差函数: jj,1 k E( S ( n , K) ) = D(i,i,1),jj,1j,1 为了使上述总体误差函数达到最小, 寻求最优的K 分法。相当把n 个段落分成两个部分{ i1 = 1 , i1 + 1 , ??, i K - 1} { i K , ??, n} ,将前一部分进行最优K - 1 分法,然后再考虑后一部分的误差,由此寻找到最优K 分法。设S 0 ( n , K , c K) 是使总体误差函数达到最小的分法, 其中c K 是上述最佳分法的分割点i K 。则有如下递推公式: E( S 0 ( n , K , c K) ) = Mi n{ E( S 0 ( i K - 1 , K - 1 , c K - 1) + D ( i K , n) ) } 文本层数的确定关系到文本逻辑结构的建立,它可以通过如下方法确定最优层次划分的数目,一是给定阀值ε, 当| E( S ( n , K + 1) ) - E( S ( n , K) ) ?ε时, 则最优层数为K。二是根据语言学知识和实际经验,预先给定层数K。这里, 我们在运行过程中根据段落数目和总体误差情况给定层数, K 的范围一般情况下是从2 到6 。具体算法如下: ww...w,,p,,11121m1,,,,ww...wp21222m2,,,,文本的特征矩阵W == ,,............,,...,,,,ww...wpn1n2nm,,,,p,, 2jjm1计算层次内部差异量: Dij =,,,其中, i = 1 ,2 , ?, n , j = w,xxw,,,,qpqpqqj,i,1pipiq1,,, i , i + 1 , ?, n 。 计算总体误差函数: S ij ( Cij用来存储每次分割点) S 1 j = D1 j j = 1 ,2 , ?, n ,,s,Di,1,k,1ijminS ij =, Cij = ,i = 2 ,3 , ?, K , j = i + 1 , ?, n 。 ii,k,jk : 则最佳K 分法为 { = 1 , + 1 , ??,- 1} , {, + 1 , ??, - 1} , ??, { , , ??, n} iiiiiiii,13kk11222 其中: i K = CKn , = Ck - 1 , ,= Ck - 2 , , ??, i1 = 1 。[3] i,1i,1i,2i,1kkkk,1 5.3判定作者行文风格 计算机设计语体风格 是人们在语言表达活动中的个人言语特征,是人格在语言活动中的某种体现。这种风格可在一定程度上通过数量特征来刻画。 能够区别文学作品的特征主要有:用词、句式、修辞手法、中心意象、主题等等;能利用的特征有:语音、字、词、句子、段落等等语篇结构的信息。 计算风格学可被应用来解决“作者考证”这种问题。当然要十分谨慎。 如:捷泽等学者关于《静静的顿河》的作者考证。[4] 能够区别文学作品的特征主要有 用词、句式、修辞手法、中心意象、主题等等。但是能用于统计的特征有语音、字、词、句子、段落,语篇结构等等可以量化考察的信息。因此它反映的不是作者想表现的内容,而是作者行文中不经意间体现出的用词造句习惯。 最常用的方法是字、词频率统计。除了使用词语频率的方法以外,许多文本信息都可供使用。例如句长和词长可以代表人们造词句的风格。 句长是句子中的单词数,词长是词中的音节数,反映作者风格的不是单个词的词长和单个句子的句长,而是以一定数量的语料为基础的平均句长和平均词长。 平均词长M=语料中音节总数L/单词总数N 平均句长=语料中音节总数L/句子总数N 此外还有作者在同义词使用中的倾向性。是值得利用但较困难的。 我们在这里选用虚词这一文言文中的特殊词汇判定作者行文风格,虚词是一类特殊的词汇,它不在文章中有实义,从而虚词在文言文中的使用情况仅由作者用词习惯决定,从而可以通过对虚词的使用情况分析代表作者的一类行文风格。 首先统计全文字数,再分别统计出各虚词在文本每一自然段中的使用频数,对三个样本中的虚词使用比率进行比较,分析出作者使用虚词的总体情况。在分别就每一个虚词的使用分析确定作者的行文风格。 六、三个文本模型成果与检验 6.1.1人物关系模型结果分析 由5.1.2模型得出下述结果 文本1人物关系层次分析 从聚类分析得到的聚类图中也可以得到宝钗、宝玉、黛玉之间有密切关系。 文本2人物关系 观察系统聚类分析的树形图的每一次类的合并情况,凤姐和平儿、贾母和贾琏分别 合并成一类然后合并成一类。 文本3人物关系 从聚类分析的聚类图中可以看出惜春与鸳鸯间有密切联系,从聚类图的每一次类的合并情况来看贾琏与惜春为一类后与贾珍合并为一类,再与贾母合并为一类,可得出贾珍与贾琏之间存在联系,而贾母又与这些人物有着关联;从图中还可以看出贾芸与凤姐之间有着联系。 6.1.2人物关系模型检验 由文章的标题可以确定出三个文本的主要人物分别为薛宝钗、贾宝玉;王熙凤、平儿;贾宝玉、贾珍。故事分别围绕这六个人展开。 第八回概述:宝玉想起宝钗小病,前去探望,宝钗要看宝玉那块“落草时衔下来的 只见通灵宝玉上铭文:莫失莫忘,仙寿恒昌。宝玉也要过宝钗佩带的金锁宝玉”,宝钗 来看,发现金锁上铭文:不离不弃,芳龄永继。正巧黛玉来了,见宝玉,宝钗在一起,心下不悦,黛玉借寻雁送手炉趁机奚落宝钗。宝玉深感郁闷喝醉回房,趁酒意大骂李嬷嬷。 从概述里可以看出宝钗、宝玉、黛玉之间存在着情感关联,宝钗的金锁、宝玉的通灵宝玉上的两句铭文恰好是对仗工整的一副联语,也是所谓“金玉良缘”的根据。黛玉因看到宝钗与宝玉在一起而心生不悦,从而引出三人之间的情感联系。从聚类分析得到的聚类图中也可以得到宝钗、宝玉、黛玉之间有密切关系,与文本内容相吻合。 第44回主要讲的是凤姐过生日,喝醉了酒,就叫平儿扶她回房间,没想到走到院子里的时候看见一个丫头一看见凤姐就没命的跑,凤姐很生气,逼问那个丫头,那个丫头就说贾琏和鲍二媳妇在屋里偷情,凤姐一气之下冲进院里,站在窗外偷听,听贾琏和鲍二媳妇说要毒死她,把平儿扶正,凤姐听了生气,就打了平儿一耳光,冲进屋内,大喊大嚷,又打又闹,平儿感觉很委屈,也去打鲍二媳妇,贾琏很生气,就拿剑要杀凤姐,凤姐就冲到贾母屋里告状,贾母就要贾琏狠狠骂了一顿,要他跟凤姐道歉,也要凤姐跟平儿道歉( 从概述里可以看出在这回中,主要的矛盾冲突存在于凤姐和平儿间,贾母与贾琏之间,以及这四个人物间关系纠葛。观察系统聚类分析的树形图的每一次类的合并情况,凤姐和平儿、贾母和贾琏分别合并成一类然后合并成一类,与我们对文本分析得到的结论相同。 第八十八回概述:贾母八十一大寿时,鸳鸯叫惜春写经。李纨与贾母打双陆。宝玉给贾母送蝈蝈解闷。师傅让对对子,贾环对不了,宝玉帮他对,他买蝈蝈谢宝玉;贾兰对好了,宝玉夸贾兰。贾环、贾兰给贾母表安来了。贾珍、贾琏怒打闹仗的周瑞、何三和鲍二。贾芸和小红在凤姐外相见戏笑。贾芸给凤姐送东西,凤姐不收;贾芸把凤姐不要的东西给小红两件。 从概述可以看出鸳鸯与惜春因贾母大寿产生联系,贾环、宝玉、贾兰因对对子产生联系,贾珍与贾琏因闹仗的悍仆而产生联系,在前几组人物的关系发展中贾母的大寿是主要因素,因此贾母又与鸳鸯、惜春、贾环、贾兰、宝玉之间存在联系;贾芸与凤姐因送东西而产生联系。从聚类分析的聚类图中可以看出惜春与鸳鸯间有密切联系,从聚类图的每一次类的合并情况来看贾琏与惜春为一类后与贾珍合并为一类,再与贾母合并为一类,可得出贾珍与贾琏之间存在联系,而贾母又与这些人物有着关联;从图中还可以看出贾芸与凤姐之间有着联系。从聚类图中可以得出的人物关系与从文本内容概述的得出的关系相符合。 6.2.1文本结构分析成果 得到的分层结果如下: 样本一(第八回)1至13自然段可划分为第一层,主题为薛宝钗小恙梨香院;14自然段到本回结束为第二层,主题为贾宝玉大醉绛芸轩。下表为标题中出现的人物名在各段落中出现的频率: 宝0 1 5 0 0 3 1 4 2 0 1 1 1 0 0 0 0 0 0 0 0 钗 宝3 8 11 0 3 3 2 3 2 5 5 1 6 4 6 5 6 2 5 2 2 玉 经过文本的层次分析,可以得到文本的逻辑结构,它的直观形式体现为文本的结构树: 样本一 层次一 层次二 段落1 段落13 段落18 段落14 样本二(第四十四回)1至8自然段为第一层,主题为变生不测凤姐泼醋;9至本回结束为第二层,主题为喜出望外平儿理妆。下表为标题中出现的人物名在各段落中出现的频率: 凤姐 1 3 5 11 5 7 2 0 1 1 0 2 1 2 3 3 2 7 平儿 0 0 0 7 3 13 2 0 5 3 4 7 4 2 3 3 1 2 样本二 层次一 层次二 段落1 ........... 段落8 段落18 段落9 ......... 样本三(第八十八回)1至5自然段为第一层,主题为博庭欢宝玉赞孤儿;第6至10自然段为第二层,主题为正家法贾珍鞭悍仆。下表为标题中出现的人物名在各段落中出现的频率: 宝玉 0 0 5 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 贾珍 0 0 0 0 0 2 4 6 4 4 0 0 0 0 0 0 0 0 0 样本三 第 八 十 八 回 层次一 层次二 段落1 段落6 ....... ....... . 段落5 段落19 . 6.2.2文本结构分析检验 设文本共有N 个自然段,专家划分H1 = ( Pi1 ?Pi2 - 1) ( Pi2 ?Pi3 - 1) ?( Pik ?PiK + 1 - 1) ,机 器自动划分H2 = ( Pj1 ? Pj2 - 1 ) ( Pj2 ? Pj3 - 1 ) ?( Pj K ? Pj K + 1 - 1 ) , 定义评判得分 N1 Q =,其中函数h ( Pi) = 1 ,若Pi 在H1 , H2 中的划分一致; h ( Pi ) = 0 ,若Pi 在H1 、H2 h(P),iNI,1 中的划分不一致。根据各样本标题中人物名在各段落中出现的频数,我们用Excel绘制了折线图,根据图形我们可以大致得出层次划分的结论: (1)样本一 从图中我们可以看出14自然段之后宝钗在文本中没有出现,宝玉在文本中出现的次数保持一个相对稳定的状态,由此,我们可以得到层次划分的分界点是在第13自然段,从而验证在层次分析中得到的对文本的层次划分是符合实际的。 (2)样本二 从图中可以看出在前8段中,凤姐与平儿出现频数波动幅度较大,并且两者变动趋势大致相同,而后10段凤姐与平儿的频数均相对稳定,且平儿的频数明显大于凤姐,由此可以得出1至8段为第一层,9至18段为第二层,从而验证层次分析中的结论。 样本三 从图中可以看出,宝玉只在前5段中出现,而贾珍只在6段之后出现,由实际对《红楼梦》第八十八回的阅读,不难发现,在11段之后描写的是和贾珍有密切关系的人,所以可以得到1至5段为第一层,6至19段为第二层,从而验证了层次分析中的结论。 6.3.1作者行文风格模型结论 以下是对我们所选取的是三个样本中虚词使用情况的模型结果与分析 三个文本的总字数分别为6587、6677、6670 计算虚词使用频率为 从上述图表中我们可以看出在虚词使用频率方面,前80回的作者对虚词的使用大 致占总文本的2%,而后40回的作者使用虚词的频率较低,大致为1.4%。两个作者为 同一个的可能性为(2%—1.4%)/1.4%=42.9%,从中我们可以看出红楼梦的作者为两个人。 样本1、样本2、样本3中虚词使用频率图 而 何 乎 乃 其 且 若 所 为 焉 也 以 因 于 与 则 者 之 样本1、2、3中各虚词使用情况分布图 而0.6之何 者乎0.4则乃 0.2系列1与其 0系列2于且系列3 因若 以所 也为 焉 0.6 0.5 0.4 系列10.3系列2 系列30.2 0.1 0 而何乎乃其且若所为焉也以因于与则者之 在上述图表中,我们可以看出各文本中虚词‘也’的使用频率最高,文本1中各虚词使用频率分布集中,文本2中除去虚词‘也’之外的虚词使用情况也很集中,而文本3中的虚词使用情况较为分散,较为集中的使用几个虚词。故我们可以看出,写前80回的作者对虚词使用没有特定偏好,而后40回的作者对‘何’,‘若’,‘为’,‘也’,‘因’等部分虚词有使用上的偏好,而虚词的使用不由文本内容所影响,仅由作者写作习惯决定,从而分析出前80回的作者不同于后40回的作者。 6.3.2作者行文风格模型结果检验 1970年,赵冈提出了使用“的”、“了”、“在”、“几”、“着”5个字的出现频率来研究《红楼梦》的作者问题,得出了前80回和后40回出自不同人之手的结论。1980年,在威斯康辛大学举办的首届国际《红楼梦》研讨会上 ,陈炳藻发表《从词汇上的统计论〈红楼梦〉的作者问题》一文。 陈炳藻教授的研究结果 1986年,陈炳藻教授公开发表了《电脑在文学上的应用:〈红楼梦〉与〈儿女英雄传〉两书作者用词的比较》一文;之后又出版了《电脑红学:论〈红楼梦〉作者》的专著。 陈炳藻将《红楼梦》一百二十回本按顺序编成三组,每组四十回。并将《儿女英雄传》作为第四组进行比较研究。 从每组中任取八万字,分别挑出名词、动词、形容词、副词、虚词这五种词,通过计算机程序对这些词进行编排、统计、比较和处理,进而找出各组相关程度。 结果发现《红楼梦》前八十回与后四十回所用的词汇正相关程度达78.57%,而《红楼梦》与《儿女英雄传》所用词的正相关程度是32.14%。由此推断得出前八十回与后四十回的作者均为曹雪芹一人的结论。 李贤平的分析论点 1987李贤平发表了《〈红楼梦〉成书新说》作者选择了四十七个虚字的出现频率,有时还用到句长分布。 (1)十三个文言虚字:之、其、或、亦、方、于、即、皆、因、仍、故、尚、乃 (2)九个句尾虚字:呀、吗、咧、罢咧、啊、罢、罢了、么、呢。 (3)十三个常用的白话虚字:了、的、着、一、不、把、让、向、往、是、在、别、好。 (4)十个表示转折、程度、比较等意的虚字:可、便、就、但、越、再、更、比、很、偏。 (5)后缀于名词的“儿”字和后缀于副词、形容词和动词的“儿”字。 采用了各种统计分析方法(主要有主成份分析,典型相关分析,多维尺度法,广义线性模型,类卡方距离与相关系数等等) 利用以上信息,作者推断出结论: 《红楼梦》前八十回是曹雪芹据《石头记》增删而成,其中插入他早年著的《金瓶梅》式小说《风月宝鉴》,并增写了具有深刻内涵的许多内容。 《红楼梦》后四十回是曹家亲友在曹雪芹全书尚未完成就突然去世之后,搜集整理原稿并加工补写而成。程伟元将全稿以活字版印刷刊行。高鹗校勘异文补遗订讹。 我们可以确定的是前80回的作者在写作中对虚词的使用频率较高,大致为2%。并且对各虚词的使用没有特定的偏好;后40回中作者的虚词使用频率较低,对‘何’,‘若’,‘为’,‘也’,‘因’等部分虚词有使用上的偏好。从而推断出前80回的作者的行文风格不同于后40回的作者。与专家赵冈、李贤平的分析结果相同,但是与陈炳藻教授的研究结果不同。故该用模型确立作者的行文风格有可行性。 七、基于所建模型的三个样本的分析比较 7.1相同性 , 文本结构均分为两个层次,即文本结构不变性; 通过聚类分析后我们发现,主要人物的活动范围几乎不变; ,文本 例如人物宝玉,宝玉与宝钗、黛玉关系的紧密性不变(人物频数变化大致相同),而同时与袭人、茜雪、晴雯的关系为上下级关系,因为宝玉出现后,上述三人均会出现,并且位于下一类,由下图显示: ,前80回作者的行文风格相同 前80回的作者在写作中对虚词的使用频率较高,大致为2%。并且对各虚词的使用没有特定的偏好。 7.2差异性 ,人物出现频数的变化,可以分析出人物的状况。例如黛玉在三个样本中频数的变化: 由上图可以看出黛玉在三个文本中出现的频数在急剧下降到几乎消失,可以推断出黛玉的身体状况可能出现了问题,而最后的频数为零可以大胆假设为黛玉病危或死亡。 ,作者的行文风格前后发生变化 前80回的作者在写作中对虚词的使用频率较高,大致为2%。并且对各虚词的使用没有特定的偏好;后40回中作者的虚词使用频率较低,对‘何’,‘若’,‘为’,‘也’,‘因’等部分虚词有使用上的偏好。从而推断出前80回的作者的行文风格不同于后40 回的作者。 八、模型的评价与推广 8.1模型的优点 运用系统聚类的方法来描述人物间的联系,通过生成水平树形图可以非常清楚地看到人物的分层合并,并且与直接分析文本所得到的人物间联系吻合的效果很好。用人名作特征值既具有代表性,又可以很简化的统计出人物关系。而在确定具体人名时,我们先规划了主要人物,然后选用了概括性最强的人名最为特征值。 文本结构分析运用层次分析法鲜明的表现出了文本结构,在特征值的选取上,根据红楼梦文本标题的概括性提取出故事主要人物,以此为特征值使结论中结构分析简易化、精确化。 应用计算风格学,采用计算机技术和统计方法,编制特定的数学程序和数量模型来研究文章风格。我们根据语言单位之间的数量关系,对不同的比率进行比较,归入不同的类型(虚词),确定文章风格的差异。 该文本识别模型从物理结构与逻辑结构两个方面分析文本,得到了作者行文风格、段落划分及文本结构和人物关系的结论。 2模型的缺点 8. 在特征词量化方面,由于中文含义上的多样性,存在人名用代词替换的情况,使频数出现误差;同名不同义的特征词出现也会造成频数误差(如:宝玉、通灵宝玉)。 文本层次划分由于特征词的选用是根据《红楼梦》文本的标题决定的,该文本标题是全文内容的概括,出现人名就是故事主要人物,但这类文本不具有普遍性,故几乎不可用于其他文本结构分析上,不具有普遍性。 张首映指出,单个作家的“语言风格”是不可求证的,(文学自由谈,1988(4)) 单个作家的“语言风格”,无论在时间之轴上,还是在空间之维中,都必定不可能产生。林语堂式的幽默,沈从文式的淡雅,都是不同的言语风格,而不是语言风格。因此计算起来可能很难。 这一论断表明,我们不可能以量化的数值来表示绝对的作家风格。计算风格学的量化指标都只能作相对参考。 九、参考文献 [1]维基百科 主成分分析法词条 [2]赖国毅 陈超,spss17.0中文版 常用功能与应用实例精讲,北京;电子工业出版社,2010.8 [3]林鸿飞 战学刚 姚天顺,文本层次分析与文本浏览,中 文 信 息 学 报,第13 卷第4 期,1998 [4]百度百科 计算风格学词条 附录: 三个样本基于主成分分析法的协方差矩阵: 汉字频数统计——Matlab程序 % 读取汉字 % 读取的汉字在comand中显示可能会乱码,需要修改字体。 % 依次打开file?preference?Fonts?Custom % 经比较发现这种Microsoft JHengHei的字体是汉字显示最好的一种,不会出现乱 码,又最美观 clc; close all; % 将todayNews.txt 改成todayNews2.txt就是英文 % 比较一下英文和中文其实,没有本质的区别。 fid = fopen('todayNews.txt','r'); if fid == -1 disp('Can not open the file'); return; end dict= char('宝玉','贾珍'); % 字典 freq = zeros(size(dict,1),1); %频率 while (~feof(fid)) aLine = fgetl(fid); % 如果运行结果显示乱码,请修改command和workspace的font disp(aLine) for i = 1:size(dict,1) % deblank 使用的原因:词语长度不一, % dict生成时,会在短的词语后面加空格,查找的时候必须去掉,否则搜索不到 re = strfind(aLine,deblank(dict(i,:))); % strfind,可以返回所有的待查找词语的位置 % re的长度表示了词语的个数 freq(i) = freq(i) + length(re); end end for i = 1:size(dict,1) disp([dict(i,:),' 出现次数: ',num2str(freq(i))]) end fclose(fid); 批处理去除虚词 @echo off setlocal enabledelayedexpansion cd d:\ for /f "delims=" %%a in (1.txt)do ( set aa=%%a = ! set aa=!aa:而 set aa=!aa:何= ! set aa=!aa:乎= ! set aa=!aa:乃= ! set aa=!aa:其= ! set aa=!aa:且= ! set aa=!aa:若= ! set aa=!aa:所= ! set aa=!aa:为= ! set aa=!aa:焉= ! set aa=!aa:也= ! = ! set aa=!aa:以 set aa=!aa:因= ! = ! set aa=!aa:于 set aa=!aa:与= ! set aa=!aa:则= ! set aa=!aa:者= ! set aa=!aa:之= ! echo !aa!>>red.txt ) %del 1.txt% %ren temp.txt 1.txt% if exist red.txt echo succeed if not exist red.txt echo failed pause 红楼梦人物关系图
/
本文档为【红楼梦文本分析】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索