多元概率密度函数的Beta核估计(可编辑)
多元概率密度函数的Beta核估计
浙江大学
硕士学位论文
多元概率密度函数的Beta核估计
姓名:褚盈
学位级别:硕士
专业:概率论与数理统计
指导教师:张立新
2013摘要
摘要
针对多元有界数据的概率密度函数,我们提出了一种从一维推广到多维的 非参数核估计。由于在金融领域,我们通常发现变量是非负的,而且是有界的 例如在单位区间内,因此我们考虑用非负核函数来估计具有紧支撑的概率密 度函数。这些核函数源自分布族。在乘积核函数下,这种多元核估计 易于实现、非负的并且没有边界偏差。在理论性质方面,首先我们得到了多
元
核估计的积分均方误差和最优带宽,然后证明了一致强相合性以及渐近正态 性等定理。在模拟和应用方面,几个实例用以验证理论结果和实证分析。在
带
宽选择中,我们采用了最小平方交叉验证法。在数据模拟方面,我们详细地展
示了多元核估计的表现。在应用与实证分析中,我们用多元核函数对 生存函数进行了核估计。并以黄金、白银价格和中国证券市场的数据为例做
了
分析研究。
关键词:核函数、多元密度估计、渐近性性质、最小平方交叉验证、生存 .
函数 .
,.., ,. ,
.
, . , ,.
.. .
.. . 五.
: ,,
.
?,
绪论
第一章绪论
核估计是非参数估计的一种。
的核估计是夕曲甩。
一置,江,,...,刀,有关标准核估计
的相关介绍与观点可以参看,,和
等,比如普遍使用的标准高斯核函数及其渐近性方面的理论与性质。
标准核函数是对称核,很适合解决在无界支撑下概率密度函数的估计,但是
当
随机变量的支撑是无界的,比如非负数据、区间数据等,标准核估计就不合适 了,因为标准核估计仍然会考虑支撑以外的范围并赋以权重,这样就会引起
边
界的偏差。这样,消除边界的偏差就成为了研究的活跃问题,学者们探索了很 多解决的方法。对于单变量一元概率密度函数的情况,提
出了数据反射法,但是这种方法仅仅适用于在边界区域概率密度函数的导函
数
为零;向黜和,将提出的局
部多项式回归应用于密度函数的估计中;和提出了在使
用标准核函数之前先进行转置;和提出了一种非负的估计
量,即把一个局部线性估计和正态化的标准核估计结合;,和 也比较类似,建议在边界使用有界的、自适应的核函数和在内部点上 使用一个固定的标准核函数;和提出了一种虚数据方法,
即通过次序统计量的内部插值法在边界点上产生虚拟数据。 直到,一种非对称的核估计,核估计被提出才有效地解决
了边界的偏差。核估计适用于定义在单位区间,上的数据。简而言之, 核估计正是使用一族分布的密度函数作为核函数以估计未知的在紧支 撑上的概率密度函数。核估计的方法无论在原理和实现上都较为简单,并且 核估计是免于边界偏差、非负的、具有积分均方误差为刮。同 时,核估计可以满足核函数的支撑与密度函数的支撑保持一致。绪论
对于一维的非负数据,,和::等研
究了核估计。
对于多维数据的情况,和提出了一维随机变量的口一混
合严平稳序列的标准核估计;提出了多元有界数据的
核估计。
本文将一元概率密度函数的核估计扩展到多元的情况,提出了基于有 界数据的多元密度函数之乘积核估计,并且得到了多元核估计的一些 新理论、新性质,如积分均方误差和最优带宽、一致强相合性等。除此之外, 基于上述理论,考虑到现实的经济、金融数据往往是具有紧支撑的,在实际应 用中,本文提出二元核估计作为生存函数条件密度函数的核估计方法, 分析并解决一些实际问题。
下面,介绍文章的编排。第一章是绪论;第二章首先分别介绍了一元概率 密度函数的标准核估计、一元核估计以及多元概率密度函数的标准核估计, 然后在乘积核函数下,提出了多元密度函数的核估计;第三章首先提出了 多元核估计的积分均方误差并得到了最优带宽,然后给出了一致强相合性、 渐近正态性等收敛性定理,而且从实践的角度,运用了最小平方交叉验证 法,以便于实现;上述第三章涉及定理的证明过程在第四章中;第五章、第六 章是蒙特卡洛模拟与实证分析,本文运用生存函数。一种条件密度函数的二 元核估计,一方面以金和银为例,对价格波动进行研究,从统计的角度验 证替代品的重要经济学性质,另一方面,从国内证券投资的实际情况出发,基 于马钢股份价格和上证综合指数点位的联动关系,对证券市场的热点课题,
即
如何确认市场底部进行初步地探索。基础知识
第二章基础知识
.一元概率密度函数的标准核估计
墨,...墨是一组样本,服从某个未知的概率密度函数为,功的分布。则/力 的标准核估计人是
夕力玎~。一五,,,...,阼
蚝白
即夕功一?伪一一五,,,...,刀。其中称之为带宽曲。
根据标准核函数的定义:
正定性:甜,
积分为一:似咖,
对称性:,
方差有限:“,
可见,标准的核估计是对番永棱:‘通常适用于支撑是无界的,如??,?或者 对称区间,如,】。
核函数的选择可以有多种:如窗、三角、
?、四次、、高斯、余弦、
指数等。基础知识
.一元概率密度函数的核估计
五,...五是一组样本,服从紧支撑上的某个未知概率密度函数为厂的分 布。我们假定该紧支撑是己知的并且不失一般性,我们令其为【,】,厂具有
连
续的二阶导函数。砗。,是随机变量钯蛔,的概率密度函数。 本文,介绍两种协核估计。第一个核估计用乙?’。。核函数, 是光滑参数、或者带宽,满足当拧一?时专。第一种核估计五定义如
下:
五曲:露一主疋,,。五,:,,..棚,
髟洲,胁/,/
第二个核估计记作五,
,
厶?
厶?/.? ?如 如,
.
文本称之为新核估计或者修饰核估计。
厶使甩或核函数,该核函数定义如下:。
?一,
‰.叫,,/
毛巧九,,矿,,
??,
【如“。,
,.一?.一,一/。
见图.,可见,核函数的形状随着的不同而发生变化见 .
基础知识
枷??? 斟?
?’
一?,? 憎?一?? ?螂??? 瓣? 埘‘
图. 核函数的形状随取值变化 .多元概率密度函数的标准核估计 五.,....,,,...,是一组独立、同分布于某未知多元概率密度函数厂
的维随机变量。多元标准核估计为 /力厂“,...,毛刀?一置,,,...,刀 删垂毒夸
,...,%,
.
.五,...,嘞,
五五.,.?.二,
,...,乙
即
胁觫?班甩?足呼,..?,争
却‰唾垂睁户啦,..硼
州×..?×九
瓦记为多元标准核函数,啊,...,%记为带宽。
本文采用乘积核函数,即基础知识 础,垂古寺一绯?,勺
.多元概率密度函数的核估计
五‖..瓦,,,...,刀是一组独立、同分布于某未知多元概率密度函数.厂 的.维随机变量。与上一节定义的多元标准核估计形式类似,将一元概率密度 函数的咖核估计推广到多维,我们提出两种核估计,五曲、丸劝。 第一种核估计五曲为:
五?窆%??,:?..,刀,
毛”跳。勺
“,...,畅,
?瞄旷..,瓦。,
,...,乙
第二种核估计,即新核估计表示为:
厶?:一兰%五
%【‘一
工,...,而,
五五.,...,如三,
“,?,岛基础知识
对于两种物品,如果一种物品价格的上升引起另一种物品需求的增加,则 这两种物品被称为替代品 。战略管理中的替代品是指具有相 同或相似功能的产品。如:公交车和私人轿车、高铁与飞机、洗衣粉和肥皂、 鸡肉和鸭肉等等。以高铁为例,当高铁的票价上涨时,乘坐高铁的成品增高, 人们的需求降低,从中有一部分需求可能转向飞机,从而使得人们对飞机的
需
求增大:反之,高铁的票价降低,使得乘坐飞机出行的人相对成本提高,为了
降低经济成本,一部分人会放弃乘坐飞机而选择高铁,进而增大的高铁的需求。
本文对全球各大金融期货交易所和商品期货交易所均高度关注的金与银的价格
走势,通过运用对条件概率密度函数属于二元概率密度函数的核估计
进行实证分析,验证金和银之间是替代品的关系。
马钢股份与上证综合指数
马鞍山钢铁股份有限公司“马钢”是在国有企业马鞍山钢铁公司“原
马钢”,现已更名为马钢集团控股有限公司基础上改组设立的一家股份有限
公司,于年月日在安徽省马鞍山市注册成立。马钢所发行的人民币普
通股股及境外上市外资股股股票,己分别在上海证券交易所和香港联合交
易所有限公司“香港联交所”上市。本文选择的数据是马钢股份在上海证券交
易所上市的股股票价格,其股票代码为。‘
上证综指即“上证综合指数”上海证券综合指数,英文是:
’上证综指。
.通常简称:“
“上海证券综合指数”它是上海证券交易所编制的,以上海证券交易所挂牌上市的
全部股票为计算范围,以发行量为权数综合。上证综指反映了上海证券交易市
场的总体走势。
本文通过采集马钢和上证综指的历史价格点位,运用二元核函数估计 条件密度函数,分析马钢股价与上证综指的联动关系,考察二者价格点位是
否
存在相对高低价格区间的一致性,从而指导证券投资,提高投资回报率。多元
概率密度函数的核估计
第三章多元概率密度函数的核估计
.收敛性
在这一章节,我们将得到一些新的主要理论,是关于对多元概率密度函数 的核估计之渐近性。
我们考虑所有的情况基于变量具有紧支撑,为了不失一般性,我们假定紧 支撑是【,。
首先,关于带宽参数,满足以下两个先决假设:
.屯一,....,并且丐抛哼,当玎?。
.哆,,?,并且力万。妒一,当刀一?。
下面的结论阐述了核估计的积分均方误差
。
定理一:夕的积分均方误差
假设多元概率密度函数厂具有连续的二阶导函数,夕是多元概率密度函数厂 ,即使得渐近
的核估计。在的假设下,最优带宽
达到最小的带
积分均方误差宽,是
巧勺刀,...,白为正常数。
相应地,得到了最优渐近积分均方误差 是
脚』羔勺乃:出面丐,:矿功蠢磅万南
其中
多元概率密度函数的核估计
弓?’一‖曲
矿:厨卅/吩一弓,,
注:产丢‖筹炉‰荆
定理一说明了核估计之偏倚的收敛速率,即?, 对于边界区域和内部区域是一样的,因此不存在边界点的偏差。当随机变量
的
的收敛速率减小。
维度增加的时候,积分均方误差在第四章的证明中,还可以发现边界区域乘
积核估计方差的收敛速率
‘?州芎抛?‖丐要大于内部区域的收敛速率:.。丐?。 是内部区域的元素集合,,。是其补集。尽管如此,渐近积分均方误差
不会由于外部区域方差的收敛速率增加而受到影响, 具体详见第四章。而且,由于哆功
一口功项的存在会引起一个微小
的偏差,它会抵消外部区域方差收敛速率的增加。 推论一:对于新核估计,定理一的结论仍然成立,其中
弓一广?,和曲石广,?冉一‘
定理二:夕一致强相合性
厂是连续的、有界的概率密度函数。在的假设下,对于任意的在【上
的紧集合,,我们有如下的结论:
?
叩旷一厂?与力一佃/
多元概率密度函数的核估计
下面的理论是关于核的密度估计之渐近正态性。 定理三:夕的渐近正态性
假设/关于五,...,%可导,夕是厂的核估计,而且带宽
’
,,...,白为正常数。
参数满足巧
那么,我们有
.//?垆驴功一厂?一‖‘?,
其中
厶 \凡. ’
矿?工州何卅‖,密瀚抛位,
,,吩/吃,并且一一/岛.,,为其补集, ‖’?。屯弓功。
下面的推论给出新核估计的渐近正态性。 .。
推论二:定理三的渐近正态性对于新核估计依然有效,其中矿‘相同, 圭‖功,矿??,
旷乃?【,
气厂劝,
?,
?岛一.,矿.
一:一?./:一?,
及珥.一.、/?.?//多元概率密度函数的核估计
.带宽的选择
参数是不可以直接用于
定理一中我们建立的最优带宽
实际的应用,因为最优带宽的求出依赖于我们要估计的未知多元概率密度函
数。
例如,在一维情况时候,我们可以得到核估计的最优带宽参数 盐垃竺二兰塑兰
. 万珈.
’
娴
:?’曲吉一。功
由于/力未知,我们无法计算得到‘,可见最优带宽仅仅是理论上的“最优”。 既然定理一的最优带宽不能够直接使用,我们还需要思考其他的方法。实 际上,对于如何选择多元核估计的带宽,已经存在不少方法,
提供了一个很好的介绍。此后,使用了 ,,
和推荐了马尔科夫链蒙特卡洛
算法等等。
一种通常情况下采用的用于判断那些方法之效果的标准是积分均方误差 豇,,
/研,石;蝴。
在这个标准之下,最小平方交叉验证法 ,
是目前流行的用于选择带宽的方法。方法也经历过一些学者的发展,其中 大样本理论由,和等给出了。
做了一个模拟来比较一些选择带宽的计算方法并得出结论是交叉验证 法是最好的。
在单变量下,等学者讨论了高斯核函数估计的稳定性;在
二元核估计下,和研究了插入式带宽选择方
法;在多变量核估计下,和研究了交叉验证?
带宽矩阵,和做了方法和其他方法的比较研究。多元概率密度函数的核估计 ,
本文,我们采用最小平方交叉验证法
来选择带宽。这一章节,我们研究基于核的乘积核估计最小平方交叉验证 法 ,。方法是基于将积分平方误差
,
蛔铭眦 最小化,而积分平方误差
定义如下:
夕出一夕工厂出』厂妣
因为上式最后一项与与带宽无关,因此最小
只需将前面两项求最小,即丛已一尸。但是,第二项,夕?,功出中仍然含 有依赖于未知函数/功的因素,这里我们用??%,五?作为 町
.洲。从而,我们得到了』瓯一,厂的估计:
圪出一寺?%,五一,
其中
%,五‘屹,置??%渤,如%,
至此,我们可以得到规则带宽选择法一
/; ,。‘’。
按照本章节开始我们提到的判断标准,可以证明这种选择法在积分均方误 差 /,下是渐近最优的。为了建立这个结论,
:
我们还需要一些假设。因为最优带宽参数是刀.删’,我们假定占?只,这里 风,撑““’岛,?,,
我们令板月?,彳和口都是正常数。
下面的定理阐述了占是渐近最优的。多元概率密度函数的核估计 定理四:在满足椒见彳刀,其中和口都是正常数的条件之下,有 兰堕坚,,
,得到其中‰是最小化积分均方误差
的最优带宽。定理之证明
第四章定理之证明
这一苹是上文介绍的四个定理证明,过程如下: 定理一之证明:
我们首先求出:估计的偏倚。注意到驴功乓,...,匕, 其中随机变量,,...相互独立并且服从分布 , 均 值 方 差
/,一/ 纷?岛/珥,
一哆吩一而岛/包%。
利用二阶泰勒展开根据,
驴瑚:厂功至哆易曲饿羔劈,得到
四驴枷召泌驴?出圭州出。喜劈;
接下来,我们求得估计的方差是
万、,酊曲:岛,勺皿纯。
这里,纯,...,乙,随机变量乙,,...独立且服从分布 工/,一//,并且
哆,吃可硒/河而两/万
利用公式我们可以得到
刀?仃?,厂和..,毛??巧陀?精,定理之证明 这里是函数,,『,巧/%,并且一一/,,为其补 集。
在积分方差崦蒯谢一冲上述第二项乘积?甾黑孥退 化消失。令才。,占,万,...,磊,则
,耐。眦
甩一《?寸?进占缸夕功胁缸夕曲瑚
唾垆功?饿妒,
垂矿蝴。唾矿
最后根据勉磴洒夕碲四夕砌缸夕力矗,将上面的两个结果结合起 来即得到了多元概率密度函数,的核估计夕之积分均方误差 。证毕。
定理【二赶明
我们记心心,...,心,其中心是参数为,,,一专/屯的 随机变量的均值。根据,的连续性以及利用’不等式,可以证得 夕砌一厂刮?丘叫毛编,五?%%,乙而”厂二厂功出 丘巾%,:?%%,岛嘞”厂一/力出
对于旷一驴功,使用分部积分法并根据蠡嚣的不等式:定理之证明 万见产,
见呻,
可以得到,
陟?一层尹圳
%,?%%,岛嘞饥功一功】
『一口,瓴?..,。
?门一%,‘‘?%%,‘而
。 ’
?碧刮?磁,五?%渤,岛%
藕 。】一
万
×?%/屯,/矗/,一/岛吩也
?丐岛叩。?一?
划刀?骘屯。
其中,为常数并且决定于维数。因此,夕一驴神几乎处处收
敛。
证毕。
定理三之证明
参照,利用,拧嚆
//哕?驴曲一厂一‖‘窆五十万而 其中
五仃.哕‘%,五。“?%慨,如嘞
产
?层%,五。五?.乙%,.吻”,定理之证明 现在,我们利用李雅普诺夫中心极限定理 来证明《:窆互的渐近正态性。由前面我们在定理一已经推导出的
州??
刀一《酊懒吲夕舭正占耐?埘 产。矿九?冉?
.
垂矿:九。唾?
和以喃,
可知
《:,一。
因此,《??旦专?,。
证毕。
定理四之证明
参见眦锄。为了不失一般性,我们考虑慨白杀, 铂咕?若证明这个定理,只需证明箍与,对于所有舶?都成 立,并且
。。。以.妈妈呱.定理之证明
儿。瓦’只一只一刀,砖’?
』,。』』柚
”
其中,,,五驴并且功是夕的偏倚。
首先,对于非随机项‘,利用蛾白杀,可以得到 磕从‘?前
然后,中间的两项瓦蠹和土在以上几乎必然收敛于。见引理一的
证明。
引理一
在满足椒耳?么矿,和口都是正常数的条件下, 一,口.,对于,。
,
一‘
厶,厶可以表示为告?形,其中对于厶来说,
形砖,功五出一』露,工扭戤
对于厶来说,
形以一,如,曲五力矗一刀一?磁,工丑,
彤的均值为。现在,我们由假设条件和伯恩斯坦不等式,得 到
哩蚓圳蛐州一百蒜罴剞矬卟肌定理之证明
证毕。
下面,我们继续证明定理四。
对于‘项,根据切贝雪夫不等式以及擞风?彳刀,彳和口都 是正常数,我们可以得到
以 占由强,
‘可以表示成‘?:,彤‖其中?,,彬?均值为,并且 形,,吃墨,,?扭一』%僻』
根据累积量的线性性,可知存在某个常数口,使得对于,,...,有吼使得咒脚
‘?甜%岷‖?,。矗卜%刀枷,
,..矗也记为‘,?.呔,丘中互不相同的数的个数,显然,...,,带有个不同
的元素的累积量中元素的数目被矿控制,
七
?饿鸭%矗,...,。矗??刀”洲%%舻?,睨。,个不同的下标。 ‘’一。一
...以
现在,对于个不同的下标,例如‘,屯,...,气,?,...乙,根据毛‘,的定义,
岷‖?,%派,
因此,我们得到‘/乎必然收敛。
接下来,我们证明
,地‰。以堕气筹等则专呲
由于定理之证明
;?
.一最?,。一功?
?,
瓦一可以表示为?三。五,这里五五五一,五一瓴墨二厂五, 核估计的偏倚并且是,
表达式以一厂
因此暑,
? ‘“’,
以
所以/城几乎必然收敛。同理可证口/城几乎必然收敛。 证毕。数据模拟
第五章数据模拟
在这一节,我们以二元数据为例,研究多元核密度估计在有限样本下 的性质。我们使用以下核函数: 变换,
删等,并且做对比分析。模拟数据产生于如下三种情况下的待估计
密度函数:
:无界问题,二元正态分布的密度函数,均值一,鲍,,方差 砰,一,,相关系数,.。
:在非负支撑,上,截断的二元正态分布的密度函数,均值 “,鸬.,,砰,正,,,..。
:在紧支撑为了不失一般性,在【】上,二元正态分布的密度函数, ,鸬.,.,砰,一,,,.。
在模拟中,我们研究选取三种尺度的样本容量,//,,,并且对 每一种样本容量、每一个模型,我们都重复次。每一次抽样,按照将积分 ,最小化的方法选择带宽:
平方误差
驴功一厂曲出
夕?出一厂出,厂,
表.、表.列出了各个核估计模型下对密度函数估计的积分均方误差之平均值
和标准差。我们可以观察到如下
的结果:
总体来说,无论哪一种核函数,估计模型的积分均方误差的 平均值和方差都是随着样本容量的增大而减小。例如,对于模型,数据模拟 核估计的情况,当一,平均的积分均方误差为.,当样本容量增大 刀,平均的积分均方误差为.,当样本容量继续增大到刀时,平 均的积分均方误差继续减小,为.;
当边界区域变大,积分均方误差增大。例如,当刀,在
模型无边界,一?,?中,核的平均积分均方误差璐是 .。在模型中非负支撑,?,核的平均积分均方误差【 是.,在模型中紧支撑【】,核的平均积分均方误差 是.;
模型,由于是无边界的情况,可以看到核估计的表现是比 较好的。就均值而言,相比之下,核函数平均的为.和 核函数均值为.的估计稍微差一些,但是较核估计、 核估计的差距不大。再看标准差,四种估计的方差都比较接近,有三个
标准差为.,而方差最小;
模型,是在紧支撑,】上有边界的情况。非常明显地观察到, 核估计和 核估计的表现要优于传统的对称核估计、 ’?..
变换。当力,核估计的平均积分均方误差为.,新 核估计的平均积分均方误差为.,而传统的对
称核估计都较大,如核估计的平均积分均方误差璐是., 变换的平均积分均方误差是.;
在相同情况下,新核估计要优于核估计。例如,当以,对 于模型,新核估计的平均积分均方误差璐为.,核估 计的平均积分均方误差为.,对于模型,新核估计的平 均积分均方误差为.,核估计的平均积分均方误差数据模拟 为..,对于模型,新核估计的平均积分均方误差为., 核估计的平均积分均方误差为.。这也验证了
核函数。
提出的对于核估计改进,从而提出了
对于每一次抽样,我们还计算了最小平方交叉验证方法得到的带 宽参数,表.、表.详细地给出了模型和模型下,理论带宽参数与 法得到的带宽参数。
对于所有的模型以及核函数,带宽的均值和方差随着样本容量的增大 而减小。
新核估计的带宽大于核估计的带宽。
就均值而言,理论带宽平均值和方法带宽平均值是比较接近的, 例如,模型,刀,核估计的理论带宽平均值是.,%., 接近于法带宽的平均值为他.,.,新核估计的理论带 宽平均值是.,如.,接近于法带宽的平均值
蛾.,如.;但是就方差而言,方法带宽的标准差要大于理论 带宽的标准差。例如,模型,以,核估计的理论带宽标准差是., .,小于方法的带宽标准差.,.;
注意观察当模型从无边界的情况模型到有边界的情况模型 时,带宽参数发生的变化。对于核函数,带宽会变小。例如,当刀, 其理论带宽的平均值从模型的.,.减小到模型的.,., 当刀时,理论带宽的平均值从模型的.,.减小到模型的 .,.,当刀时,仍然成立;然而,对于,新,结果恰
好相反,即带宽会增大。以为例,当”,其理论带宽的平均值从模型 的.,.增大到模型的.,.,当拧时,理论带宽
的平均值从模型的..增大到模型的.,.,当玎
数据模拟
时,理论带宽的平均值从模型的.,.增大到模型的.,
.。
表.:密度函数估计的厶误差均值 . .
. .
标准差
. .
均值
.
标准差 . . .
均值
. .
标准差. . 均值
. .
标准差
. .
均值
. .
标准差
.
均值 . . . 标准差 . . 均值
.
. . 标准差 .嗽 . 均值
. . 标准差 . . 均值
标准差 . .
数据模拟 表.:密度函数估计的厶误差 . .
均值
. . 标准差 . .?
均值
标准差 . .
. . 均值
. . 标准差. .
均值
. . 标准差 . . 均值
.
.
标准差 . . 均值
. . 标准差 . .均值 . . 标准差 . .
均值
. .
标准差
. .
均值
. .
标准差数据模拟
表.:理论最优带宽的均值与标准差 理论值 理论值 理论值均值 . ,. .,.舢
.,.
标准差 .,.国 .,.
.,.
均值 .,.】 .,.
.,.
标准差 .
. .,. .,.
均值
.,. .,. .,. 标准差 .,. .,. . ,.均值 .,. .,. .,. 标准差 .,.
.,. .,.
均值 . ,.】 .,.
.,.
标准差 .,.国 .,. . ,.均值 .,. .,. .,. 标准差
.. .,. .,.数据模拟
表.:方法的均值与标准差 均值 .,. .,. .,. 标准差
.,. .,. .,. 均值 .。. .,. .. 标准差 .,. .,. .,.
均值 . .,.
.,. .
标准差 .,.
.,. .,.均值 .。. . 。.外 .。. 标准差 .。.. .,. .,. 均值 .,. .,. .,.
标准差 .,. ?.,. ?.,.
均值 .,.
.,. .,.
标准差
.,. .,.钔 .,.实证分析 第六章实证分析
.生存函数以及二元核估计 首先给出生存函数.的定义: 对于任意给定的固定区间【口,】,则在条件五?下,五的生存函数为
墨
只五而五?
:塑三苎墨垒
五?』
:】一??
,
小船嚣,
本文给出生存函数的二元概率密度函数的核估计:
弧一糌,
其中五,乞为二元矗核估计函数, 五:刀一窆%,坝五,:,,..卅 ,毛?五。/惕置
骗,,
置五。,五::.,
即,
五,万一窆‘鹏。置。他鹏。置:,:,,..棚 ?五.,五::。,
实证分析
可见,生存函数实质上是以分布函数的形式作为表达式。文本再定义第二
种形式的生存函数,即以概率密度函数的形式给出:
墨五
厂“五,毛屯?
:出:垒垒
尸也?,
:..............?? :厶呶
,
躲
同样地,可以得到唧“的二元核估计,为 岛五
厂“,恐?,
:』墨苎垒
?
::???/
五妞
一,
其中五“,而为二元核估计函数,与上述五瓴,乞类似, 讹,一, 五五,恐:?窆’。训俩。五。协’。飞?“五:,,,...,以
五五。,置:三,实证分析
接下来,本文将进行两个实证分析,分别是金银价格的替代品验证分析, 马钢股份与上证综合指数底部的探索。
.金银价格的替代品验证
本文选取年月至年月每周的黄金现货延迟交收”、
的收盘价格。数据来源于金融数据库,由
白银现货延迟交收
浙江省工商信托投资股份有限公司研究中心提供。
本文从密度函数核估计的角度,说明经济学经典概念一‘替代品”的基本结 论。黄金和白银价格均是随机变量,记黄金,白银五,五,假定墨,五 服从某一个未知的分布函数,五,五的联合概率密度函数为,“,恐,则 厂“,恐的核估计为夕五,毛。
在理论上,对五,置的联合概率密度函数,而的核估计厂“,屯可以 选择标准的核函数,但是实际上这种核估计是不合适的。因为在现实的金融
数
据中,是不会出现的,即实际中的金融数据,特别是股票价格或者期货价 格的数值是有限的记作,则有。所以,五,,是在紧支撑
【,】上的数据。从而根据本文前面章节的阐述,正确的核密度估计应该是 核函数。接下来,本文用二元核密度估计五而,研究“替代品”问题。 为了便于计算并且不失一般性,本文对历史数据进行形式如下的极差变化
法进行标准化处理,使得数据的取值范围转换为【】。
矗一毛
虼??』,?虽甾告,??刀,??聊
’,一毛
一 ’.’
由于经济周期、汇率、国际政治、政府宏观调控、以及贵金属的供求关系
等复杂因素的共同作用,通常经济数据,特别是贵金属的价格变动呈现出一定实证分析
的规律性、周期性,使得历史的最高价格、最低价格在未来的一段时间内可能
很难突破,而且抽样的历史数据时间周期越长,其历史最高和最低数据在未来
一段时间内被突破的难度越大。所以,通过极差变换法标准化处理后,数据反
映出的随机变量的规律在一定范围内是有效的。因此,这种数据预处理的方式
是合理的。
本文选取三个区间,‘,.】表示白银收盘价在点以下,厶表示白
银所有收盘价格点位的集合,厶【..】表示白银收盘价在至之间。
首先,我们对比气五,气五,见图.、图.和图.。
图.显示了黄金价格的边际密度。反映了从年月以来现货黄金
的整体历史表现。通过概率密度分布,指数位于【.,.】的概率较大,而在
【.,】的区间上,发生的概率较小。
从图.中可以看到,当白银价格在.点以下的时候,黄金收盘价分布 于【.,.概率较高。与图.黄金价格历史上较多位于【.,.】相比较, 可见,【.,.是相对的低位,说明白银的价格下跌,造成市场对白银的需求 增大、转而对黄金的需求减少,‘这种对黄金需求的短期降低,使得黄金的供
应
相对冗余,导致供大于求,因此均衡价格下降。
图.给出了另一种极端的情况。当白银价格在至的高价格时, 黄金价格的分布主要在【.,.】,与图.黄金价格历史上较多位于【.,.】相 比较,说明此时黄金价格的点位也较高。这种现象的原因在于,白银的价格高 企,造成市场对白银的需求下滑、转而对黄金的需求增大,这种对黄金需求的 短期增加,使得黄金的供应相对短缺,导致供不应求,因此均衡价格上升,黄 金价格就会处于高位。
通过以上分析本文从概率密度函数的核估计角度,阐释了经济学中“替代 品”的重要性质。
穹实证分析
除此之外,图.显示了白银在点以下的时候,贡金主要在【.,., 这还可以反映出白银价格的波动对于黄金价格高、低点位的指示作用是敏感
的、
显著的。
最后,为了更清晰地展示白银价格在不同区间上,黄金价格的条件概率分 布情况,我们给出这三个区间上生存函数的二元核估计,
兔五,文五,是五,并且我们把这三种情况下的结果放在一起比较,见图.。
交叉点曲线为五?‘【,.】的条件下,文“的变化图;实线为五?厶, 文瓴的曲线;虚线表示五?厶..】,是五的图线。
从图.可以观察到,随着毛从开始增大,文毛的曲线第一个下降,并 且加速减小。原因是白银在点以下的时候,由于上文阐释过的替代品,,的 相关性质,则黄金价格在低点的概率较大。因此随着五从开始增大,毫五的 导数绝对值较大,所以文五第一个开始减小。然而,由于黄金价格在高点的概 率较小,所以五时,蛊五平稳地趋向于;
相反地,髓着而从开始增大,文而的曲线最后才开始下降,并且当五 时,五加速趋向于。这是因为当白银价格在至点的时候,黄金 价格一般也会处于高位,因此在低价格区间的概率较小,文五的导数绝对值
较
小,所以当而从逐渐增大时,函数值平缓地减小。然而当五时,文西的 导数绝对值变大,文如才开始加速减少并迅速收敛于。实证分析 ? ?袖
图.‘?‘,.】,气西的曲线图
? ? ? ? ? ?, ?
一
??
图.五?厶,屯五曲线图实证分析
?
口
哪? ?
图.五?厶..】,气五曲线图
量墨叠. ‘善?耋毋
图.生存函数
、办 “ 、,
“ 瓴
.黾 .& .黾实证分析
.马钢股份与上证综合指数
根据国内证券公司、基金公司等金融机构的相关研究分析,总结出一些判 断市场底部的经验规律。通常认为当马钢股份每股市值低于元的时候,通常 上证综合指数处于相对低点,是买入股票“入市”的好时机,预期后市会较大
幅度
的上涨、可能带来较高的收益回报。
本文从密度函数核估计的角度,验证券商的经验结论。马钢股份价格和上 证综合指数点位均是随机变量,记上证综指,马钢五,五,假定五,五 服从某一个未知的分布函数,五,置的联合概率密度函数为厂五,吃,则 厂毛,屯的核估计为夕五,恐。本文选取三个区间,五【,】表示马钢股价 在元以下,厶表示马钢股价的所有价格点位的集合,厶【,】表示马钢股价 在元至元之间。
在实际的估计计算中,数据按照上述标准化的方法进行归一化预处理,使 得马钢股份的价格区间在【,】。虽然理论上,中国股的股票价格的取值范围 为【,佃,但是实际上,无论是发达国家的证券市场还是目前国内的证券市场, 本质上,股票的价格决定于上市公司本身的投资价值,可见佃的无穷大上限
在
实际上是达不到的,因此证券的价格在有界区间上波动、是紧支撑的,此类核
密度估计问题,应该选择非对称核、而不是对称核。
其次,股价由于受到国际经济、政治、政府宏观调控等众多复杂的因素影
响,其走势往往呈现出一定的规律性、周期性,可以参考道氏理论、波浪理论
等证券投资学的经典论述。正因为如此,本文进一步假定历史在一定范围内可
以重演,因此,对证券市场的历史数据,在实际处理中进行极差变换法标准化,
使得上证综合指数的点位、马钢股份的每股市值在【,】,通过这种变换使得数
据是紧支撑的,不是无边界的,所以在核估计选择核函数的时候,选择核
更为合理。
皇置实证分析
本文选取年月日至年月日的马钢股份价格、上证综合
指数点位的每周数据,数据来源于金融数据库,由浙江省工商信托投资股
份有限公司研究中心提供。
首先,我们对比气“,屯,见图.、图.和图.。
图.显示了上证综合指数的边际密度。反映了从年以来上证综指的
整体历史表现。通过概率密度分布,指数位于【.,.】的概率较大,而在【.,】的
区间上,发生的概率较小。说明了股指在漫长的时间内长期处于震荡调整“熊
市”的过程中,却在较短的时间迅速上涨至高点“牛市”并且之后快速地滑 落下跌。
从图.中可以看到,当马钢股份的价格在元以下的时候,上证综合指数 的条件密度函数几乎全部在,.】,对应相当于指数点以内。其中指数在 ..】的概率较高。与图.上证综指历史上较多时候位于【.,.】相比较, 可见,【.,.是相对的低位,说明马钢股份可以较好地反映出市场的底部区 域,具有一定指示与预判的意义。
图.给出了另一种极端的情况,即指数项部的判断。当马钢的股价在元. 至元的时候,上证综合指数主要在【.,.】,说明此时上证综合指数的点位较 高。然而图.中,马钢股价在元以下的时候,上证综指主要在【.,.】。 这说明马钢股份价格的波动对于上证综指高、低点位的指示作用是敏感的、
显
著的。
最后,为了更清晰地展示马钢股价在不同区间上,上证综指的条件概率分 布情况,我们给出这三个区间上生存函数的二元核估计,
五,是玉,五,并且我们把这三种情况下的结果放在一起比较,见图.。