基于改进相关系数聚类法的股票投资组合研究

时间：2015-07-07

　　一、引言

　　最优股票投资组合选择及其风险控制一直是资本市场研究的热点问题。已有文献对资产组合最优决策理论进行了大量研究，在资产组合选择与最优配置、资产组合规模效应与影响因素、以及资产组合风险度量与控制等重要问题取得了丰硕成果。但遗憾的是，无论是理论还是实证研究都很少考虑到金融时间序列的时变性、聚集性、持续性等波动特征对资产组合风险规避与控制的影响。而本文正是针对目前研究的不足，通过对沪市A股的120支股票收益率进行拟合使用改进的相关系数法对股票收益波动时间序列相关性进行匹配，聚类，从而优化了股票投资组合选择的方法。并通过实证研究，证明了在哈里？马柯威茨证券组合评价标准下，使用该种股票投资组合选择方法，可以获得同等收益水平下，更低风险的股票投资组合，从而为投资者选择合理的股票投资组合提供了可能的方法。

　　二、文献综述

　　（一）国外文献马柯威茨于1952年最早提出了均值-方差理论，成为现代投资组合理论的开山鼻祖。自此之后，很多金融学者在前人的研究基础上对该理论进行了补充和发展，如托宾（1958）在提出了著名的两基金分离定律：当存在无风险资产的情况下，有效前沿上的任意一点都可以表示为（无风险利率，0）和切点的线性组合。此外，大批学者踏上了简化计算，完善模型的征程。一是尽可能的减少模型计算量，例如：夏普（1963，1964，1970）提出了单因素模型，它的主要思想是：市场的总体因素统一作用于所有股票，市场以外的因素只作用于某一只股票，因此可以通过股票组合来分散。单因素模型使用β来衡量投资组合的风险。提高了人们对市场行为的了解。罗斯（1976）提出了套利定价理论。该理论认为在市场均衡时没有套利机会，因此承担相同风险因素的投资组合应该具有相同的期望收益率。二是开发新的投资组合模型。例如Mao（1970）提出了均值-下半方差模型。Speranza（1993）提出半绝对风险偏差函数。J.P Morgan提出的基于Var的风险度量系统等，至今这个风险度量系统还在很多金融机构被广泛使用。

　　（二）国内文献我国对金融市场研究起步较晚是一个现实，这是由于很多客观因素造成的。近几年中，我国学者也对投资组合理论进行了深入的研究。唐小我（1994）针对我国证券市场的卖空限制情形下的投资组合模型进行了研究。王春峰、屠新曙和厉斌（2002）运用了几何方法解决投资组合问题。徐绪松、杨小青和陈彦斌（2002）提出了“半绝对离差风险测量工具”。刘小茂、李楚林和王建华（2003）研究了在正态情形下，风险资产组合的均值-CVaR边界，并与方差风险下的均值-方差边界进行了比较。陈金龙和张维（2002）分析了投资组合与CVaR之间的关系。此外，安起光、王厚杰（2006），刘庆富（2006），荣喜民、武丹丹和张奎廷（2005）、刘志东（2006）等学者在组合预测和方法领域获得了显著的理论成果。

　　三、研究设计

　　（一）研究思路本文选取了马柯威茨的均值-方差模型作为本文的理论依据，该模型评价投资组合的标准，是当收益一定时风险最小，或者当风险一定时收益最大。该模型的思想是选取相关性低的投资工具进行组合来分散风险，从而得到更好的投资收益。因此如何衡量股票相关性，并进而筛选出相关性低的投资组合成为该模型的关键。由于之前的研究，无论是理论还是实证都很少考虑到金融时间序列的时变性、聚集性、持续性等波动特征对资产组合风险规避与控制的影响。而本文正是针对目前研究的不足，通过使用改进的相关系数法衡量股票收益波动时间序列的相关性，并据此聚类，优化了股票投资组合选择的方法。具体的思路如下：

　　（1）股票收益波动性拟合。对于金融时间序列分析，常常会出现某一特征的值成群出现的情况。如对股票收益率序列建模，其随机扰动项往往在较大幅度波动后紧接着较大幅度的波动，在较小幅度波动后紧接着较小幅度的波动，这种性质称为波动的集群性。在一般回归分析中，要求随机波动项是同方差，但这类序列随机扰动项的无条件方差是常量，条件方差是变化的量。所以需要使用自回归条件异方差模型（ARCH）或者广义自回归条件异方差模型（GARCH）。

　　（2）时间序列相似性度量。测量时间序列相似性的方法有很多，最主要使用的是欧式距离法和相关系数法。欧式距离法的优点是计算简单，易于理解，但是它容易受到序列波动性的影响，而且当序列长度增加时，其距离也会增加。特别是当时间轴发生伸缩或弯曲时，就不能够准确测量序列的相似性了。而相关系数法的优点是计算量少，而且即使两个序列均值不同，也能够准确比较相似性，而在欧式距离法中，如果两个序列均值不同，即使它们是相似的，计算出来的距离仍然会很大，从而误导了结果。但是相关系数法也存在其局限性，它只适用于长度相同的序列，因此在比较长度不同的时间序列时，需要改进该方法，改进的相关系数法如下。设有两只股票P和Q，长度为m的收益波动序列分别为X和Y：X=（x1，x2，…，xm-t，xm-t+1，xm）；Y=（y1，y2，…，ym-t，ym-t+1，ym）。首先要在X和Y中截取长度相同的两个子序列，设长度为t，最好从序列最邻近当前时段开始截取，t不宜过短，计算子序列 X1=（xm-t+1，xn）和Y1=（ym-t+1，yn）的相关系数r1：r1=■将子序列的长度向前增加一个，即长度为（t-1），计算X2=（xm-t，xm-t+1，xm）和Y2=（ym-t，ym-t+1，ym）的相关系数：r2=■，重复上述步骤，依次类推，直到子序列包含全部序列的长度m，计算出的相关系数有（m-t+1）个。将计算出的全部相关系数进行平均，则得到的为改进的相关系数：■=■。由于聚类需要使用距离，而改进的相关系数■是属于[-1，1]，所以要将■转化成大于等于零的距离，另d=|■-1|，则d∈[0，2]。通过d对股票进行聚类。　　（3）股票聚类。聚类分析。方法中最常用的是分层聚类。分层聚类方法是通过一系列或者是相继的合并，分割来进行的。是从单个对象开始，这样在开始时每一个对象都是一类，将那些最相似的对象首先分组，然后将组与组根据它们之间的相似性进行合并，最后随着相似性不断下降，所有的组渐渐融合成为一个聚类。

　　（4）确定最小方差资产组合集合的方法。常用的投资策略优劣评估标准有：收益率分布形态指标，夏普比率，风险价值（VAR），条件尾部期望（CTE）等。本文将主要使用由马柯威茨于1952年提出的用图像分析法确立风险资产的最小方差组合集合和有效边界的过程。我们以只拥有三个资产的组合为例。利用图像法建立最小方差资产组合集合的过程，就是在以资产权数为坐标轴的空间内，绘制反映资产组合各种预期收益和风险状况的线，然后依理性投资者选择资产和资产组合的原则确定最小方差资产组合集合的过程。我们分析是在允许卖空的前提下，以便不受限制条件的约束。假设我们对资产A，B，C进行组合，已知E（rA）=10%，E（rB）=20%，E（rC）=30%，设A，B，C资产的权数分别由xA，xB，xC表示，限制条件为xA+xB+xC=1，由于xC=1-xA-xB，因此只要知道xA和xB的数据，就可以得到xC的数据。因此，可以在一个二维平面图上显示三个资产的组合情况，同理，可以使用（n-1）维图显示n种资产的组合。在以xA，xB为坐标轴的图形中，直线AB的方程式是xA+xB=1，所有仅投资A和B资产，不投资C的资产组合都分布在这条线上；不包括A的组合都分布在B轴上，同理，不包括B的都分布在A轴上，分布在AOB三角形区域内的各种资产组合都不含卖空资产，在AOB以外的资产都含有一种或者两种资产的卖空。根据具体的限制条件在坐标图上的某个区域进行查找，以确定最小方差的资产组合。而这个过程可以通过EXCEL线性规划的方式实现。

　　（二）样本选择与数据来源本文选取的研究对象为2008年1月1日到2009年12月31日在上交所交易的，代码为sh600000-sh600120的A股股票，数据来源为国泰安数据库。剔除掉缺失值，实际得到102只股票。分别计算这102只股票的日收盘价数据个数，其中最多的为488个数据，以488为基准，凡是数据个数小于（不包括等于）基准数据15个以上的股票都被清除。这样经过清除后，剩下83只股票。然后对这83只股票的缺失值进行修补，修补的原则是以前一天的收盘价代替缺失值，经过修补后，每只股票都有488天的数据。计算每只股票的日对数收益率，公式为：日对数收益率=log（当日收盘价）-log（前日收盘价）。经过计算，每只股票都有487 个日对数收益率，

　　（三）时间序列分析建模过程首先需要对得到的股票对数收益率进行建模，以单只股票序列为例，过程如下：（1）做统计图观察判断。（2）单位根检验。序列大致可分为有三种：扩散型序列，单位根型序列和平稳序列。在实际问题中，时间序列大多并不平稳，而是呈现出各种趋势性和季节性。由于在实际生活中扩散型序列比较少见，很少作为理论研究的对象，所以我们判断的基础就建立在单位根型序列和平稳序列上。做单位根检验的目的就是要区分二者，对单位根型序列做差分处理，去除趋势性因素，从而得到平稳序列。（3）确定时间序列主模型。对原序列进行差分处理，得到宽平稳序列，求解它的自相关系数，偏自相关系数，同时观察自相关和偏自相关图像，确定ARMA（p，q）阶数。由计算机程序，生成主模型系数的参数估计，得到相应的残差序列。（4）根据股票对数收益率数据画散点图，趋势图，观察序列是否属于平稳序列，是否具备集群性，直观地判断是否可以采用条件异方差模型拟合数据。（5）ARCH效应检验。ARCH模型通常用于回归模型：yt=x't？茁+？着t。若随机干扰项？着t不存在ARCH效应，则可以直接对模型作最小二乘估计；若？着t存在ARCH效应，则应找到ARCH模型的形式，即在上式中附加？着t=■?vt，并确定q，再进行参数估计。对序列进行ARCH效应检验的最常用方法是拉格朗日乘数法即LM检验。假设？着tARCH（q），则可以建立如？着t=■?vt的辅助回归模型：ht=？琢0+？琢1？着t-12+…+？琢q？着t-q2

　　原假设：H0：？琢1=…=？琢q=0；备择假设：H1存在？琢i≠0，1？燮i？燮q；检验统计量：LM=nR2～X2（q）

　　其中，n为计算辅助回归时的样本数据个数，R2为辅助回归的未调整可决系数，即拟合优度。检验标准。根据辅助回归ht=？琢0+？琢1？着t-12+…+？琢q？着t-q2的最小二乘估计，得到拟合优度R2，由LM=nR2～X2（q）计算检验统计量LM，根据给定的显著性水平？琢和自由度q查x2分布表，得到相应的临界值x？琢2（q）或原假设成立的概率，则可得到结论。LM>x？琢2（q），拒绝H0，表明序列存在ARCH效应；LM

　　四、实证检验分析

　　（一）投资组合收益波动性拟合根据上文的时间序列分析拟合步骤，使用S-PLUS软件中finmetrics的模块，Excel规划求解，VBA，SAS，R软件共同完成从数据的整理，预处理，分析到得出结论，并配以图形的表达来完成对投资组合风险的度量。　　（1）ARCH效应检验及股票再筛选。对收益波动率的估计本文使用动态波动率估计模型。在使用GARCH类模型对股票收益的波动率进行拟合之前需要再对选入研究的股票做一次筛选。通过ARCHTEST对这83支股票进行检验。在0.05的显著性水平下通过检验说明该股票的收益率波动性具有集群性，也就是说收益率是变换的，使用ARCH或GARCH模型拟合更加合理。共有33支股票的收益率数据经过了ARCH效应检验。

　　（2）股票收益波动性拟合。对这33支股票分别进行收益波动性拟合。第一次采用ARMA模型作为主模型对收益率数据进行建模，然后对残差进行GARCH模型拟合，虽然拟合后残差序列均通过了检验，但在相似性聚类中效果不佳。于是重新选定主模型。将常系数模型作为主模型，然后对残差进行GARCH模型拟合，残差也均通过了检验。在模型中，条件方差序列就是待求的股票收益波动性序列，最后得到33条各488个数据的波动率序列。GARCH（p，q）的最简单形式GARCH（1，1）。该过程可以表示为：？着t=■?vt；ht=？琢0+？琢1？着t-12+…+？琢q？着t-q2

　　其中，{vt}独立同分布，且vt～N（0，1），参数满足？琢0>0，？茁1？叟0，？琢1？叟0。？着t～GARCH（1，1）是稳定过程的成分必要条件为？琢1+？茁1<1。

　　（二）采用改进的相关系数法比较股票收益波动性的相似性

　　计算33支股票中任意两支股票的相似性。设任意两支股票A、B：A=（x1，x2，xn-t，xn-t+1，x487）；B=（y1，y2，yn-t，yn-t+1，x487）

　　由于股票收益波动序列是两年期的日数据，因此首先选取时间期为2008年1月2日-2008年12月31日长度为245的两个子序列A1、B1：A1=（x242，x243，…，x487）；B1=（y242，y243，…，y487）

　　计算A1、B1的相关系数记为r1。之后将序列的起点向前推一个，计算时间期为2008年12月28日-2009年12月31日长度为246的两个子序列A2、B2：A2=（x241，x243，…，x487）；B2=（y241，y243，…，y487）

　　计算A2、B2的相关系数记为r2。继续按照这种方式，每次将子序列的起点向前推进一期，计算相同时间期的两个子序列之间的相关系数，直到最后一次计算A、B序列全部数据之间的相关系数r242。总共可以得到242个相关系数。最后，将所得的全部相关系数的均值作为A、B序列间改进的相关系数r*AB： r*AB=■。

　　相关系数的取值范围在[-1，1]之间，系数为正，说明两支股票收益率的波动性之间成正相关，系数越大，相似度越高；系数为负，说明两支股票收益率的波动性之间成负相关；系数为零，说明两支股票收益率的波动性之间不相关。

　　（三）股票聚类为了将A、B之间的相关系数转化成距离，还需计算|r*AB-1|，记为dAB，即 dAB=|r*AB-1|

　　全部股票经过点间距计算，可以得到33×33的距离矩阵。由于篇幅限制，这里不做展示。将距离矩阵输入到SAS软件当中，借助软件的聚类方法，采用Agglomerative算法，选择method=density，K=2可以得到聚类结果。这里所用的类间距估计法是最近邻密度估计法。软件输出的聚类过程及结果如表（1）和图（1）所示，可以看出33支股票被聚为6类，具体分类情况如表（2）所示。这六类股票的收益波动率序列存在很大差异，从每一类中选择一个典型的序列收益波动率图，展示结果如下。

　　（四）投资组合绩效比较为了验证改进的相关系数聚类法在股票投资组合中的应用效果，使用的主要方法是将基于使用改进相关系数聚类法根据收益率相似性聚类的股票投资组合与随机组合、类内组合对比，比较在相同收益率水平下，组合的最小方差值大小。该值越小，说明该组合绩效越好。具体来说，投资组合绩效比较的研究思路为：首先确定组合收益率的大小，其次确定每种组合方案下抽取组合样品的个数，然后分别计算每种方案下的组合风险均值，最后将三种方案下组合风险的均值进行对比得出结论。

　　（1）确定收益率大小。在计算组合的风险之前需要首先确定组合收益率的大小。由于所选数据是2008-2009年间的股票数据，而这段时期内股市处于衰退的状态，众多股票长期出现负收益率，因此将组合的收益率设为较小的数值，假设为0.03。

　　（2）确定三种组合方式的抽样方案。确定三种组合方式的抽样方案时要首先计算出每种组合方式下可能出现的组合的种类。如表（3）所示，随机组合的种类最多，基于相似性聚类的组合次之，类内组合的数目最少。为了能比较出组合的绩效，规定每种组合方式下抽取180个样品计算风险均值。根据它们各自组合的特点，可以采用不同的方式来选取样品。基于相似性聚类的组合在选取样品时可以采用类似分层抽样的方法，将不同类别作为不同层看待，从每一层中随机抽取一支股票。每一次抽取完毕，可以得到6支股票，将这6支股票作为一个组合。按照这种方式抽取180个组合即可。随机组合在选取样品时按照统计中排列组合的方式，随机从33支股票中无放回地抽取6支，作为一个组合。按照这种方式抽取180个组合即可。类内组合在选取样品时先将可能的组合种类列出，然后按照简单随机抽样方式从这8008个待抽样品中抽取180个组合即可。

　　（3）计算三种组合方式的风险。计算不同组合方式的风险大小时主要通过EXCEL软件中规划求解的功能来完成。相应的指标设置如表（4）所示。通过计算就可以得到满足条件的有效组合的最小方差值。由于篇幅所限，每种组合方式下的样本方差计算结果不在此列示。

　　（4）比较三种组合方式的风险。通过均值计算，很容易得到每种组合方式下平均最小方差值，如表（5）所示。可以看出，基于股票收益率波动性的相似性聚类的组合在确定的收益率下获得了比随机组合、类内组合更小的最小方差值。另外，从图（3）到图（5）中对于不同组合方式下的实验结果进行观察，发现在基于相似性聚类的组合方式下180次试验结果的方差很小，也就是说每次实验得到的最小方差值十分相近。这些现象说明采取基于相似性聚类的组合方式不仅可以更有效地降低风险，而且在这种组合方式下获得的最小方差值更具稳定性。

　　五、结论

　　本文研究的重要意义在于它以资产组合整体为对象和基础，以拥有整个资产组合投资者的效用最大化为目标所进行管理。股票组合研究是有其必要性的，首先构建股票组合可以降低投资风险，如同将鸡蛋分放在不同的篮子中一样；其次股票组合可以实现收益最大化，就单个股票而言，风险与收益成正比，高收益总伴随着高风险，但是，各种不同的股票以不同比例组合起来，就可以使证券组合整体的收益-风险特征达到在同等风险水平下收益最高和在同收益水平下风险最小的理想状态。经过文章的分析和研究，得到了如下结论：本文运用一个新的方法，使用改进的相关系数法对股票收益波动率进行拟合，并据此对股票进行聚类，然后通过比较随机，类内两个参照组的方差，得出在相同收益率下，使用该方法获得的收益波动性差异大的股票组合可以获得更低的风险系数。当今社会，资产价格波动和投资管理的历史使人们认识到凭借资产价格预测来进行投资管理是不可靠的，还是应该把重点放在科学地选择资产，确定最佳组合上。本文为投资者，研究者都提供了一种选择股票投资组合的新路径。

基于改进相关系数聚类法的股票投资组合研究

论文搜索: 关键字：关系投资法的股票组合研究

最新投资决策论文: 在校大学生投资理财问题分析; 投资者的保护——基于保护策略视角分析; 浅议我国风险投资存在的问题与对策; 风险投资的认证作用文献综述; 公选课《业余投资者炒股技巧》课程设计与教; 创业投资机构与创业板IPO首日折价行为研究; 公平与公正待遇:中外双边投资协定的缔约现状; 人民币汇率对我国吸收外商直接投资(FDI)的影; 浅议技术创新和风险投资; 关于投资者行为中存在的心理学因素分析

热门投资决策论文: 风险投资运作中管理风险的控制研究; 提高企业资本运营质量; 投资决策理论中的会计信息需求; 新世纪投资战略问题研究; 新世纪现金流量表的发展趋势; 论商业银行中间业务法律风险及其防范; 风险投资体系的双重代理与财务目标趋同效应; 价格形成与利润预期; 国有资产在流动中升值; 试论投资决策、风险管理与投资效益

基于改进相关系数聚类法的股票投资组合研究论文

基于改进相关系数聚类法的股票投资组合研究