主成分分析法模型股票_如何用Python和机器学习炒股赚钱

1. 16种常用的数据分析方法-主成分分析

主成分分析（英语：Principal components analysis，PCA）是一种分析、简化数据集的技术。

通过降维技术把多个变量化为少数几个主成分（综合变量）的统计分析方法。这些主成分能够反映原始变量的绝大部分信息，它们通常表示为原始变量的某种线性组合。

主成分分析经常用于减少数据集的维数，同时保持数据集中的对方差贡献最大的特征。这是通过保留低阶主成分，忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。

主成分分析由卡尔•皮尔逊于1901年发明，用于分析数据及建立数理模型。其方法主要是通过对协方差矩阵进行特征分解，以得出数据的主成分（即特征向量）与它们的权值（即特征值）。

主成分的目的：

（1）变量的降维
（2）主成分的解释（在主成分有意义的情况下）

主成分分析法从冗余特征中提取主要成分，在不太损失模型质量的情况下，提升了模型训练速度。

如上图所示，我们将样本到红色向量的距离称作是投影误差（Projection Error）。以二维投影到一维为例，PCA 就是要找寻一条直线，使得各个特征的投影误差足够小，这样才能尽可能的保留原特征具有的信息。因为PCA仅保留了特征的主成分，所以PCA是一种有损的压缩方式.

PCA分析的一般步骤

1.根据研究问题选取初始分析变量

2.根据初始变量特性判断由协方差阵求主成分还是由相关矩阵求主成分；

3.求协方差阵或相关阵的特征值与相应标准特征向量；

4.判断是否存在明显的多重共线性，若存在，则回到第（1）步；

5.得到主成分的表达式并确定主成分个数，选取主成分；

6.结合主成分对研究问题进行分析并深入研究。

PCA的目标是用一组较少的不相关变量代替大量相关变量，同时尽可能保留初始变量的信息，这些推导所得的变量称为主成分，它们是观测变量的线性组合。

主成分分析法优缺点

优点

↘可消除评估指标之间的相关影响。因为主成分分析法在对原始数据指标变量进行变换后形成了彼此相互独立的主成分，而且实践证明指标间相关程度越高，主成分分析效果越好。

↘可减少指标选择的工作量，对于其他评估方法，由于难以消除评估指标间的相关影响，所以选择指标时要花费不少精力，而主成分分析法由于可以消除这种相关影响，所以在指标选择上相对容易些。

↘主成分分析中各主成分是按方差大小依次排列顺序的，在分析问题时，可以舍弃一部分主成分，只取前面方差较大的几个主成分来代表原变量，从而减少了计算工作量。用主成分分析法作综合评估时，由于选择的原则是累计贡献率≥85%，不至于因为节省了工作量却把关键指标漏掉而影响评估结果。

缺点

↘在主成分分析中，我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平（即变量降维后的信息量须保持在一个较高水平上），其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释（否则主成分将空有信息量而无实际含义）。

↘主成分的解释其含义一般多少带有点模糊性，不像原始变量的含义那么清楚、确切，这是变量降维过程中不得不付出的代价。因此，提取的主成分个数m通常应明显小于原始变量个数p（除非p本身较小），否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。

↘当主成分的因子负荷的符号有正有负时，综合评价函数意义就不明确。

主成分分析案例

某公司经理拟招聘一名员工，要求其具有较高的工作积极性、自主性、热情和责任感。为此，该经理专门设计了一个测试问卷，配有25项相关问题，拟从315位应聘者中寻找出最合适的候选人。

在这25项相关问题中：

↘Qu3-Qu8、Qu12、Qu13测量的是工作积极性

↘Qu2、Qu14-Qu19测量工作自主性

↘Qu20-Qu25测量的是工作热情

↘Qu1、Qu9-Qu11测量工作责任感

每一个问题都有非常同意“Agree”、同意 “Agree Some”、不确定“Undecided”、不同意 “Disagree Some”和非常不同意 “Disagree”五个等级。

该经理想根据这25项问题判断应聘者在这四个方面的能力，现收集了应聘者的问卷信息，经汇总整理后部分数据如下：

分析者希望将多个变量归纳为某几项信息进行分析，即降低数据结果的维度。针对这种情况，可以进行主成分提取，但需要先满足2项假设：

↘假设1：观测变量是连续变量或有序分类变量，如本研究中的测量变量都是有序分类变量。

↘假设2：变量之间存在线性相关关系。

SPSS操作

SPSS操作

(1) 在主页面点击Analyze→Dimension Rection →Factor

(2) 将变量Qu1-Qu25放入Variables栏

(3) 点击Deive，点选Statistics栏的Initial solution选项，并点选Correlation Matrix栏的Coefficients、KMO and Bartlett’s test of sphericity、Reproced和Anti_image选项

(4) 点击Continue→Extraction，点击Display栏中的Scree plot选项

(5) 点击Continue→Rotation，点选Method栏的Varimax选项，并点选Display栏的Rotated solution和Loading plot(s)选项

(6) 点击Continue→Scores，点击Save as variables，激活Method栏后点击Regression选项

(7) 点击Continue→Options，点击 Sorted by size和Suppress small coefficients选项，在Absolute value below栏内输入“.3”点击Continue→OK

经上述操作，SPSS输出相关矩阵表如下：

该表主要用于判断各变量之间的线性相关关系，从而决定变量的取舍，即如果某一个变量与同一分组中其他变量之间的关联性不强，我们就认为该变量与其他变量测量的内容不同，在主成分提取中不应该纳入该变量。一般来说，如果相关系数大于等于0.3，我们就认为变量之间存在较好的线性相关性。

从本研究的结果来看，在分别对应聘者工作积极性(Q3-Q8，Q12，Q13)、工作自主性 (Q2，Q14-19)、工作热情(Q20-25)和工作责任感(Q1，Q9-11)的测量中，每组变量之间的相关系数均大于0.3，说明各组变量之间具有线性相关关系，提示满足假设2。

KMO检验对数据结构的总体分析

KMO检验主要用于主成分提取的数据情况。KMO检验系数分布在0到1之间，如果系数值大于0.6，则认为样本符合数据结构合理的要求。

部分学者认为，只有当KMO检验系数值大于0.8时，主成分分析的结果才具有较好的实用性，具体系数对应关系如下：

SPSS输出本研究结果如下：

本研究的KMO检验系数为0.833，根据系数对应关系表，我们认为本研究数据结构很好(meritorious)，具有相关关系，满足假设2。

KMO检验对各变量的单独分析

SPSS输出各变量的KMO检验结果如下：

整理后各题KMO值：

KMO检验对单个变量的分析结果也在0到1之间分布，如果系数大于0.5，则认为单个变量满足要求；如果系数大于0.8，则认为单个变量结果很好。

分析结论中，任一变量的KMO检验结果均大于0.7，即各变量结果一般，但满足假设2。

Bartlett's检验

Bartlett's检

Bartlett's检验的零假设是研究数据之间的相关矩阵是一个完美矩阵，即所有对角线上的系数为1，非对角线上的系数均为0。

在完美矩阵情况下，各变量之间没有相关关系，即不能将多个变量简化为少数的成分，没有进行主成分提取的必要。因此，我们希望拒绝Bartlett's检验的零假设。

SPSS输出结果如下：

Bartlett's检验的P值小于0.001，拒绝零假设，即认为研究数据可以进行主成分提取，满足假设2。

结果解释

对主成分结果的分析主要从公因子方差（communalities）、提取主成分和强制提取主成分三个方面进行。

公因子方差结果

SPSS输出公因子方差结果如下：

研究中有多少个变量数据结果就会输出多少个成分，本研究中共有25个变量，就会对应产生25个成分。

“Extraction”栏提示当只保留选中的成分时，变量变异被解释的程度。

提取主成分

研究中有多少个变量，主成分提取就会产生多少个主成分。我们通过选取主成分对数据进行降维，但同时也要注意尽可能多地包含对数据变异的解释。

一般来说，结果输出的第一主成分包含最多的数据变异，第二主成分次之，之后的主成分包含的变异程度依次递减。SPSS输出结果如下：

本研究中共有25个变量，那总特征值（eigenvalues of variance）是25，即每个变量自身的特征值为1。

Total栏提示的是各主成分对数据变异的解释程度。

以第一主成分为例，其特征值为6.730，占总体变异的6.730/25×100 = 26.919% （% of Variance栏）。同理，第二主成分的特征值为3.342，占总体变异的13.369%，以此类推。

一般来说，如果某一项主成分的特征值小于1，那么我们就认为该主成分对数据变异的解释程度比单个变量小，应该剔除。本研究结果如下：

第五主成分的特征值为1.049，大于1；而第六主成分的特征值为0.951，小于1，即应该保留前五位的主成分，剔除剩余部分。

结论

本研究采用主成分分析，通过25项问题调查315位应聘者的工作能力。

研究变量之间存在线性相关关系(每组变量之间的相关系数均大于0.3)，数据结构合理(KMO检验系数为0.833，单个变量的KMO检验系数均大于0.7，Bartlett's检验结果为P<0.001)，提示研究数据可以进行主成分提取。< span="">

主成分提取结果：研究提取前四位主成分。提取后的主成分累计解释59.9%的数据变异，分别反映应聘者的工作积极性、工作自主性、工作热情和工作责任感（如下图）

2. 投资者情绪为什么要用主成分分析法

『阿诺德“评定－兴奋”说』美国心理学家阿诺德提出。认为：刺激情景并不直接决定情绪的性质，从刺激出现到情绪的产生。要经过对刺激的估量和评价。情绪产生的基本过程是刺激情景－评估－情绪。

3. 如何用Python和机器学习炒股赚钱

相信很多人都想过让人工智能来帮你赚钱，但到底该如何做呢？瑞士日内瓦的一位金融数据顾问 Gaëtan Rickter 近日发表文章介绍了他利用 Python 和机器学习来帮助炒股的经验，其最终成果的收益率跑赢了长期处于牛市的标准普尔 500 指数。虽然这篇文章并没有将他的方法完全彻底公开，但已公开的内容或许能给我们带来如何用人工智能炒股的启迪。

我终于跑赢了标准普尔 500 指数 10 个百分点！听起来可能不是很多，但是当我们处理的是大量流动性很高的资本时，对冲基金的利润就相当可观。更激进的做法还能得到更高的回报。

这一切都始于我阅读了 Gur Huberman 的一篇题为《Contagious Speculation and a Cure for Cancer: A Non-Event that Made Stock Prices Soar》的论文。该研究描述了一件发生在 1998 年的涉及到一家上市公司 EntreMed（当时股票代码是 ENMD）的事件：

「星期天《纽约时报》上发表的一篇关于癌症治疗新药开发潜力的文章导致 EntreMed 的股价从周五收盘时的 12.063 飙升至 85，在周一收盘时接近 52。在接下来的三周，它的收盘价都在 30 以上。这股投资热情也让其它生物科技股得到了溢价。但是，这个癌症研究方面的可能突破在至少五个月前就已经被 Nature 期刊和各种流行的报纸报道过了，其中甚至包括《泰晤士报》！因此，仅仅是热情的公众关注就能引发股价的持续上涨，即便实际上并没有出现真正的新信息。」

在研究者给出的许多有见地的观察中，其中有一个总结很突出：

「（股价）运动可能会集中于有一些共同之处的股票上，但这些共同之处不一定要是经济基础。」

我就想，能不能基于通常所用的指标之外的其它指标来划分股票。我开始在数据库里面挖掘，几周之后我发现了一个，其包含了一个分数，描述了股票和元素周期表中的元素之间的「已知和隐藏关系」的强度。

我有计算基因组学的背景，这让我想起了基因和它们的细胞信号网络之间的关系是如何地不为人所知。但是，当我们分析数据时，我们又会开始看到我们之前可能无法预测的新关系和相关性。

如果你使用机器学习，就可能在具有已知和隐藏关系的上市公司的寄生、共生和共情关系之上抢占先机，这是很有趣而且可以盈利的。最后，一个人的盈利能力似乎完全关乎他在生成这些类别的数据时想出特征标签（即概念（concept））的强大组合的能力。

我在这类模型上的下一次迭代应该会包含一个用于自动生成特征组合或独特列表的单独算法。也许会基于近乎实时的事件，这可能会影响那些具有只有配备了无监督学习算法的人类才能预测的隐藏关系的股票组。

4. 甜品开题报告

甜品开题报告

甜品，也叫甜点，是一个很广的概念，大致分为甜味点心和广式的糖水。甜品，一般不会被当作正餐，通常作为下午茶的小食，这类课题又有怎样研究的价值呢？以下是我为大家整理的甜品开题报告，希望能帮到大家！

一、毕业设计（论文）内容及研究意义（价值）

1、研究背景

我国股市起步相对较晚，从 1990 年才开始建立发展证券市场，截止到2009 年我国证券市场已经经历了 19 年的历程，因此在证券投资理论和证券市场的发展方面都落后于发达国家。尽管如此，我国许多学者还是运用所掌握的国外先进理论对我国证券市场进行实证研究，为推进其健康发展起到积极的作用。截止到 2009 年 10 月，股票总发行总股本达到 25 770。89亿股（其中流通股本 19 346。39 亿股），市价总值 215 892。01 亿元（其中股票流通市值 130 920。14 亿元），股票成交额 32 372。19 亿元。与此同时，我国个人和机构投资者也在不断的增多，我国证券市场已成为我国经济发展和国企改革中不可替代的组成部分，并成为我国个人和机构投资的重要途径。

由于我国证券市场起步较晚，无论是从证券市场的发展还是投资理论的应用上都落后于发达国家，尽管如此，我国许多学者运用所掌握的国外先进理论对我国证券市场进行实证研究，为我国证券市场的总结了运行规律，对我国证券市场良好发展起到了积极地促进作用。在分析股票价格因素、股票收益率大小之前，首先应分析股票收益率是受何种因素所影响的，哪些因素在股票收益率中占有重要地位，所以对股票收益率的影响因素的研究有其必要性和紧迫性。

2、研究意义

投资者进行投资的两个具体目标就是在风险既定的条件下投资收益率最大化和在收益率既定的条件下风险最小化。对投资者来说股票收益率是进行投资的一个重要指标，所以对股票收益率影响因素的研究具有深远的意义。

3、研究内容

本文研究我国上市公司的股票收益率的影响因素，采用了多种方法结合理论特征，对影响我国股票收益率的各种因素进行了实证检验和分析。对股票收益率的影响大体可以从宏观、中观和微观三方面进行研究，本文选取了三个方面中较为重要的.三个因素进行了分析，在宏观因素中选取了通货膨胀因素，中观因素总选取了行业因素，微观因素中选取了上市公司的财务状况因素，才这三方面入手对其展开实证研究。

二、毕业设计（论文）研究现状和评述（文献综述）

1、国外研究现状

在国外的股票市场研究中，由于起步早于我国，所以在投资分析理论和实践方面都得到了相对较成熟的经验和方法。1952年美国经济学家HarryMarkowitz[1] 在《金融杂志》上发表了《投资组合的选择》，这一文章的发表标志着现代资产组合理论的开端。在理论界被称为 20 世纪发生在华尔街的第一次金融革命。文章中将统计学知识与证券投资理论结合在了一起，运用了数量统计模型，从不同的角度分析了股票收益率的影响因素，为投资者提供了如何进行有效投资的理论知识以及识别证券定价是否合理的方法。随着现代投资组合理论的诞生，对股票收益率的研究开始形成了不同的学派。如基本分析派，其以宏观经济形势、行业特征及上市公司财务指标作为对股票收益率影响因素分析的对象和投资决策基础;行为分析流派，而该流派认为，资本资产定价模型（CAPM）和有效市场假说（EMH）是现代金融理论的两大基石。

2、国内研究现状

尽管我国在证券投资理论及应用方面落后于发达国家，但近些年国内研究学者在针对股票收益率影响因素方面做了大量的尝试和研究。我国对股票收益率影响因素分析的文章主要是从宏观因素、微观因素、行业因素、系统风险或非系统风险等方面进行的研究。

施东晖、陈浪南、杨朝军、陈小悦[2—5]将 CAPM 模型运用到了国内的股票市场，对其进行了实证检验，结果由符合也有违背，但大多数结果表明 CAPM 模型在中国股票市场上是不合适的。

刘志新、黄昌利[6]将 Fama—French 三因子模型应用到了中国股市，对其进行实证检验，研究发现流通市值和收益价格比即市盈率的倒数对于预期收益率的解释显著，而β 值对预期收益率的解释没有显著作用。陈信元、张田余和陈东华[7]在研究中得到，β系数在单因素和多因素型中，对股票收益率的解释没有显著作用，在预测股票收益率方面，规模和账面市场价值比对其有很强的解释能力，并且在控制规模后，流通股比例表现出了对股票收益率很强的解释能力。范龙振[8]和王海涛在对股票收益率的研究中发现，在 Fama—French 三因子模型中加入市盈率因子会对股票的收益率有更好的解释能力。顾娟和丁楹[9]在对我国证券市场的研究中得到在我国的股票市场上不存在价值成长效应，上市公司的基本面对股票收益率没有显著的预测作用。苏东蔚和麦元勋]在对股票收益率的研究中利用了FM 方法和LR方法对回归系数进行了处理，得出规模效应、价值效应及市盈率等对股票收益率的影响较为显著。梁琪和腾建[10]州运用多元VAR模型对我国股票市场和经济增长之间的关系进行了检验。

3、国内外研究现状评述

综合国内外研究现状，对股票收益率影响因素的研究在研究内容上在不断的完善、研究方法上不断更新，但依然存在不足之处。如 Markowitz模型理论的实际操作性相对较差，在投资实践的过程中受到了一定的限制。国外较国内在研究方向、研究内容和研究方法等方面更为全面、系统、新颖，这些事国内研究中值得学习和借鉴的。在研究通货膨胀对过收益率的影响因素上，我国学者在研究模型的利用上主要集中在费雪效应模型上，很少在其他模型上进行实验进行分析;在行业因素的影响上，我国学者在此内容上研究的相对较少，其研究方法还不够丰富，没有统一的研究结果;在上市公司财务状况因素上，对财务指标的分类不够全面，大多只关注了上市公司的盈利能力，而忽略了偿债能力和成长能力等方面的指标。本文在借鉴前人的经验和精华的基础上，针对我国研究现状的不足从通货膨胀、行业因素和上市公司财务状况三方面进行理论和实证分析，利用创新模型和更全面的指标体系进行研究。针对本文的研究来说理论上增加了对影响因素的理论界定，在实证方法和对象选择更加细致明确。

三、毕业设计（论文）研究方案及工作计划（工作重点与难点及拟采用的途径）

1。研究方案

（1）定性分析法

通过全面系统的对国内外研究成果的分析和总结，从通货膨胀理论、行业理论和上市公司财务状况理论三方面，提出了本文的理论内容，从这三方面论述了三者与股票收益率的相关性。

（2）定量分析法

本文从通货膨胀、行业因素和上市公司财务状况三个层面结合相关数据，利用回归分析法、相关关系和主成分分析法等统计方法进行实证分析。

（3）实证分析方法

本文在建立数学模型的基础上，选取了上证指数相关数据，运用了计量经济方法，使用了统计分析软件，如EXCEL、SPSS等进行数据统计分析，利用模型

对通货膨胀率、行业因素和上市公司财务状况对股票收益率的影响进行了实证检验，对研究结果分析评判，对此提出了建议。

2。工作重点

（1）从行业因素的角度出发，利用夏普模型对上证指数收益率与各行业指数收益率进行分析，在行业间关联性比较中利用相关关系法探讨各行业收益率与股票收益率的相关性及各行业间收益率的相关程度;

（2）从上市公司的财务状况层面上进行实证分析，在此层面上利用套利定价模型将股票收益率与各财务指标进行回归。寻求各财务指标与股票收益率的显著水平，利用主成分分析法将各财务指标进行实证检验，比较得出各财务指标对股票收益率的影响程度。

3。工作难点

由于不同行业所选用的财务指标有所不同，所以尽量在训练样本与检验样本找同类型的上市公司，很难找到上市公司完整且真实的财务指标，分析我国上市公司股票收益率影响的因素就比较困难。

4。拟采用的途径

本文采用理论研究与实证研究相结合的方式，通过EXCEL、SPSS等统计软件对样本数据进行处理，全面探讨对我国上市公司股票收益率影响的因素。

5。工作计划

本课题的起止时间为201x年2月至201x年6月。

201x年2月—201x年3月

搜集资料并查看国内外有关文献，阅读整理国内外有关因子分析理论的相关著作，通过对我国上市公司股票收益率影响因素的已有理论和前沿知识的学习、整理和分析，能大体掌握我国上市公司股票收益率影响因素;并完成论文的初步大纲，准备开题。

201x年3月—201x年4月

完成一篇英文文献的中文译文，并搜集整理实证研究所需要的数据。

201x年4月—201x年5月

在前几个阶段研究成果的基础上进行实证的深入研究，并分析整理，得出相应结果，完成论文初稿。

201x年5月—201x年6月

征求意见，反复修改，最终完成论文，准备答辩。

四、主要参考文献 （不少于10篇，期刊类文献不少于7篇，应有一定数量的外文文献，至少附一篇引用的外文文献（3个页面以上）及其译文）

[1] H。 Markowitz。 Portfolio Selection[J] 。 The Journal of Finance， 1952 ， 7（1）：77—91。

[2] 施东晖。上海股票市场风险性实证研究[M]。经济研究， 1996，（10）：44—48。

[3] 陈浪南，屈文洲。资本资产定价模型的实证研究[M]。经济研究， 2000，（4）：68—72。

[4] 杨朝军，邢靖。上海证券市场以 PM 实证检验[J]。上海交通大学学报， 1998，（3）：54—58。

[5] 陈小悦，孙爱军。CAPM 在中国股市的有效性检验[J]。北京大学学报， 2000，（4）：32—2—39 。

[6] 刘志新，黄昌利。中国股市预期收益率的横截面研究[J]。经济科学，2000：156—161。

[7] 陈信元，张田余，陈冬华。预期股票收益的横截面多因素分析：来自中国证券市场的经验证据[M]。金融研究， 2001，（6）：241—247。

[8] 范龙振，王海涛。上海股票市场股票收益率因素研究[J]。管理科学学报， 2003，（2）：115—118。

[9] 顾娟，丁楹。中国证券市场价值成长效应的实证研究[J]。经济评论， 2003，（2）：94—104。

[10] 梁琪，腾建州。中国金融发展与经济增长的再思考：基于变量结构变化的多元VAR分析[J]。当代经济科学， 2006，（5）：36—43。

;

5. 甜品的开题报告

甜品的开题报告

甜品，也叫甜点，是一个很广的概念，大致分为甜味点心和广式的糖水。甜品，一般不会被当作正餐，通常作为下午茶的小食，这类课题又有怎样研究的价值呢?

一、毕业设计(论文)内容及研究意义(价值)

1、研究背景

我国股市起步相对较晚，从 1990 年才开始建立发展证券市场，截止到2009 年我国证券市场已经经历了 19 年的历程，因此在证券投资理论和证券市场的发展方面都落后于发达国家。尽管如此，我国许多学者还是运用所掌握的国外先进理论对我国证券市场进行实证研究，为推进其健康发展起到积极的作用。截止到 2009 年 10 月，股票总发行总股本达到 25 770.89亿股(其中流通股本 19 346.39 亿股)，市价总值 215 892.01 亿元(其中股票流通市值 130 920.14 亿元)，股票成交额 32 372.19 亿元。与此同时，我国个人和机构投资者也在不断的增多，我国证券市场已成为我国经济发展和国企改革中不可替代的组成部分，并成为我国个人和机构投资的重要途径。

2、研究意义

3、研究内容

本文研究我国上市公司的股票收益率的影响因素，采用了多种方法结合理论特征，对影响我国股票收益率的各种因素进行了实证检验和分析。对股票收益率的影响大体可以从宏观、中观和微观三方面进行研究，本文选取了三个方面中较为重要的三个因素进行了分析，在宏观因素中选取了通货膨胀因素，中观因素总选取了行业因素，微观因素中选取了上市公司的财务状况因素，才这三方面入手对其展开实证研究。

二、毕业设计(论文)研究现状和评述(文献综述)

1、国外研究现状

在国外的股票市场研究中，由于起步早于我国，所以在投资分析理论和实践方面都得到了相对较成熟的经验和方法。1952年美国经济学家HarryMarkowitz[1] 在《金融杂志》上发表了《投资组合的选择》，这一文章的发表标志着现代资产组合理论的开端。在理论界被称为 20 世纪发生在华尔街的第一次金融革命。文章中将统计学知识与证券投资理论结合在了一起，运用了数量统计模型，从不同的角度分析了股票收益率的影响因素，为投资者提供了如何进行有效投资的理论知识以及识别证券定价是否合理的方法。随着现代投资组合理论的诞生，对股票收益率的研究开始形成了不同的学派。如基本分析派，其以宏观经济形势、行业特征及上市公司财务指标作为对股票收益率影响因素分析的对象和投资决策基础;行为分析流派，而该流派认为，资本资产定价模型(CAPM)和有效市场假说(EMH)是现代金融理论的两大基石。

2、国内研究现状

尽管我国在证券投资理论及应用方面落后于发达国家，但近些年国内研究学者在针对股票收益率影响因素方面做了大量的尝试和研究。我国对股票收益率影

响因素分析的文章主要是从宏观因素、微观因素、行业因素、系统风险或非系统风险等方面进行的研究。

施东晖、陈浪南、杨朝军、陈小悦[2-5]将 CAPM 模型运用到了国内的股票市场，对其进行了实证检验，结果由符合也有违背，但大多数结果表明 CAPM 模型在中国股票市场上是不合适的。

刘志新、黄昌利[6]将 Fama-French 三因子模型应用到了中国股市，对其进行实证检验，研究发现流通市值和收益价格比即市盈率的倒数对于预期收益率的解释显著，而β 值对预期收益率的解释没有显著作用。陈信元、张田余和陈东华[7]在研究中得到，β系数在单因素和多因素型中，对股票收益率的解释没有显著作用，在预测股票收益率方面，规模和账面市场价值比对其有很强的解释能力，并且在控制规模后，流通股比例表现出了对股票收益率很强的解释能力。范龙振

[8]和王海涛在对股票收益率的研究中发现，在 Fama-French 三因子模型中加入

市盈率因子会对股票的收益率有更好的解释能力。顾娟和丁楹[9]在对我国证券市场的研究中得到在我国的股票市场上不存在价值成长效应，上市公司的基本面对股票收益率没有显著的预测作用。苏东蔚和麦元勋]在对股票收益率的研究中利用了FM 方法和LR方法对回归系数进行了处理，得出规模效应、价值效应及市盈率等对股票收益率的影响较为显著。梁琪和腾建[10]州运用多元VAR模型对我国股票市场和经济增长之间的关系进行了检验。

3、国内外研究现状评述

三、毕业设计(论文)研究方案及工作计划(工作重点与难点及拟采用的途径)

1.研究方案

(1) 定性分析法

(2) 定量分析法

本文从通货膨胀、行业因素和上市公司财务状况三个层面结合相关数据，利用回归分析法、相关关系和主成分分析法等统计方法进行实证分析。

(3)实证分析方法

本文在建立数学模型的基础上，选取了上证指数相关数据，运用了计量经济方法，使用了统计分析软件，如EXCEL、SPSS等进行数据统计分析，利用模型

对通货膨胀率、行业因素和上市公司财务状况对股票收益率的影响进行了实证检验，对研究结果分析评判，对此提出了建议。

2.工作重点

(1)从行业因素的角度出发，利用夏普模型对上证指数收益率与各行业指数收益率进行分析，在行业间关联性比较中利用相关关系法探讨各行业收益率与股票收益率的相关性及各行业间收益率的相关程度;

(2)从上市公司的财务状况层面上进行实证分析，在此层面上利用套利定价模型将股票收益率与各财务指标进行回归。寻求各财务指标与股票收益率的.显著水平，利用主成分分析法将各财务指标进行实证检验，比较得出各财务指标对股票收益率的影响程度。

3.工作难点

4.拟采用的途径

本文采用理论研究与实证研究相结合的方式，通过EXCEL、SPSS等统计软件对样本数据进行处理，全面探讨对我国上市公司股票收益率影响的因素。

5.工作计划

本课题的起止时间为2014年2月至2014年6月。

2014年2月—2014年3月

2014年3月—2014年4月

完成一篇英文文献的中文译文，并搜集整理实证研究所需要的数据。

2014年4月—2014年5月

在前几个阶段研究成果的基础上进行实证的深入研究，并分析整理，得出相应结果，完成论文初稿。

2014年5月—2014年6月

征求意见，反复修改，最终完成论文，准备答辩。

四、主要参考文献(不少于10篇，期刊类文献不少于7篇，应有一定数量的外文文献，至少附一篇引用的外文文献(3个页面以上)及其译文)

[1] H. Markowitz. Portfolio Selection[J] . The Journal of Finance, 1952 , 7(1):77-91.

[2] 施东晖.上海股票市场风险性实证研究[M].经济研究, 1996, (10):44-48.

[3] 陈浪南, 屈文洲.资本资产定价模型的实证研究[M].经济研究, 2000, (4):68-72.

[4] 杨朝军, 邢靖.上海证券市场以 PM 实证检验[J].上海交通大学学报, 1998, (3):

54-58.

[5] 陈小悦, 孙爱军.CAPM 在中国股市的有效性检验[J].北京大学学报, 2000, (4):

32-2-39 .

[6] 刘志新, 黄昌利.中国股市预期收益率的横截面研究[J].经济科学,

2000:156-161.

[7] 陈信元, 张田余, 陈冬华.预期股票收益的横截面多因素分析:来自中国证券市场的经验证据[M].金融研究, 2001, (6):241-247.

[8] 范龙振, 王海涛.上海股票市场股票收益率因素研究[J].管理科学学报, 2003,

(2):115-118.

[9] 顾娟, 丁楹.中国证券市场价值成长效应的实证研究[J].经济评论, 2003,

(2):94-104.

[10] 梁琪, 腾建州.中国金融发展与经济增长的再思考:基于变量结构变化的多元

VAR分析[J].当代经济科学, 2006, (5):36-43.

;

6. 主成分分析法（PCA）

3.2.2.1 技术原理

主成分分析方法（PCA）是常用的数据降维方法，应用于多变量大样本的统计分析当中，大量的统计数据能够提供丰富的信息，利于进行规律探索，但同时增加了其他非主要因素的干扰和问题分析的复杂性，增加了工作量，影响分析结果的精确程度，因此利用主成分分析的降维方法，对所收集的资料作全面的分析，减少分析指标的同时，尽量减少原指标包含信息的损失，把多个变量（指标）化为少数几个可以反映原来多个变量的大部分信息的综合指标。

主成分分析法的建立，假设x_i1，x_i2，…，x_im是i个样品的m个原有变量，是均值为零、标准差为1的标准化变量，概化为p个综合指标F₁，F₂，…，F_p，则主成分可由原始变量线性表示：

地下水型饮用水水源地保护与管理：以吴忠市金积水源地为例

计算主成分模型中的各个成分载荷。通过对主成分和成分载荷的数据处理产生主成分分析结论。

3.2.2.2 方法流程

1）首先对数据进行标准化，消除不同量纲对数据的影响，标准化可采用极值法

及标准差标准化法

，其中s＝

（图3.3）；

图3.3 方法流程图

2）根据标准化数据求出方差矩阵；

3）求出共变量矩阵的特征根和特征变量，根据特征根，确定主成分；

4）结合专业知识和各主成分所蕴藏的信息给予恰当的解释，并充分运用其来判断样品的特性。

3.2.2.3 适用范围

主成分分析不能作为一个模型来描述，它只是通常的变量变换，主成分分析中主成分的个数和变量个数p相同，是将主成分表示为原始变量的线性组合，它是将一组具有相关关系的变量变换为一组互不相关的变量。适用于对具有相关性的多指标进行降维，寻求主要影响因素的统计问题。

7. 数据分析常用的降维方法之主成分分析

数据分析：常用的降维方法之主成分分析

主成分分析（Principal Component Analysis，PCA）也称主分量分析，旨在利用降维的思想，把多指标转化为少数几个综合指标。
在统计学中，主成分分析是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中，使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上，第二大方差在第二个坐标(第二主成分)上，依次类推。主成分分析经常用减少数据集的维数，同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分，忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是，这也不是一定的，要视具体应用而定。
主成分分析的主要作用
1．主成分分析能降低所研究的数据空间的维数。即用研究m维的Y空间代替p维的X空间(m＜p)，而低维的Y空间代替高维的x空间所损失的信息很少。即：使只有一个主成分Yl(即 m＝1)时，这个Yl仍是使用全部X变量(p个)得到的。例如要计算Yl的均值也得使用全部x的均值。在所选的前m个主成分中，如果某个Xi的系数全部近似于零的话，就可以把这个Xi删除，这也是一种删除多余变量的方法。
2．有时可通过因子负荷aij的结论，弄清X变量间的某些关系。
3．多维数据的一种图形表示方法。我们知道当维数大于3时便不能画出几何图形，多元统计研究的问题大都多于3个变量。要把研究的问题用图形表示出来是不可能的。然而，经过主成分分析后，我们可以选取前两个主成分或其中某两个主成分，根据主成分的得分，画出n个样品在二维平面上的分布况，由图形可直观地看出各样品在主分量中的地位，进而还可以对样本进行分类处理，可以由图形发现远离大多数样本点的离群点。
4．由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量x做回归分析。
5．用主成分分析筛选回归变量。回归变量的选择有着重的实际意义，为了使模型本身易于做结构分析、控制和预报，好从原始变量所构成的子集合中选择最佳变量，构成最佳变量集合。用主成分分析筛选变量，可以用较少的计算量来选择量，获得选择最佳变量子集合的效果。
主成分分析法的计算步骤
1、原始指标数据的标准化采集p 维随机向量x = (x1,X2,...,Xp)T)n 个样品xi = (xi1,xi2,...,xip)T ，i=1,2,…,n，
n＞p，构造样本阵，对样本阵元进行如下标准化变换：
Z_{ij}=frac{x_{ij}-bar{x}_j}{s_j},i=1,2,...,n; j=1,2,...,p
其中bar{x}_j=frac{sum^{n}_{i=1}x_{ij}}{n},s^2_j=frac{sum^n_{i=1}(x_{ij}-bar{x}_j)^2}{n-1}，得标准化阵Z。
2、对标准化阵Z 求相关系数矩阵
R=left[r_{ij}right]_pxp=frac{Z^T Z}{n-1}
其中,r_{ij}=frac{sum z_{kj}cdot z_{kj}}{n-1},i,j=1,2,...,p 。
3、解样本相关矩阵R 的特征方程left|R-lambda I_pright|=0得p 个特征根,确定主成分
按frac{sum^m_{j=1}lambda_j}{sum^p_{j=1}lambda_j}ge 0.85 确定m 值，使信息的利用率达85%以上，对每个λj, j=1,2,...,m, 解方程组Rb = λjb得单位特征向量b^o_j 。
4、将标准化后的指标变量转换为主成分
U_{ij}=z^{T}_{i}b^{o}_{j},j=1,2,...,m
U1称为第一主成分,U2 称为第二主成分,…,Up 称为第p 主成分。
5 、对m 个主成分进行综合评价
对m 个主成分进行加权求和，即得最终评价值，权数为每个主成分的方差贡献率。
因子分析
因子分析法是指从研究指标相关矩阵内部的依赖关系出发，把一些信息重叠、具有错综复杂关系的变量归结为少数几个不相关的综合因子的一种多元统计分析方法。基本思想是：根据相关性大小把变量分组，使得同组内的变量之间相关性较高，但不同组的变量不相关或相关性较低，每组变量代表一个基本结构一即公共因子。
因子分析法的步骤
(1)对数据样本进行标准化处理。
(2)计算样本的相关矩阵R。
(3)求相关矩阵R的特征根和特征向量。
(4)根据系统要求的累积贡献率确定主因子的个数。
(5)计算因子载荷矩阵A。
(6)确定因子模型。
(7)根据上述计算结果，对系统进行分析。

以上是小编为大家分享的关于数据分析常用的降维方法之主成分分析的相关内容，更多信息可以关注环球青藤分享更多干货

主成分分析法模型股票

一、毕业设计(论文)内容及研究意义(价值)

二、毕业设计(论文)研究现状和评述(文献综述)

三、毕业设计(论文)研究方案及工作计划(工作重点与难点及拟采用的途径)

与主成分分析法模型股票相关的内容