主成分分析法模型股票_如何用Python和機器學習炒股賺錢

1. 16種常用的數據分析方法-主成分分析

主成分分析（英語：Principal components analysis，PCA）是一種分析、簡化數據集的技術。

通過降維技術把多個變數化為少數幾個主成分（綜合變數）的統計分析方法。這些主成分能夠反映原始變數的絕大部分信息，它們通常表示為原始變數的某種線性組合。

主成分分析經常用於減少數據集的維數，同時保持數據集中的對方差貢獻最大的特徵。這是通過保留低階主成分，忽略高階主成分做到的。這樣低階成分往往能夠保留住數據的最重要方面。

主成分分析由卡爾•皮爾遜於1901年發明，用於分析數據及建立數理模型。其方法主要是通過對協方差矩陣進行特徵分解，以得出數據的主成分（即特徵向量）與它們的權值（即特徵值）。

主成分的目的：

（1）變數的降維
（2）主成分的解釋（在主成分有意義的情況下）

主成分分析法從冗餘特徵中提取主要成分，在不太損失模型質量的情況下，提升了模型訓練速度。

如上圖所示，我們將樣本到紅色向量的距離稱作是投影誤差（Projection Error）。以二維投影到一維為例，PCA 就是要找尋一條直線，使得各個特徵的投影誤差足夠小，這樣才能盡可能的保留原特徵具有的信息。因為PCA僅保留了特徵的主成分，所以PCA是一種有損的壓縮方式.

PCA分析的一般步驟

1.根據研究問題選取初始分析變數

2.根據初始變數特性判斷由協方差陣求主成分還是由相關矩陣求主成分；

3.求協方差陣或相關陣的特徵值與相應標准特徵向量；

4.判斷是否存在明顯的多重共線性，若存在，則回到第（1）步；

5.得到主成分的表達式並確定主成分個數，選取主成分；

6.結合主成分對研究問題進行分析並深入研究。

PCA的目標是用一組較少的不相關變數代替大量相關變數，同時盡可能保留初始變數的信息，這些推導所得的變數稱為主成分，它們是觀測變數的線性組合。

主成分分析法優缺點

優點

↘可消除評估指標之間的相關影響。因為主成分分析法在對原始數據指標變數進行變換後形成了彼此相互獨立的主成分，而且實踐證明指標間相關程度越高，主成分分析效果越好。

↘可減少指標選擇的工作量，對於其他評估方法，由於難以消除評估指標間的相關影響，所以選擇指標時要花費不少精力，而主成分分析法由於可以消除這種相關影響，所以在指標選擇上相對容易些。

↘主成分分析中各主成分是按方差大小依次排列順序的，在分析問題時，可以舍棄一部分主成分，只取前面方差較大的幾個主成分來代表原變數，從而減少了計算工作量。用主成分分析法作綜合評估時，由於選擇的原則是累計貢獻率≥85%，不至於因為節省了工作量卻把關鍵指標漏掉而影響評估結果。

缺點

↘在主成分分析中，我們首先應保證所提取的前幾個主成分的累計貢獻率達到一個較高的水平（即變數降維後的信息量須保持在一個較高水平上），其次對這些被提取的主成分必須都能夠給出符合實際背景和意義的解釋（否則主成分將空有信息量而無實際含義）。

↘主成分的解釋其含義一般多少帶有點模糊性，不像原始變數的含義那麼清楚、確切，這是變數降維過程中不得不付出的代價。因此，提取的主成分個數m通常應明顯小於原始變數個數p（除非p本身較小），否則維數降低的「利」可能抵不過主成分含義不如原始變數清楚的「弊」。

↘當主成分的因子負荷的符號有正有負時，綜合評價函數意義就不明確。

主成分分析案例

某公司經理擬招聘一名員工，要求其具有較高的工作積極性、自主性、熱情和責任感。為此，該經理專門設計了一個測試問卷，配有25項相關問題，擬從315位應聘者中尋找出最合適的候選人。

在這25項相關問題中：

↘Qu3-Qu8、Qu12、Qu13測量的是工作積極性

↘Qu2、Qu14-Qu19測量工作自主性

↘Qu20-Qu25測量的是工作熱情

↘Qu1、Qu9-Qu11測量工作責任感

每一個問題都有非常同意「Agree」、同意「Agree Some」、不確定「Undecided」、不同意「Disagree Some」和非常不同意「Disagree」五個等級。

該經理想根據這25項問題判斷應聘者在這四個方面的能力，現收集了應聘者的問卷信息，經匯總整理後部分數據如下：

分析者希望將多個變數歸納為某幾項信息進行分析，即降低數據結果的維度。針對這種情況，可以進行主成分提取，但需要先滿足2項假設：

↘假設1：觀測變數是連續變數或有序分類變數，如本研究中的測量變數都是有序分類變數。

↘假設2：變數之間存在線性相關關系。

SPSS操作

SPSS操作

(1) 在主頁面點擊Analyze→Dimension Rection →Factor

(2) 將變數Qu1-Qu25放入Variables欄

(3) 點擊Deive，點選Statistics欄的Initial solution選項，並點選Correlation Matrix欄的Coefficients、KMO and Bartlett』s test of sphericity、Reproced和Anti_image選項

(4) 點擊Continue→Extraction，點擊Display欄中的Scree plot選項

(5) 點擊Continue→Rotation，點選Method欄的Varimax選項，並點選Display欄的Rotated solution和Loading plot(s)選項

(6) 點擊Continue→Scores，點擊Save as variables，激活Method欄後點擊Regression選項

(7) 點擊Continue→Options，點擊 Sorted by size和Suppress small coefficients選項，在Absolute value below欄內輸入「.3」點擊Continue→OK

經上述操作，SPSS輸出相關矩陣表如下：

該表主要用於判斷各變數之間的線性相關關系，從而決定變數的取捨，即如果某一個變數與同一分組中其他變數之間的關聯性不強，我們就認為該變數與其他變數測量的內容不同，在主成分提取中不應該納入該變數。一般來說，如果相關系數大於等於0.3，我們就認為變數之間存在較好的線性相關性。

從本研究的結果來看，在分別對應聘者工作積極性(Q3-Q8，Q12，Q13)、工作自主性 (Q2，Q14-19)、工作熱情(Q20-25)和工作責任感(Q1，Q9-11)的測量中，每組變數之間的相關系數均大於0.3，說明各組變數之間具有線性相關關系，提示滿足假設2。

KMO檢驗對數據結構的總體分析

KMO檢驗主要用於主成分提取的數據情況。KMO檢驗系數分布在0到1之間，如果系數值大於0.6，則認為樣本符合數據結構合理的要求。

部分學者認為，只有當KMO檢驗系數值大於0.8時，主成分分析的結果才具有較好的實用性，具體系數對應關系如下：

SPSS輸出本研究結果如下：

本研究的KMO檢驗系數為0.833，根據系數對應關系表，我們認為本研究數據結構很好(meritorious)，具有相關關系，滿足假設2。

KMO檢驗對各變數的單獨分析

SPSS輸出各變數的KMO檢驗結果如下：

整理後各題KMO值：

KMO檢驗對單個變數的分析結果也在0到1之間分布，如果系數大於0.5，則認為單個變數滿足要求；如果系數大於0.8，則認為單個變數結果很好。

分析結論中，任一變數的KMO檢驗結果均大於0.7，即各變數結果一般，但滿足假設2。

Bartlett's檢驗

Bartlett's檢

Bartlett's檢驗的零假設是研究數據之間的相關矩陣是一個完美矩陣，即所有對角線上的系數為1，非對角線上的系數均為0。

在完美矩陣情況下，各變數之間沒有相關關系，即不能將多個變數簡化為少數的成分，沒有進行主成分提取的必要。因此，我們希望拒絕Bartlett's檢驗的零假設。

SPSS輸出結果如下：

Bartlett's檢驗的P值小於0.001，拒絕零假設，即認為研究數據可以進行主成分提取，滿足假設2。

結果解釋

對主成分結果的分析主要從公因子方差（communalities）、提取主成分和強制提取主成分三個方面進行。

公因子方差結果

SPSS輸出公因子方差結果如下：

研究中有多少個變數數據結果就會輸出多少個成分，本研究中共有25個變數，就會對應產生25個成分。

「Extraction」欄提示當只保留選中的成分時，變數變異被解釋的程度。

提取主成分

研究中有多少個變數，主成分提取就會產生多少個主成分。我們通過選取主成分對數據進行降維，但同時也要注意盡可能多地包含對數據變異的解釋。

一般來說，結果輸出的第一主成分包含最多的數據變異，第二主成分次之，之後的主成分包含的變異程度依次遞減。SPSS輸出結果如下：

本研究中共有25個變數，那總特徵值（eigenvalues of variance）是25，即每個變數自身的特徵值為1。

Total欄提示的是各主成分對數據變異的解釋程度。

以第一主成分為例，其特徵值為6.730，占總體變異的6.730/25×100 = 26.919% （% of Variance欄）。同理，第二主成分的特徵值為3.342，占總體變異的13.369%，以此類推。

一般來說，如果某一項主成分的特徵值小於1，那麼我們就認為該主成分對數據變異的解釋程度比單個變數小，應該剔除。本研究結果如下：

第五主成分的特徵值為1.049，大於1；而第六主成分的特徵值為0.951，小於1，即應該保留前五位的主成分，剔除剩餘部分。

結論

本研究採用主成分分析，通過25項問題調查315位應聘者的工作能力。

研究變數之間存在線性相關關系(每組變數之間的相關系數均大於0.3)，數據結構合理(KMO檢驗系數為0.833，單個變數的KMO檢驗系數均大於0.7，Bartlett's檢驗結果為P<0.001)，提示研究數據可以進行主成分提取。< span="">

主成分提取結果：研究提取前四位主成分。提取後的主成分累計解釋59.9%的數據變異，分別反映應聘者的工作積極性、工作自主性、工作熱情和工作責任感（如下圖）

2. 投資者情緒為什麼要用主成分分析法

『阿諾德「評定－興奮」說』美國心理學家阿諾德提出。認為：刺激情景並不直接決定情緒的性質，從刺激出現到情緒的產生。要經過對刺激的估量和評價。情緒產生的基本過程是刺激情景－評估－情緒。

3. 如何用Python和機器學習炒股賺錢

相信很多人都想過讓人工智慧來幫你賺錢，但到底該如何做呢？瑞士日內瓦的一位金融數據顧問 Gaëtan Rickter 近日發表文章介紹了他利用 Python 和機器學習來幫助炒股的經驗，其最終成果的收益率跑贏了長期處於牛市的標准普爾 500 指數。雖然這篇文章並沒有將他的方法完全徹底公開，但已公開的內容或許能給我們帶來如何用人工智慧炒股的啟迪。

我終於跑贏了標准普爾 500 指數 10 個百分點！聽起來可能不是很多，但是當我們處理的是大量流動性很高的資本時，對沖基金的利潤就相當可觀。更激進的做法還能得到更高的回報。

這一切都始於我閱讀了 Gur Huberman 的一篇題為《Contagious Speculation and a Cure for Cancer: A Non-Event that Made Stock Prices Soar》的論文。該研究描述了一件發生在 1998 年的涉及到一家上市公司 EntreMed（當時股票代碼是 ENMD）的事件：

「星期天《紐約時報》上發表的一篇關於癌症治療新葯開發潛力的文章導致 EntreMed 的股價從周五收盤時的 12.063 飆升至 85，在周一收盤時接近 52。在接下來的三周，它的收盤價都在 30 以上。這股投資熱情也讓其它生物科技股得到了溢價。但是，這個癌症研究方面的可能突破在至少五個月前就已經被 Nature 期刊和各種流行的報紙報道過了，其中甚至包括《泰晤士報》！因此，僅僅是熱情的公眾關注就能引發股價的持續上漲，即便實際上並沒有出現真正的新信息。」

在研究者給出的許多有見地的觀察中，其中有一個總結很突出：

「（股價）運動可能會集中於有一些共同之處的股票上，但這些共同之處不一定要是經濟基礎。」

我就想，能不能基於通常所用的指標之外的其它指標來劃分股票。我開始在資料庫裡面挖掘，幾周之後我發現了一個，其包含了一個分數，描述了股票和元素周期表中的元素之間的「已知和隱藏關系」的強度。

我有計算基因組學的背景，這讓我想起了基因和它們的細胞信號網路之間的關系是如何地不為人所知。但是，當我們分析數據時，我們又會開始看到我們之前可能無法預測的新關系和相關性。

如果你使用機器學習，就可能在具有已知和隱藏關系的上市公司的寄生、共生和共情關系之上搶佔先機，這是很有趣而且可以盈利的。最後，一個人的盈利能力似乎完全關乎他在生成這些類別的數據時想出特徵標簽（即概念（concept））的強大組合的能力。

我在這類模型上的下一次迭代應該會包含一個用於自動生成特徵組合或獨特列表的單獨演算法。也許會基於近乎實時的事件，這可能會影響那些具有隻有配備了無監督學習演算法的人類才能預測的隱藏關系的股票組。

4. 甜品開題報告

甜品開題報告

甜品，也叫甜點，是一個很廣的概念，大致分為甜味點心和廣式的糖水。甜品，一般不會被當作正餐，通常作為下午茶的小食，這類課題又有怎樣研究的價值呢？以下是我為大家整理的甜品開題報告，希望能幫到大家！

一、畢業設計（論文）內容及研究意義（價值）

1、研究背景

我國股市起步相對較晚，從 1990 年才開始建立發展證券市場，截止到2009 年我國證券市場已經經歷了 19 年的歷程，因此在證券投資理論和證券市場的發展方面都落後於發達國家。盡管如此，我國許多學者還是運用所掌握的國外先進理論對我國證券市場進行實證研究，為推進其健康發展起到積極的作用。截止到 2009 年 10 月，股票總發行總股本達到 25 770。89億股（其中流通股本 19 346。39 億股），市價總值 215 892。01 億元（其中股票流通市值 130 920。14 億元），股票成交額 32 372。19 億元。與此同時，我國個人和機構投資者也在不斷的增多，我國證券市場已成為我國經濟發展和國企改革中不可替代的組成部分，並成為我國個人和機構投資的重要途徑。

由於我國證券市場起步較晚，無論是從證券市場的發展還是投資理論的應用上都落後於發達國家，盡管如此，我國許多學者運用所掌握的國外先進理論對我國證券市場進行實證研究，為我國證券市場的總結了運行規律，對我國證券市場良好發展起到了積極地促進作用。在分析股票價格因素、股票收益率大小之前，首先應分析股票收益率是受何種因素所影響的，哪些因素在股票收益率中佔有重要地位，所以對股票收益率的影響因素的研究有其必要性和緊迫性。

2、研究意義

投資者進行投資的兩個具體目標就是在風險既定的條件下投資收益率最大化和在收益率既定的條件下風險最小化。對投資者來說股票收益率是進行投資的一個重要指標，所以對股票收益率影響因素的研究具有深遠的意義。

3、研究內容

本文研究我國上市公司的股票收益率的影響因素，採用了多種方法結合理論特徵，對影響我國股票收益率的各種因素進行了實證檢驗和分析。對股票收益率的影響大體可以從宏觀、中觀和微觀三方面進行研究，本文選取了三個方面中較為重要的.三個因素進行了分析，在宏觀因素中選取了通貨膨脹因素，中觀因素總選取了行業因素，微觀因素中選取了上市公司的財務狀況因素，才這三方面入手對其展開實證研究。

二、畢業設計（論文）研究現狀和評述（文獻綜述）

1、國外研究現狀

在國外的股票市場研究中，由於起步早於我國，所以在投資分析理論和實踐方面都得到了相對較成熟的經驗和方法。1952年美國經濟學家HarryMarkowitz[1] 在《金融雜志》上發表了《投資組合的選擇》，這一文章的發表標志著現代資產組合理論的開端。在理論界被稱為 20 世紀發生在華爾街的第一次金融革命。文章中將統計學知識與證券投資理論結合在了一起，運用了數量統計模型，從不同的角度分析了股票收益率的影響因素，為投資者提供了如何進行有效投資的理論知識以及識別證券定價是否合理的方法。隨著現代投資組合理論的誕生，對股票收益率的研究開始形成了不同的學派。如基本分析派，其以宏觀經濟形勢、行業特徵及上市公司財務指標作為對股票收益率影響因素分析的對象和投資決策基礎;行為分析流派，而該流派認為，資本資產定價模型（CAPM）和有效市場假說（EMH）是現代金融理論的兩大基石。

2、國內研究現狀

盡管我國在證券投資理論及應用方面落後於發達國家，但近些年國內研究學者在針對股票收益率影響因素方面做了大量的嘗試和研究。我國對股票收益率影響因素分析的文章主要是從宏觀因素、微觀因素、行業因素、系統風險或非系統風險等方面進行的研究。

施東暉、陳浪南、楊朝軍、陳小悅[2—5]將 CAPM 模型運用到了國內的股票市場，對其進行了實證檢驗，結果由符合也有違背，但大多數結果表明 CAPM 模型在中國股票市場上是不合適的。

劉志新、黃昌利[6]將 Fama—French 三因子模型應用到了中國股市，對其進行實證檢驗，研究發現流通市值和收益價格比即市盈率的倒數對於預期收益率的解釋顯著，而β 值對預期收益率的解釋沒有顯著作用。陳信元、張田余和陳東華[7]在研究中得到，β系數在單因素和多因素型中，對股票收益率的解釋沒有顯著作用，在預測股票收益率方面，規模和賬面市場價值比對其有很強的解釋能力，並且在控制規模後，流通股比例表現出了對股票收益率很強的解釋能力。范龍振[8]和王海濤在對股票收益率的研究中發現，在 Fama—French 三因子模型中加入市盈率因子會對股票的收益率有更好的解釋能力。顧娟和丁楹[9]在對我國證券市場的研究中得到在我國的股票市場上不存在價值成長效應，上市公司的基本面對股票收益率沒有顯著的預測作用。蘇東蔚和麥元勛]在對股票收益率的研究中利用了FM 方法和LR方法對回歸系數進行了處理，得出規模效應、價值效應及市盈率等對股票收益率的影響較為顯著。梁琪和騰建[10]州運用多元VAR模型對我國股票市場和經濟增長之間的關系進行了檢驗。

3、國內外研究現狀評述

綜合國內外研究現狀，對股票收益率影響因素的研究在研究內容上在不斷的完善、研究方法上不斷更新，但依然存在不足之處。如 Markowitz模型理論的實際操作性相對較差，在投資實踐的過程中受到了一定的限制。國外較國內在研究方向、研究內容和研究方法等方面更為全面、系統、新穎，這些事國內研究中值得學習和借鑒的。在研究通貨膨脹對過收益率的影響因素上，我國學者在研究模型的利用上主要集中在費雪效應模型上，很少在其他模型上進行實驗進行分析;在行業因素的影響上，我國學者在此內容上研究的相對較少，其研究方法還不夠豐富，沒有統一的研究結果;在上市公司財務狀況因素上，對財務指標的分類不夠全面，大多隻關注了上市公司的盈利能力，而忽略了償債能力和成長能力等方面的指標。本文在借鑒前人的經驗和精華的基礎上，針對我國研究現狀的不足從通貨膨脹、行業因素和上市公司財務狀況三方面進行理論和實證分析，利用創新模型和更全面的指標體系進行研究。針對本文的研究來說理論上增加了對影響因素的理論界定，在實證方法和對象選擇更加細致明確。

三、畢業設計（論文）研究方案及工作計劃（工作重點與難點及擬採用的途徑）

1。研究方案

（1）定性分析法

通過全面系統的對國內外研究成果的分析和總結，從通貨膨脹理論、行業理論和上市公司財務狀況理論三方面，提出了本文的理論內容，從這三方面論述了三者與股票收益率的相關性。

（2）定量分析法

本文從通貨膨脹、行業因素和上市公司財務狀況三個層面結合相關數據，利用回歸分析法、相關關系和主成分分析法等統計方法進行實證分析。

（3）實證分析方法

本文在建立數學模型的基礎上，選取了上證指數相關數據，運用了計量經濟方法，使用了統計分析軟體，如EXCEL、SPSS等進行數據統計分析，利用模型

對通貨膨脹率、行業因素和上市公司財務狀況對股票收益率的影響進行了實證檢驗，對研究結果分析評判，對此提出了建議。

2。工作重點

（1）從行業因素的角度出發，利用夏普模型對上證指數收益率與各行業指數收益率進行分析，在行業間關聯性比較中利用相關關系法探討各行業收益率與股票收益率的相關性及各行業間收益率的相關程度;

（2）從上市公司的財務狀況層面上進行實證分析，在此層面上利用套利定價模型將股票收益率與各財務指標進行回歸。尋求各財務指標與股票收益率的顯著水平，利用主成分分析法將各財務指標進行實證檢驗，比較得出各財務指標對股票收益率的影響程度。

3。工作難點

由於不同行業所選用的財務指標有所不同，所以盡量在訓練樣本與檢驗樣本找同類型的上市公司，很難找到上市公司完整且真實的財務指標，分析我國上市公司股票收益率影響的因素就比較困難。

4。擬採用的途徑

本文採用理論研究與實證研究相結合的方式，通過EXCEL、SPSS等統計軟體對樣本數據進行處理，全面探討對我國上市公司股票收益率影響的因素。

5。工作計劃

本課題的起止時間為201x年2月至201x年6月。

201x年2月—201x年3月

搜集資料並查看國內外有關文獻，閱讀整理國內外有關因子分析理論的相關著作，通過對我國上市公司股票收益率影響因素的已有理論和前沿知識的學習、整理和分析，能大體掌握我國上市公司股票收益率影響因素;並完成論文的初步大綱，准備開題。

201x年3月—201x年4月

完成一篇英文文獻的中文譯文，並搜集整理實證研究所需要的數據。

201x年4月—201x年5月

在前幾個階段研究成果的基礎上進行實證的深入研究，並分析整理，得出相應結果，完成論文初稿。

201x年5月—201x年6月

徵求意見，反復修改，最終完成論文，准備答辯。

四、主要參考文獻 （不少於10篇，期刊類文獻不少於7篇，應有一定數量的外文文獻，至少附一篇引用的外文文獻（3個頁面以上）及其譯文）

[1] H。 Markowitz。 Portfolio Selection[J] 。 The Journal of Finance， 1952 ， 7（1）：77—91。

[2] 施東暉。上海股票市場風險性實證研究[M]。經濟研究， 1996，（10）：44—48。

[3] 陳浪南，屈文洲。資本資產定價模型的實證研究[M]。經濟研究， 2000，（4）：68—72。

[4] 楊朝軍，邢靖。上海證券市場以 PM 實證檢驗[J]。上海交通大學學報， 1998，（3）：54—58。

[5] 陳小悅，孫愛軍。CAPM 在中國股市的有效性檢驗[J]。北京大學學報， 2000，（4）：32—2—39 。

[6] 劉志新，黃昌利。中國股市預期收益率的橫截面研究[J]。經濟科學，2000：156—161。

[7] 陳信元，張田余，陳冬華。預期股票收益的橫截面多因素分析：來自中國證券市場的經驗證據[M]。金融研究， 2001，（6）：241—247。

[8] 范龍振，王海濤。上海股票市場股票收益率因素研究[J]。管理科學學報， 2003，（2）：115—118。

[9] 顧娟，丁楹。中國證券市場價值成長效應的實證研究[J]。經濟評論， 2003，（2）：94—104。

[10] 梁琪，騰建州。中國金融發展與經濟增長的再思考：基於變數結構變化的多元VAR分析[J]。當代經濟科學， 2006，（5）：36—43。

;

5. 甜品的開題報告

甜品的開題報告

甜品，也叫甜點，是一個很廣的概念，大致分為甜味點心和廣式的糖水。甜品，一般不會被當作正餐，通常作為下午茶的小食，這類課題又有怎樣研究的價值呢?

一、畢業設計(論文)內容及研究意義(價值)

1、研究背景

我國股市起步相對較晚，從 1990 年才開始建立發展證券市場，截止到2009 年我國證券市場已經經歷了 19 年的歷程，因此在證券投資理論和證券市場的發展方面都落後於發達國家。盡管如此，我國許多學者還是運用所掌握的國外先進理論對我國證券市場進行實證研究，為推進其健康發展起到積極的作用。截止到 2009 年 10 月，股票總發行總股本達到 25 770.89億股(其中流通股本 19 346.39 億股)，市價總值 215 892.01 億元(其中股票流通市值 130 920.14 億元)，股票成交額 32 372.19 億元。與此同時，我國個人和機構投資者也在不斷的增多，我國證券市場已成為我國經濟發展和國企改革中不可替代的組成部分，並成為我國個人和機構投資的重要途徑。

2、研究意義

3、研究內容

本文研究我國上市公司的股票收益率的影響因素，採用了多種方法結合理論特徵，對影響我國股票收益率的各種因素進行了實證檢驗和分析。對股票收益率的影響大體可以從宏觀、中觀和微觀三方面進行研究，本文選取了三個方面中較為重要的三個因素進行了分析，在宏觀因素中選取了通貨膨脹因素，中觀因素總選取了行業因素，微觀因素中選取了上市公司的財務狀況因素，才這三方面入手對其展開實證研究。

二、畢業設計(論文)研究現狀和評述(文獻綜述)

1、國外研究現狀

在國外的股票市場研究中，由於起步早於我國，所以在投資分析理論和實踐方面都得到了相對較成熟的經驗和方法。1952年美國經濟學家HarryMarkowitz[1] 在《金融雜志》上發表了《投資組合的選擇》，這一文章的發表標志著現代資產組合理論的開端。在理論界被稱為 20 世紀發生在華爾街的第一次金融革命。文章中將統計學知識與證券投資理論結合在了一起，運用了數量統計模型，從不同的角度分析了股票收益率的影響因素，為投資者提供了如何進行有效投資的理論知識以及識別證券定價是否合理的方法。隨著現代投資組合理論的誕生，對股票收益率的研究開始形成了不同的學派。如基本分析派，其以宏觀經濟形勢、行業特徵及上市公司財務指標作為對股票收益率影響因素分析的對象和投資決策基礎;行為分析流派，而該流派認為，資本資產定價模型(CAPM)和有效市場假說(EMH)是現代金融理論的兩大基石。

2、國內研究現狀

盡管我國在證券投資理論及應用方面落後於發達國家，但近些年國內研究學者在針對股票收益率影響因素方面做了大量的嘗試和研究。我國對股票收益率影

響因素分析的文章主要是從宏觀因素、微觀因素、行業因素、系統風險或非系統風險等方面進行的研究。

施東暉、陳浪南、楊朝軍、陳小悅[2-5]將 CAPM 模型運用到了國內的股票市場，對其進行了實證檢驗，結果由符合也有違背，但大多數結果表明 CAPM 模型在中國股票市場上是不合適的。

劉志新、黃昌利[6]將 Fama-French 三因子模型應用到了中國股市，對其進行實證檢驗，研究發現流通市值和收益價格比即市盈率的倒數對於預期收益率的解釋顯著，而β 值對預期收益率的解釋沒有顯著作用。陳信元、張田余和陳東華[7]在研究中得到，β系數在單因素和多因素型中，對股票收益率的解釋沒有顯著作用，在預測股票收益率方面，規模和賬面市場價值比對其有很強的解釋能力，並且在控制規模後，流通股比例表現出了對股票收益率很強的解釋能力。范龍振

[8]和王海濤在對股票收益率的研究中發現，在 Fama-French 三因子模型中加入

市盈率因子會對股票的收益率有更好的解釋能力。顧娟和丁楹[9]在對我國證券市場的研究中得到在我國的股票市場上不存在價值成長效應，上市公司的基本面對股票收益率沒有顯著的預測作用。蘇東蔚和麥元勛]在對股票收益率的研究中利用了FM 方法和LR方法對回歸系數進行了處理，得出規模效應、價值效應及市盈率等對股票收益率的影響較為顯著。梁琪和騰建[10]州運用多元VAR模型對我國股票市場和經濟增長之間的關系進行了檢驗。

3、國內外研究現狀評述

三、畢業設計(論文)研究方案及工作計劃(工作重點與難點及擬採用的途徑)

1.研究方案

(1) 定性分析法

(2) 定量分析法

本文從通貨膨脹、行業因素和上市公司財務狀況三個層面結合相關數據，利用回歸分析法、相關關系和主成分分析法等統計方法進行實證分析。

(3)實證分析方法

本文在建立數學模型的基礎上，選取了上證指數相關數據，運用了計量經濟方法，使用了統計分析軟體，如EXCEL、SPSS等進行數據統計分析，利用模型

對通貨膨脹率、行業因素和上市公司財務狀況對股票收益率的影響進行了實證檢驗，對研究結果分析評判，對此提出了建議。

2.工作重點

(1)從行業因素的角度出發，利用夏普模型對上證指數收益率與各行業指數收益率進行分析，在行業間關聯性比較中利用相關關系法探討各行業收益率與股票收益率的相關性及各行業間收益率的相關程度;

(2)從上市公司的財務狀況層面上進行實證分析，在此層面上利用套利定價模型將股票收益率與各財務指標進行回歸。尋求各財務指標與股票收益率的.顯著水平，利用主成分分析法將各財務指標進行實證檢驗，比較得出各財務指標對股票收益率的影響程度。

3.工作難點

4.擬採用的途徑

本文採用理論研究與實證研究相結合的方式，通過EXCEL、SPSS等統計軟體對樣本數據進行處理，全面探討對我國上市公司股票收益率影響的因素。

5.工作計劃

本課題的起止時間為2014年2月至2014年6月。

2014年2月—2014年3月

2014年3月—2014年4月

完成一篇英文文獻的中文譯文，並搜集整理實證研究所需要的數據。

2014年4月—2014年5月

在前幾個階段研究成果的基礎上進行實證的深入研究，並分析整理，得出相應結果，完成論文初稿。

2014年5月—2014年6月

徵求意見，反復修改，最終完成論文，准備答辯。

四、主要參考文獻(不少於10篇，期刊類文獻不少於7篇，應有一定數量的外文文獻，至少附一篇引用的外文文獻(3個頁面以上)及其譯文)

[1] H. Markowitz. Portfolio Selection[J] . The Journal of Finance, 1952 , 7(1):77-91.

[2] 施東暉.上海股票市場風險性實證研究[M].經濟研究, 1996, (10):44-48.

[3] 陳浪南, 屈文洲.資本資產定價模型的實證研究[M].經濟研究, 2000, (4):68-72.

[4] 楊朝軍, 邢靖.上海證券市場以 PM 實證檢驗[J].上海交通大學學報, 1998, (3):

54-58.

[5] 陳小悅, 孫愛軍.CAPM 在中國股市的有效性檢驗[J].北京大學學報, 2000, (4):

32-2-39 .

[6] 劉志新, 黃昌利.中國股市預期收益率的橫截面研究[J].經濟科學,

2000:156-161.

[7] 陳信元, 張田余, 陳冬華.預期股票收益的橫截面多因素分析:來自中國證券市場的經驗證據[M].金融研究, 2001, (6):241-247.

[8] 范龍振, 王海濤.上海股票市場股票收益率因素研究[J].管理科學學報, 2003,

(2):115-118.

[9] 顧娟, 丁楹.中國證券市場價值成長效應的實證研究[J].經濟評論, 2003,

(2):94-104.

[10] 梁琪, 騰建州.中國金融發展與經濟增長的再思考:基於變數結構變化的多元

VAR分析[J].當代經濟科學, 2006, (5):36-43.

;

6. 主成分分析法（PCA）

3.2.2.1 技術原理

主成分分析方法（PCA）是常用的數據降維方法，應用於多變數大樣本的統計分析當中，大量的統計數據能夠提供豐富的信息，利於進行規律探索，但同時增加了其他非主要因素的干擾和問題分析的復雜性，增加了工作量，影響分析結果的精確程度，因此利用主成分分析的降維方法，對所收集的資料作全面的分析，減少分析指標的同時，盡量減少原指標包含信息的損失，把多個變數（指標）化為少數幾個可以反映原來多個變數的大部分信息的綜合指標。

主成分分析法的建立，假設x_i1，x_i2，…，x_im是i個樣品的m個原有變數，是均值為零、標准差為1的標准化變數，概化為p個綜合指標F₁，F₂，…，F_p，則主成分可由原始變數線性表示：

地下水型飲用水水源地保護與管理：以吳忠市金積水源地為例

計算主成分模型中的各個成分載荷。通過對主成分和成分載荷的數據處理產生主成分分析結論。

3.2.2.2 方法流程

1）首先對數據進行標准化，消除不同量綱對數據的影響，標准化可採用極值法

及標准差標准化法

，其中s＝

（圖3.3）；

圖3.3 方法流程圖

2）根據標准化數據求出方差矩陣；

3）求出共變數矩陣的特徵根和特徵變數，根據特徵根，確定主成分；

4）結合專業知識和各主成分所蘊藏的信息給予恰當的解釋，並充分運用其來判斷樣品的特性。

3.2.2.3 適用范圍

主成分分析不能作為一個模型來描述，它只是通常的變數變換，主成分分析中主成分的個數和變數個數p相同，是將主成分表示為原始變數的線性組合，它是將一組具有相關關系的變數變換為一組互不相關的變數。適用於對具有相關性的多指標進行降維，尋求主要影響因素的統計問題。

7. 數據分析常用的降維方法之主成分分析

數據分析：常用的降維方法之主成分分析

主成分分析（Principal Component Analysis，PCA）也稱主分量分析，旨在利用降維的思想，把多指標轉化為少數幾個綜合指標。
在統計學中，主成分分析是一種簡化數據集的技術。它是一個線性變換。這個變換把數據變換到一個新的坐標系統中，使得任何數據投影的第一大方差在第一個坐標(稱為第一主成分)上，第二大方差在第二個坐標(第二主成分)上，依次類推。主成分分析經常用減少數據集的維數，同時保持數據集的對方差貢獻最大的特徵。這是通過保留低階主成分，忽略高階主成分做到的。這樣低階成分往往能夠保留住數據的最重要方面。但是，這也不是一定的，要視具體應用而定。
主成分分析的主要作用
1．主成分分析能降低所研究的數據空間的維數。即用研究m維的Y空間代替p維的X空間(m＜p)，而低維的Y空間代替高維的x空間所損失的信息很少。即：使只有一個主成分Yl(即 m＝1)時，這個Yl仍是使用全部X變數(p個)得到的。例如要計算Yl的均值也得使用全部x的均值。在所選的前m個主成分中，如果某個Xi的系數全部近似於零的話，就可以把這個Xi刪除，這也是一種刪除多餘變數的方法。
2．有時可通過因子負荷aij的結論，弄清X變數間的某些關系。
3．多維數據的一種圖形表示方法。我們知道當維數大於3時便不能畫出幾何圖形，多元統計研究的問題大都多於3個變數。要把研究的問題用圖形表示出來是不可能的。然而，經過主成分分析後，我們可以選取前兩個主成分或其中某兩個主成分，根據主成分的得分，畫出n個樣品在二維平面上的分布況，由圖形可直觀地看出各樣品在主分量中的地位，進而還可以對樣本進行分類處理，可以由圖形發現遠離大多數樣本點的離群點。
4．由主成分分析法構造回歸模型。即把各主成分作為新自變數代替原來自變數x做回歸分析。
5．用主成分分析篩選回歸變數。回歸變數的選擇有著重的實際意義，為了使模型本身易於做結構分析、控制和預報，好從原始變數所構成的子集合中選擇最佳變數，構成最佳變數集合。用主成分分析篩選變數，可以用較少的計算量來選擇量，獲得選擇最佳變數子集合的效果。
主成分分析法的計算步驟
1、原始指標數據的標准化採集p 維隨機向量x = (x1,X2,...,Xp)T)n 個樣品xi = (xi1,xi2,...,xip)T ，i=1,2,…,n，
n＞p，構造樣本陣，對樣本陣元進行如下標准化變換：
Z_{ij}=frac{x_{ij}-bar{x}_j}{s_j},i=1,2,...,n; j=1,2,...,p
其中bar{x}_j=frac{sum^{n}_{i=1}x_{ij}}{n},s^2_j=frac{sum^n_{i=1}(x_{ij}-bar{x}_j)^2}{n-1}，得標准化陣Z。
2、對標准化陣Z 求相關系數矩陣
R=left[r_{ij}right]_pxp=frac{Z^T Z}{n-1}
其中,r_{ij}=frac{sum z_{kj}cdot z_{kj}}{n-1},i,j=1,2,...,p 。
3、解樣本相關矩陣R 的特徵方程left|R-lambda I_pright|=0得p 個特徵根,確定主成分
按frac{sum^m_{j=1}lambda_j}{sum^p_{j=1}lambda_j}ge 0.85 確定m 值，使信息的利用率達85%以上，對每個λj, j=1,2,...,m, 解方程組Rb = λjb得單位特徵向量b^o_j 。
4、將標准化後的指標變數轉換為主成分
U_{ij}=z^{T}_{i}b^{o}_{j},j=1,2,...,m
U1稱為第一主成分,U2 稱為第二主成分,…,Up 稱為第p 主成分。
5 、對m 個主成分進行綜合評價
對m 個主成分進行加權求和，即得最終評價值，權數為每個主成分的方差貢獻率。
因子分析
因子分析法是指從研究指標相關矩陣內部的依賴關系出發，把一些信息重疊、具有錯綜復雜關系的變數歸結為少數幾個不相關的綜合因子的一種多元統計分析方法。基本思想是：根據相關性大小把變數分組，使得同組內的變數之間相關性較高，但不同組的變數不相關或相關性較低，每組變數代表一個基本結構一即公共因子。
因子分析法的步驟
(1)對數據樣本進行標准化處理。
(2)計算樣本的相關矩陣R。
(3)求相關矩陣R的特徵根和特徵向量。
(4)根據系統要求的累積貢獻率確定主因子的個數。
(5)計算因子載荷矩陣A。
(6)確定因子模型。
(7)根據上述計算結果，對系統進行分析。

以上是小編為大家分享的關於數據分析常用的降維方法之主成分分析的相關內容，更多信息可以關注環球青藤分享更多干貨

主成分分析法模型股票

一、畢業設計(論文)內容及研究意義(價值)

二、畢業設計(論文)研究現狀和評述(文獻綜述)

三、畢業設計(論文)研究方案及工作計劃(工作重點與難點及擬採用的途徑)

與主成分分析法模型股票相關的內容