當前位置:首頁 » 交易知識 » 股票交易量可以用箱線圖篩選異常值嗎

股票交易量可以用箱線圖篩選異常值嗎

發布時間: 2023-01-11 08:10:08

1. 異常值檢測演算法--箱線圖四分位檢測異常值

首先,給大家講下什麼叫四分位數。顧名思義,就是把一堆數據排序會分成四份,找出其中的那三個點。中間那個叫中位數,下面那個叫下四分位數據,上面那個叫上四分位數。如下圖:

中間的兩個數是12和14,平均數13即為中位數。14以上的數字,最中間的數字是20即為上四分位數。12以下中間的數字是4即為下四分位數。

當然,也是更嚴謹的計算方法。對樣本數據或者全部數據線性回歸,找出概率密度函數。反函數y=0.5對應的x值為中位數,y=0.25對應的x值為下四分位數,y=0.75對應的x值為上四分位數

和3σ原則相比,箱線圖依據實際數據繪制,真實、直觀地表現出了數據分布的本來面貌,且沒有對數據作任何限制性要求(3σ原則要求數據服從正態分布或近似服從正態分布),其判斷異常值的標准以四分位數和四分位距為基礎。四分位數給出了數據分布的中心、散布和形狀的某種指示,具有一定的魯棒性,即25%的數據可以變得任意遠而不會很大地擾動四分位數,所以異常值通常不能對這個標准施加影響。鑒於此,箱線圖識別異常值的結果比較客觀,因此在識別異常值方面具有一定的優越性。
箱型圖提供了識別異常值的一個標准,即異常值通常被定義為小於QL-1.5IQR或大於QU+1.5IQR的值。其中,QL稱為下四分位數,表示全部觀察值中有四分之一的數據取值比它小;QU稱為上四分位數,表示全部觀察值中有四分之一的數據取值比它大;IQR稱為四分位數間距,是上四分位數QU與下四分位數QL之差,其間包含了全部觀察值的一半。

2. 箱形圖為什麼能檢測異常值,原理是什麼

箱形圖可以用來觀察數據整體的分布情況,利用中位數,25/%分位數,75/%分位數,上邊界,下邊界等統計量來來描述數據的整體分布情況。通過計算這些統計量,生成一個箱體圖,箱體包含了大部分的正常數據,而在箱體上邊界和下邊界之外的,就是異常數據。
其中上下邊界的計算公式如下:
UpperLimit=Q3+1.5IQR=75%分位數+(75%分位數-25%分位數)*1.5,
LowerLimit=Q1-1.5IQR=25%分位數-(75%分位數-25%分位數)*1.5
(將數據由小到大排序,處於中間的為中位數,即50%分位數,在75%位置的即為75%分位數或四分之三分位數——Q3,在25%位置的即為25%分位數或四分之一分位數——Q1)
參數說明:
1. Q1表示下四分位數,即25%分位數;Q3為上四分位數,即75%分位數;IQR表示上下四分位差,系數1.5是一種經過大量分析和經驗積累起來的標准,一般情況下不做調整。
2. 分位數的參數可根據具體預警結果調整:25%和75%,是比較靈敏的條件,在這種條件下,多達25%的數據可以變得任意遠而不會很大地擾動四分位。具體業務中可結合擬合結果自行調整為其他分位。

3. 怎麼在股票軟體上看到箱體圖

在K線分析圖用滑鼠右擊主圖.顯選擇主圖指標再左擊箱體點確定試下看