統(tǒng)計學常犯錯誤TOP榜,避坑防雷指南!
源:知乎 良好研究方法 作者:求知鳥 pythonic生物人
1. 變量之間關(guān)系可以分為兩類:
函數(shù)關(guān)系:反映了事務(wù)之間某種確定性關(guān)系相關(guān)關(guān)系:兩個變量之間存在某種依存關(guān)系,但二者并不是一一對應(yīng)的;反映了事務(wù)間不完全確定關(guān)系;
2. 為什么要對相關(guān)系數(shù)進行顯著性檢驗?
- 實際上完全沒有關(guān)系的變量,在利用樣本數(shù)據(jù)進行計算時也可能得到一個較大的相關(guān)系數(shù)值(尤其是時間序列數(shù)值)
- 當樣本數(shù)較少,相關(guān)系數(shù)就很大。當樣本量從100減少到40后,相關(guān)系數(shù)大概率會上升,但上升到多少,這個就不能保證了;取決于你的剔除數(shù)據(jù)原則,還有這組數(shù)據(jù)真的可能不存在相關(guān)性;
改變兩列數(shù)據(jù)的順序,不會對相關(guān)系數(shù),和散點圖(擬合的函數(shù)曲線)造成影響;對兩列數(shù)據(jù)進行歸一化處理,標準化處理,不會影響相關(guān)系數(shù);我們計算的相關(guān)系數(shù)是線性相關(guān)系數(shù),只能反映兩者是否具備線性關(guān)系。相關(guān)系數(shù)高是線性模型擬合程度高的前提;此外相關(guān)系數(shù)反映兩個變量之間的相關(guān)性,多個變量之間的相關(guān)性可以通過復(fù)相關(guān)系數(shù)來衡量;
3. 增加變量個數(shù),R2會增大;P值,F(xiàn)值只要滿足條件即可,不必追求其值過小;
4. 多重共線性與統(tǒng)計假設(shè)檢驗傻傻分不清?
多重共線性與統(tǒng)計假設(shè)沒有直接關(guān)聯(lián),但是對于解釋多元回歸的結(jié)果非常重要。相關(guān)系數(shù)反應(yīng)兩個變量之間的相關(guān)性;回歸系數(shù)是假設(shè)其他變量不變,自變量變化一個單位,對因變量的影響,而存在多重共線性(變量之間相關(guān)系數(shù)很大),就會導(dǎo)致解釋困難;比如y~x1+x2;x·1與x2存在多重共線性,當x1變化一個單位,x2不變,對y的影響;而x1與x2高度相關(guān),就會解釋沒有意義。
一元回歸不存在多重共線性的問題;而多元線性回歸要摒棄多重共線性的影響;所以要先對所有的變量進行相關(guān)系數(shù)分析,初步判定是否滿足前提---多重共線性。
5. 時間序列數(shù)據(jù)會自發(fā)呈現(xiàn)完全共線性問題,所以我們用自回歸分析方法;
6. 什么樣的模型才是一個好模型?
在測試集表現(xiàn)與預(yù)測集相當,說明模型沒有過度擬合:在訓練集上表現(xiàn)完美,在測試集上一塌糊涂;原因:模型過于剛性:“極盡歷史規(guī)律,考慮隨機誤差”;擬合精度不能作為衡量模型方法的標準;
一個好的模型:只描述規(guī)律性的東西(抓住事務(wù)的主要特征),存在隨機誤差是好事,在預(yù)測時,就有了“容錯空間”,預(yù)測誤差可能減??!
7. 假設(shè)檢驗顯著性水平的兩種理解:
- 顯著性水平:通過小概率準則來理解,在假設(shè)檢驗時先確定一個小概率標準----顯著性水平;用
表示;凡出現(xiàn)概率小于顯著性水平的事件稱小概率事件;
- 通過兩類錯誤理解:
為拒絕域面積
8. 中心極限定律與大數(shù)定理:
大數(shù)定理---正態(tài)分布的“左磅”,隨著樣本數(shù)的增加,樣本的平均值可以估計總體平均值;
中心極限定理---正態(tài)分布的“右臂”具有穩(wěn)定性,大數(shù)定理說明大量重復(fù)實驗的平均結(jié)果具有穩(wěn)定解決了變量均值的收斂性問題中心極限定理說明隨機變量之和逐漸服從某一分布,解決了分布收斂性問題。
9. 方差
方差能最大程度的反映原始數(shù)據(jù)信息;
反映了一組數(shù)據(jù)相對于平均數(shù)的波動程度,相比于 ,其平方項更放大了波動,且差的平方在數(shù)學公式推導(dǎo)上有大用。
10. 使用最小二乘法條件:
- 自變量之間不能存在完全共線性;
- 總體方程誤差項服從均值為0的正態(tài)分布(大數(shù)定理)
- 誤差項的方差不受自變量影響且為固定值;(同方差性)
11. 最大似然估計與最小二乘法區(qū)別
- 最小二乘法是基于幾何意義上距離最小
- 最大似然估計是基于概率意義上出現(xiàn)的概率最大
- 最小二乘法:對數(shù)據(jù)分布無要求
- 最大似然估計:需要知道概率密度函數(shù)
12. 關(guān)于H0與H1
H0:原假設(shè),零假設(shè)----零是相關(guān)系數(shù)為0,說明兩個變量無關(guān)系H1:備用假設(shè)
如何設(shè)置原假設(shè):
1)H0與H1是完備事件組,相互對立,有且只有一個成立
2)在確立假設(shè)時,先確定備設(shè)H1,然后再確定H0,且保證“=”總在H0上
3)原H0一般是需要反駁的,而H1是需要支持的
4)假設(shè)檢驗只提供原假設(shè)不利證據(jù)
即使“假設(shè)”設(shè)置嚴密,檢驗方法“精確”;假設(shè)檢驗始終是建立在一定概率基礎(chǔ)上的,所以我們常會犯兩類錯誤;
第一類:原H0是真,卻拒絕原假設(shè);犯 類錯誤第二類:原H0是假,卻不拒絕原假設(shè);犯
類錯誤通常只能犯兩種錯誤中的一種,且
增加,
減少通常,
類錯誤是可控的,先設(shè)法降低第一類錯誤概率
13. 什么是雙尾檢驗,單尾檢驗?
1)當H0采用等號,而H1采用不等號,雙尾檢驗2)當H0是有方向性的,單尾檢驗
14. P值
- 當原假設(shè)為真時,比所得到的樣本觀察,結(jié)果更極端的結(jié)果會出現(xiàn)的概率。
- 如果P值很小,我們拒絕原假設(shè)的理由越充分。
- P的意義不表示兩組差別大小,p反映兩組差別有無統(tǒng)計學意義
- 顯著性檢驗只是統(tǒng)計結(jié)論,判斷差別還需要專業(yè)知識;
15. T檢驗與U檢驗
- 當樣本容量n夠大,樣本觀察值符合正態(tài)分布,可采用U檢驗
- 當樣本容量n較小,若觀測值符合正態(tài)分布,可采用T型檢驗
16. 方差分析
主要用于兩樣本及以上樣本間的比較,又被稱為F檢驗,變異數(shù)分析;
基本思想:通過分析研究不同來源的變異對總體變異的貢獻大小,從而確定可控因素對研究結(jié)果影響力的大小;
總變異可以被分解為組間變異與組內(nèi)變異
- 組間變異:由于不同實驗處理而造成的各組之間的變異
- 組內(nèi)變異:組內(nèi)各被適變量的差異范圍所呈現(xiàn)的變異
17. 直方圖:對數(shù)據(jù)進行整體描述,突出細節(jié)
箱線圖:對數(shù)據(jù)進行概要描述,或?qū)Σ煌瑯颖具M行比較。箱線圖可以讓我們迅速了解數(shù)據(jù)的匯集情況(這個樣本,緊密的集合在一起;哇,這個樣本不那么密集;這個樣本,大部分向左偏,哇,這個樣本大部分向右偏。)
但是請注意:一個直方圖比1000個p值更重要,拿到數(shù)據(jù)先繪制散點圖、直方圖、箱線圖看看,再決定用什么描述!
18. 霜線圖
對于分位數(shù)的理解:霜線圖看數(shù)據(jù)分布特征統(tǒng)計學中,把所有數(shù)值由小到大排列并分成四等份,處于三個分割點位置的得分就是四分位數(shù)。所以,四分位數(shù)有三個!四指四等份!
- 第一四分位數(shù):下四分位數(shù);等于該樣本中所有數(shù)值由小到大排列后第25%的數(shù)字(所以下四分位數(shù)可以不是樣本中的數(shù)值,它是一個統(tǒng)計指標(就像平均數(shù)一樣,不一定是原數(shù)據(jù)中的一點)
- 第二四分位數(shù):中位數(shù)
- 第三四分位數(shù):上四分位數(shù)
其中,下四分位數(shù)與上四分位數(shù)的距離叫四分位距!(IQR)
一元回歸不存在多重共線性的問題;而多元線性回歸要摒棄多重共線性的影響;所以要先對所有的變量進行相關(guān)系數(shù)分析,初步判定是否滿足前提---多重共線性。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。