快速掌握SPSS數(shù)據(jù)分析
在和SPSSAU的用戶交流中,我們發(fā)現(xiàn)本是非常簡單的數(shù)據(jù)分析原理以及軟件工具,結(jié)果非常多的同學(xué)完全不會(huì)SPSS數(shù)據(jù)分析,不知道如何學(xué)習(xí),即使學(xué)過相關(guān)原理,但對(duì)具體數(shù)據(jù)進(jìn)行分析時(shí)也有非常多問題。
這不禁讓我們思考,SPSS難嗎?無非就是數(shù)據(jù)類型的區(qū)別后,就能理解應(yīng)該用什么樣的分析方法,對(duì)應(yīng)著分析方法無非是找一些參考資料進(jìn)行即可。甚至像SPSSAU這樣的在線網(wǎng)頁SPSS軟件,直接可以將數(shù)據(jù)分析結(jié)果指標(biāo)人工智能地分析出來,這有多難呢?因此本文就來深入梳理一下如何系統(tǒng)的學(xué)習(xí)數(shù)據(jù)分析,便于讓不會(huì)數(shù)據(jù)分析的同學(xué),在學(xué)習(xí)數(shù)據(jù)分析的過程中可以少走彎路,樹立數(shù)據(jù)分析價(jià)值觀,以及以數(shù)據(jù)進(jìn)行決策的思維意識(shí),并且可以快速的掌握數(shù)據(jù)分析。
本文章分為四個(gè)板塊進(jìn)行說明,一是數(shù)據(jù)分析思維的培養(yǎng)。二是數(shù)據(jù)間的幾類關(guān)系情況。三是數(shù)據(jù)分析方法的選擇。四是數(shù)據(jù)研究的撰寫等。

相對(duì)來講,我們國家對(duì)于數(shù)據(jù)價(jià)值的重視是最近幾年才開始,尤其是大數(shù)據(jù)時(shí)代的興起,以及人工智能時(shí)代的國家戰(zhàn)略情況。之前企業(yè)進(jìn)行決策時(shí)基本均是憑借主觀經(jīng)驗(yàn),老板的經(jīng)驗(yàn)決定企業(yè)的成長,這也許叫做‘定性研究’較為適合,這種思路并沒有錯(cuò)誤。相對(duì)來講,主觀個(gè)人偏好性是這種經(jīng)驗(yàn)意識(shí)的弊端,而數(shù)據(jù)思維是用真實(shí)的數(shù)據(jù)作為依據(jù),相對(duì)來講具有更強(qiáng)的科學(xué)客觀性。但兩種思維各有優(yōu)缺點(diǎn),數(shù)據(jù)還可以造假,以及人們還可能會(huì)錯(cuò)誤的利用數(shù)據(jù)等。
但無論如何,西方的數(shù)據(jù)意識(shí),以及數(shù)據(jù)價(jià)值客觀存在。我們有必要對(duì)其進(jìn)行重視。作為數(shù)據(jù)研究人員,首先需要確保的是對(duì)數(shù)據(jù)的敬仰,錯(cuò)誤的數(shù)據(jù)絕對(duì)無法容忍,否則永遠(yuǎn)不會(huì)得出科學(xué)的結(jié)論。因而數(shù)據(jù)分析思維的素養(yǎng)第一層次即尊重?cái)?shù)據(jù)。原始數(shù)據(jù)代表的意義,數(shù)據(jù)自身帶來的屬性等均應(yīng)該逐一確認(rèn)。
確認(rèn)數(shù)據(jù)的真實(shí)準(zhǔn)確性后,即完成數(shù)據(jù)清理后,可對(duì)數(shù)據(jù)類型進(jìn)行區(qū)分,一切數(shù)據(jù)均可分為兩種類型,包括定性和定量數(shù)據(jù)。如同’定性研究‘和’定量研究‘一樣,定性數(shù)據(jù)是那些表示分類,通常使用百分比匯總,無法計(jì)算平均值的數(shù)據(jù),比如性別,專業(yè)。性別僅為男和女,使用數(shù)字1和數(shù)字2表示,可以分別計(jì)算男和女的比例,但是不能算個(gè)平均分為1.2,得出性別平均為1.2這樣的分析。另外一種數(shù)據(jù)叫定量數(shù)據(jù),定量數(shù)據(jù)是那些可以進(jìn)行量化,通常使用平均值表示,比如年齡,身高,體重,滿意度等??梢杂?jì)算平均年齡,但通常不分分析每個(gè)年齡數(shù)字的選擇百分比。另外還有一類數(shù)據(jù),其即可以計(jì)算百分比,也可以計(jì)算平均值,比如問卷研究中的滿意度,數(shù)字1代表非常不滿意,數(shù)字2代表比較不滿意,數(shù)字3代表中立,數(shù)字4代表比較滿意,數(shù)字5代表非常滿意。這類數(shù)據(jù)可以計(jì)算各項(xiàng)的百分比,也可以計(jì)算平均值。具體此類數(shù)據(jù)如何應(yīng)用,可結(jié)合實(shí)際情況進(jìn)行即可,但通常的偏好是,如果可以看作為定量數(shù)據(jù),則按照定量數(shù)據(jù)情況進(jìn)行即可。
在基本的數(shù)據(jù)類型確認(rèn)之后,接下來再討論下數(shù)據(jù)研究的一些關(guān)系情況。如果是初學(xué)數(shù)據(jù)分析,常規(guī)的路徑可能是開始理解數(shù)據(jù)算法的原理,然后就懂一個(gè)就去,接著再學(xué)習(xí)另外一個(gè)算法。這種方法是常規(guī)教科書式的學(xué)習(xí)路徑,非常慢而且容易出現(xiàn)一個(gè)問題即懂了理論無法進(jìn)行實(shí)踐。

數(shù)據(jù)分析是挖掘數(shù)據(jù)間的關(guān)系情況,發(fā)現(xiàn)潛在的數(shù)據(jù)規(guī)律,找出數(shù)據(jù)后面潛在的商業(yè)價(jià)值等。本人將數(shù)據(jù)間的關(guān)系歸納匯總為以下三類。第一是差異關(guān)系;第二是相關(guān)關(guān)系。第三是其它關(guān)系。
第一類差異關(guān)系通常是研究不同類別的差異性,提到了不同類別,那就涉及到定性數(shù)據(jù),差異關(guān)系可以包括定性和定量數(shù)據(jù)的差異性,定性和定性數(shù)據(jù)的差異性。自然地也就對(duì)應(yīng)到幾類研究方法。
第二類為相關(guān)關(guān)系。比如越如何越如何之類的關(guān)系。包括相關(guān)關(guān)系,還有影響關(guān)系等。X對(duì)于Y的影響關(guān)系情況如何等,此時(shí)影響關(guān)系又拆分出幾種分析算法。
當(dāng)然還有其它關(guān)系,比如數(shù)據(jù)的濃縮,聚類。此時(shí)又分涉及到對(duì)應(yīng)的研究方法。
在進(jìn)行數(shù)據(jù)研究時(shí),首先需要想到的是“我想做什么?“,來回就只有三種關(guān)系,那么這種關(guān)系有著明顯的區(qū)分性,對(duì)應(yīng)確認(rèn)關(guān)系情況,加上數(shù)據(jù)類型的判斷,對(duì)應(yīng)就會(huì)找出合理的數(shù)據(jù)研究方法。接下來一一概述。

上面兩部分分別講述了數(shù)據(jù)類型和數(shù)據(jù)關(guān)系情況。接著需要落地,即研究方法的使用。按照上一部分的思路,即三類關(guān)系情況進(jìn)行闡述。
第一類為差異關(guān)系。
1、定性和定性數(shù)據(jù)差異關(guān)系。比如性別和專業(yè)的差異關(guān)系,不同性別人群專業(yè)偏好上有沒有差異呢?此時(shí)應(yīng)該用卡方分析。
2、定性和定量數(shù)據(jù)差異關(guān)系。比如性別和身高的差異關(guān)系,不同性別人群身高有沒有明顯的差異性呢?此時(shí)應(yīng)該用方差分析或者T檢驗(yàn)。至于方差分析和T檢驗(yàn)的區(qū)別上,比如性別為兩類,則可以使用方差分析或者T檢驗(yàn);比如研究城市和身高的關(guān)系,一線,二線或者三線城市人群他們的身高有沒有明顯差異性。比較了三組人群,這時(shí)候只能用方差分析,不能用T檢驗(yàn)。因?yàn)榉讲罘治隹梢詫?duì)比多組,而T檢驗(yàn)只能對(duì)比兩組。
3、定量數(shù)據(jù)和定量數(shù)據(jù)的差異。有時(shí)候做實(shí)驗(yàn),比如新型教學(xué)方式的使用,在使用前和使用后,學(xué)生成績有沒有明顯的變化呢?此時(shí)則應(yīng)該使用配對(duì)T檢驗(yàn)。配對(duì)T檢驗(yàn)通常都是用于實(shí)驗(yàn)研究中,使用時(shí)相對(duì)需要注意下。
4、定量數(shù)據(jù)和數(shù)字的差異。比如中國人的平均身高是否明顯的高于1.70。定量數(shù)據(jù)和一個(gè)數(shù)字的差異性,此時(shí)應(yīng)該用單樣本T檢驗(yàn)。
當(dāng)然還有其它一些研究方法,但先從基礎(chǔ)的開始,懂了這些方法后,再逐一深入學(xué)習(xí)。明白了這幾類差異關(guān)系,事實(shí)上已經(jīng)理解一部分?jǐn)?shù)據(jù)分析。比如差異關(guān)系研究時(shí)有時(shí)候會(huì)有非參數(shù)檢驗(yàn),這類研究都是和正態(tài)性,方差齊這兩個(gè)名詞緊密相關(guān),后續(xù)的文章再慢慢剖析。
第二類為相關(guān)關(guān)系。
定量和定量數(shù)據(jù)的相關(guān)關(guān)系。比如身高和體重之間有沒有關(guān)系?此時(shí)則應(yīng)該使用相關(guān)分析。至于相關(guān)分析,又可以再細(xì)分為pearson和spearman相關(guān),這兩類關(guān)系是結(jié)合數(shù)據(jù)正態(tài)性情況而定,正常情況下都默認(rèn)使用pearson相關(guān)分析。
1、影響關(guān)系情況(X對(duì)Y的影響,Y為定量數(shù)據(jù))。比如研究學(xué)歷,年齡,收入,滿意度等對(duì)于消費(fèi)金額的影響。此時(shí)一般是使用回歸分析,或者更多稱作是線性回歸分析。也有時(shí)候會(huì)使用到非線性回歸分析,但這種情況相對(duì)較少。線性回歸分析也可以再細(xì)分為2類,簡單線性(一元線性)和多元線性,研究X對(duì)Y的影響,如果X僅為1個(gè)則稱作簡單線性(一元線性);如果X為多個(gè),此時(shí)稱作多元線性回歸分析。如果Y的個(gè)數(shù)超過1個(gè),可以多進(jìn)行幾次回歸就好,更復(fù)雜的可以使用結(jié)構(gòu)方程模型進(jìn)行研究。線性回歸時(shí)X可以為定性數(shù)據(jù)也可以為定量數(shù)據(jù),如果是定性數(shù)據(jù)則需要進(jìn)行虛擬變量(啞變量)設(shè)置。
2、影響關(guān)系情況(X對(duì)Y的影響,Y為定類數(shù)據(jù))。比如研究學(xué)歷,年齡,收入,滿意度等對(duì)于是否購買IPHONE X的影響。此時(shí)應(yīng)該使用logistic回歸分析。線性回歸和logistic回歸的區(qū)別在于,線性回歸時(shí),Y為定量數(shù)據(jù);logistic回歸分析時(shí),Y是定類數(shù)據(jù)。當(dāng)然logistic回歸又區(qū)分為三類,分別是二元logistic回歸,有序logistic回歸,無序logistic回歸;區(qū)別在于如果Y僅分為兩類,比如愿意不愿意,購買不購買,喜歡不喜歡,此時(shí)Y只有2個(gè)類別則叫做二元logistic回歸,此方法的使用頻率非常高。比如Y分為三組分別是不喜歡,喜歡和喜歡,此時(shí)使用有序logistic回歸(其實(shí)使用線性回歸也是可以的,只是我們這里把Y當(dāng)成是定類數(shù)據(jù)所以使用有序logistic回歸而已);無序logistic回歸時(shí),Y一定是絕對(duì)的定性數(shù)據(jù),比如出行方式的偏好(自行車,公共汽車,地鐵,自駕),此時(shí)用無序logistic回歸即可。
第三類為其它關(guān)系。
實(shí)際情況中還會(huì)有比如數(shù)據(jù)的濃縮,樣本的聚類等研究。
1、數(shù)據(jù)濃縮:比如說了20句話,是否可以把20句話概括歸納成4個(gè)詞語表示呢?此時(shí)就應(yīng)該用到數(shù)據(jù)濃縮,即使用因子分析(也或者主成分分析);以及記住,數(shù)據(jù)濃縮時(shí),數(shù)據(jù)一定是定量數(shù)據(jù)。
2、樣本聚類:比如游戲里面分了幾種角色,游戲數(shù)據(jù)分析人員希望對(duì)收集到了1萬個(gè)樣本分成幾類,便于進(jìn)行游戲里面的角色定位。此時(shí)則需要使用聚類分析。
上述的方法選擇,分別與數(shù)據(jù)關(guān)系,或者數(shù)據(jù)類型間的關(guān)聯(lián)性思路。事實(shí)上與網(wǎng)頁在線版本的SPSSAU(http://www.spssau.com),完全如出一轍。spssau即是使用這樣的思路進(jìn)行產(chǎn)品設(shè)計(jì)。確定好數(shù)據(jù)類型,理解了數(shù)據(jù)關(guān)系情況,即可選擇出正確的數(shù)據(jù)研究方法。

如果已經(jīng)理解了數(shù)據(jù)類型,數(shù)據(jù)關(guān)系,并且選擇了正確的數(shù)據(jù)研究方法。最終無非是把數(shù)據(jù)研究方法得出的結(jié)論進(jìn)行匯總整理,然后寫成有邏輯性的報(bào)告,并且在結(jié)論基礎(chǔ)上對(duì)應(yīng)提出有意義有價(jià)值的建議措施等。
關(guān)于數(shù)據(jù)報(bào)告的撰寫,單獨(dú)從數(shù)據(jù)分析角度上看,建議以實(shí)際需求出發(fā),比如研究差異關(guān)系,那么首先得需要知道有沒有差異,接著有了差異,具體差異情況如何。有了差異或者沒有差異時(shí),對(duì)應(yīng)的建議措施應(yīng)該如何。按照這樣的思路,相信數(shù)據(jù)研究報(bào)告的撰寫并非難事。
如果是對(duì)具體數(shù)據(jù)研究方法的結(jié)論撰寫有困難,建議也可以直接使用spssau進(jìn)行分析,直接參考里面的智能文字分析即可。以及需要特別注意在于,數(shù)據(jù)研究結(jié)論對(duì)應(yīng)有什么意義,價(jià)值在哪里,對(duì)實(shí)際商業(yè)的價(jià)值或者指導(dǎo)在哪里?這才是重點(diǎn)。