前言:本站為你精心整理了社會科學實證統(tǒng)計方法應用范文,希望能為你的創(chuàng)作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。
統(tǒng)計學的應用隨著微型計算機的普及越來越廣泛,在社會科學實證研究中幾乎是無處不在。有了一定規(guī)模的數(shù)據(jù)和一個統(tǒng)計分析軟件,就可以很方便地進行各種估算和分析。然而由于統(tǒng)計分析方法本身并不像加減乘除那樣簡單,而一些統(tǒng)計分析軟件已經(jīng)發(fā)展到幾乎是人人都可使用的程度,如果使用者在只知其然不知其所以然的情況下操作并得到結果,可能出現(xiàn)對統(tǒng)計分析方法誤用或濫用的現(xiàn)象。本文僅對一些統(tǒng)計分析中比較常見的問題進行討論,以引起各方面的重視。
1描述性統(tǒng)計
描述性統(tǒng)計是社會科學實證研究中最常用的方法。準確、全面、正確的描述是所有實證分析的基礎,如果對某個事件或某種現(xiàn)象的描述不清楚或存在偏差,那么其后的所有分析都將是值得懷疑的。一項研究能夠將所研究的現(xiàn)象或對象描述清楚,就是一個極大的貢獻;而描述的偏差可能會引起公眾或學術界對某些社會現(xiàn)象的誤解,甚至誤導政府決策。但是因為描述性統(tǒng)計所用方法簡單易得,往往沒有得到足夠的重視。
均值的局限普遍用于描述樣本集中趨勢的測量之一是均值。它對于近似正態(tài)的對稱分布樣本來說是比較好的測量,對于不對稱分布則不然,尤其會受到極端值的影響。兩個分布完全不同的樣本可能會有相同的均值,因此均值在某種程度上抹殺了樣本內部的差異,而往往這種內部差異正是需要我們進行深入研究的、或應當引起人們注意的。為了彌補均值的這個缺陷,一般在報告均值的同時也報告方差,或用直方圖/散點圖的形式描述分布,以提請讀者注意群體內部的差異。
不同群體的可比性在描述性統(tǒng)計中,往往涉及到對不同時期或不同人群的總體描述,以反映社會變化或地區(qū)差異。在社會科學中、尤其是人口研究中,不少事件的發(fā)生都是與年齡密切相關的,如我國婦女大部分在35歲以前完成了生育,從而導致35歲以上育齡婦女中極高的避孕現(xiàn)用率。在這種情況下,兩個樣本之間存在避孕現(xiàn)用率的差異可能只是年齡結構的差異,而不是年齡別避孕現(xiàn)用率的差異。又如在報告流動人口犯罪問題時,給人的印象往往是流動人口犯罪率高于常住人口,但忽視了流動人口的年齡和性別構成與常住人口完全不同,且青年男性是犯罪率較高的人群。這種對兩個不同群體的比較往往會導致錯誤的結論。
絕對數(shù)的使用由于中國人口數(shù)量巨大,調查研究也比較容易得到大容量的樣本,所以對任何小概率事件用絕對數(shù)報告都會出現(xiàn)驚人的巨大數(shù)字,單純對絕對數(shù)的強調往往會產生戲劇性的效果。比較合理的方式一般是在報告某事件絕對數(shù)的同時,給出該事件的發(fā)生率或占研究人群的比例。
小樣本的代表性在一次抽樣的小樣本中求得的率或比例會非常不穩(wěn)定,與另一次抽樣的結果可能會有較大差距。因此當研究僅限于從小樣本獲得的資料時,應當在報告比例的同時也報告樣本量。
2雙變量統(tǒng)計分析
在社會科學研究中,首先分析的往往是兩個變量之間的關系,如用相關或列聯(lián)表等方法。一般在確定兩個變量之間確實有某種關系,如在經(jīng)過統(tǒng)計檢驗后證實兩變量有顯著相關關系,進行更進一步的分析才有意義。因此,雙變量統(tǒng)計分析在實證分析中占有重要地位。但是,由于在應用中對有些問題的忽視,雙變量統(tǒng)計分析也很容易出現(xiàn)偏差或錯誤。
卡方檢驗的局限在利用列聯(lián)表對兩個定序/定類變量進行相關分析時,需要進行統(tǒng)計檢驗來判斷兩個變量的相關是否有統(tǒng)計上的顯著意義。不少研究結果都用卡方檢驗的顯著性報告相關狀況。但值得注意的是,卡方統(tǒng)計量的計算本身是有局限性的,樣本越大,卡方值就會相應增大,因此大樣本的卡方檢驗很容易得到顯著結果。所以一般在報告卡方檢驗結果以說明兩變量是否顯著相關時,還應當同時報告相關強度,即相應的相關系數(shù),如Gamma,Lambda等。
統(tǒng)計意義上的顯著與差別的實際意義在檢驗兩個定距變量的均值差別是否具有統(tǒng)計上的顯著性時,也存在相似的問題。由于樣本量越大,樣本均值分布的方差就越小,因此常用的t檢驗結果就越可能顯著,任何細微的差別都可能有統(tǒng)計上的顯著性。但有時具有統(tǒng)計意義顯著性的差異,在實際生活中可能意義并不大,如同在兩個草堆之間找出一根草的差距,對判斷兩個草堆的大小沒有實際意義。因此,對任何檢驗結果都應當有符合實際的解釋和說明。
虛假相關問題雙變量分析中的虛假相關問題,幾乎在所有關于社會科學研究方法的教科書中都會涉及到,在統(tǒng)計分析方法的教學中也被視為經(jīng)典問題。但是多少年來,人們仍然在不斷地重復著這個“經(jīng)典的錯誤”,即認為可見的或統(tǒng)計檢驗結果顯著的相關就是真正的相關;更為大膽的做法是把這種相關關系推向因果關系。我們知道,對于有的變量來說,即使是經(jīng)過檢驗判定兩者具有統(tǒng)計上顯著的相關關系,也不一定存在實際意義上的關系,因為可能有未考慮到的變量或不可測量的變量在同時對兩個研究變量起作用,有時甚至可能完全是偶然的巧合。例如,火災的大小是以火災損失來衡量的,而參加滅火的消防員人數(shù)是與火災大小有關的,火災越大,出動的消防員就越多,但凡是具有常識的人都不會根據(jù)出動消防員人數(shù)和火災損失兩個變量之間的高度相關,斷定出動消防員越多火災損失就越大,因為火災的規(guī)模是決定因素(但很難直接衡量)。在有關人口科學研究中也有報告虛假相關的現(xiàn)象,如人口增長率的降低導致了經(jīng)濟增長的提法就是一例。因此,在分析相關關系時,應當根據(jù)理論、知識、經(jīng)驗、甚至常識來判斷這種分析是否有意義、是否存在其他變量的作用(稱為外在變量),避免得出有悖于常理的分析結果。有些虛假相關是可以通過統(tǒng)計分析方法判別的,如在控制了另外一些變量后觀察兩個變量的偏相關,或在雙變量分析的基礎上,進一步用多變量分析深入研究。
3多變量分析
回歸分析是多變量分析中應用最多的方法,尤其是邏輯斯蒂回歸更是被廣泛地應用。在眾多應用中,比較明顯的問題是使用方法是否得當和對結果的報告和解釋是否規(guī)范、合理(見2002年第2期《人口研究》劉金塘文)。此外還有一些應當引起注意的問題。
分析框架的重要性在社會科學研究中,各變量之間往往存在錯綜復雜的關系,如果在進行回歸分析之前沒有一個清晰合理的分析框架,那么回歸的結果有可能會引起質疑。一般應在報告回歸分析結果之前,介紹該分析的框架,如各變量的定義、各自變量與因變量的假設關系及其理由等,對建立的回歸模型做出合理性論證。有一些變量可能是作為控制變量納入回歸模型的,如性別、年齡等,最好事先解釋清楚。對假設因果關系的模型,應當至少能夠說明:(1)該因果關系在理論上是正確的、在實踐中是合理的;(2)從事件發(fā)生的時間上來說,應當是原因發(fā)生在先、結果發(fā)生在后。如有些回歸分析中,未加說明即把所有與因變量顯著相關的變量都囊括在自變量中,甚至有些自變量與因變量有明顯的互為因果關系,顯得分析邏輯混亂;還有的論文在簡單介紹研究背景和數(shù)據(jù)來源之后,急于建立因果關系并推出回歸分析結果,然后再根據(jù)各變量在回歸模型中的顯著性一一說明,這相當于事后解釋;這些做法都是錯誤的。
在具備“奔4”微機和較易操作的軟件的今天,轉瞬間就可完成一次回歸分析,但是在此之前,需要有大量的前期準備工作,包括文獻檢索和理論框架構建,才能確保統(tǒng)計分析的科學性。
分析方法應用的條件每種多變量方法都有各自的前提條件或假設,如果這些條件不具備或者假設不成立,該方法的應用就成問題。如Pearson相關是考察線性相關關系,多元方差分析只能辨別線性相關因變量的多元差異,線性回歸分析假設自變量與因變量之間為線性關系,因子分析方法也是建立在各變量具有一定的線性相關基礎之上的;另外,在邏輯斯蒂回歸中,每個分類都應保證有足夠的頻數(shù),如果頻數(shù)太少就會影響參數(shù)估計的穩(wěn)定性;等等。盡管一般不在報告分析結果時說明各種假設是否成立或條件是否滿足,但是在進行分析時應當自覺地進行考察。如果不能滿足條件或假設不能成立,就對數(shù)據(jù)進行轉換或調整后再分析,或者改變分析方法。
多變量分析結果的展示和解釋多變量分析的結果一般是通過列表來展示的?,F(xiàn)在一種并不少見的做法是直接把統(tǒng)計軟件的輸出直接復制到論文中,我們往往會在文章中看到包括回歸參數(shù)估計、參數(shù)標準差、檢驗統(tǒng)計值、檢驗顯著性、偏相關系數(shù)等等n行m列的大表,使人有目不暇接的感覺。實際上參數(shù)標準差和檢驗統(tǒng)計值是提供給分析者的信息,沒有必要列在結果中;如果不是有特別需要的話,偏相關系數(shù)也不是關注重點;最主要的應當是回歸參數(shù)估計及其顯著性。
在列出分析結果之后,應當對結果的實際意義進行解釋和討論,而不是復述分析結果的數(shù)學意義。此外,在多元統(tǒng)計分析中一個常見的問題是分析者對變量作用不具有預期統(tǒng)計顯著性的失望,因此繞開不顯著的變量,甚至對數(shù)據(jù)或模型進行各種調整以獲得顯著結果。其實,統(tǒng)計分析結果不顯著往往也是有實際意義的。例如在分析我國高齡老人的地區(qū)分布時發(fā)現(xiàn),高齡老人比例與當?shù)蒯t(yī)療衛(wèi)生指標沒有顯著關系,這說明我國醫(yī)療系統(tǒng)還沒有具備延長老人壽命的功能;另一方面也說明這些高齡老人的存活不是主要靠醫(yī)藥維持的。所以,在解釋分析結果時,只要是在分析框架中涉及并參與分析的變量,無論作用顯著與否,都應當給予充分的討論;對于那些由于知識或信息的限制難以下結論的結果,可以作為問題提出,以便進行更有針對性的進一步研究。
此外,任何方法都有其局限性,分析結果也不會十分完美。因此在討論結果的同時,也應當就此向讀者說明。例如當一個多元線性回歸分析的確定系數(shù)較低時,需要指出該模型有限的解釋能力,探討可能存在但沒有納入分析的更重要的影響因素。
不必求最新、只求最合適有些研究生在撰寫學位論文時,常常因為自己沒有應用最新的統(tǒng)計分析方法而感到忐忑不安;在評論某項研究的創(chuàng)新性時,有時也出現(xiàn)把學術創(chuàng)新和應用新方法混為一談的現(xiàn)象,例如認為應用描述性統(tǒng)計方法的研究水平低于應用解釋性或預測性方法的研究。新方法是層出不窮的。但是,出現(xiàn)了新方法并不意味著傳統(tǒng)方法就不再適用,而是各有千秋。統(tǒng)計分析方法是工具,哪件合適就用哪件,能用錘子解決的問題不必開沖床。有時越是復雜的方法,假設條件也會相應較多,應用的局限性更大。因此,盲目追求方法的新穎并不是高水平研究的保證,真正需要注意的是使用最合適的方法。而對所用方法的真正了解,是正確運用統(tǒng)計分析方法的前提。