統計科學產生
⑴ 統計學是一門什麼科學
統計學是在資料分析的基礎上,研究測定、收集、整理、歸納和分析反映數據資料,以便給出正確消息的科學。
這一門學科自17世紀中葉產生並逐步發展起來,它廣泛地應用在各門學科,從自然科學、社會科學到人文學科,甚至被用於工商業及政府的情報決策。隨著大數據時代來臨,統計的面貌也逐漸改變,與信息、計算等領域密切結合,是數據科學中的重要主軸之一。
譬如自一組數據中,可以摘要並且描述這份數據的集中和離散情形,這個用法稱作為描述統計學。另外,觀察者以數據的形態,創建出一個用以解釋其隨機性和不確定性的數學模型,以之來推論研究中的步驟及總體,這種用法被稱做推論統計學。
這兩種用法都可以被稱作為應用統計學。數理統計學則是討論背後的理論基礎的學科。
(1)統計科學產生擴展閱讀:
統計學家通過專門的試驗設計和調查樣本來提升數據質量。統計學自身也為數據的概率模型提供了預測工具。統計學在其他學術科目上得到了廣泛的應用,如自然科學、社會科學、政府、商業等。統計顧問可以幫助沒有入戶調查經驗組織與公司進行問卷研究。
總結敘述收集來的數據被稱之為描述統計學。這在進行實驗研究信息交流中十分有用。另外,從數據的分布上也可以得出觀測上的隨機性和不確定性。
⑵ 統計學的發展史是什麼
「統計」一詞,英語為statistics,用作復數名詞時,意思是統計資料,作單數名詞時,指的是統計學。一般來說,統計這個詞包括三個含義:統計工作、統計資料和統計學。這三者之間存在著密切的聯系,統計資料是統計工作的成果,統計學來源於統計工作。原始的統計工作即人們收集數據的原始形態已經有幾千年的歷史,而它作為一門科學,還是從17世紀開始的。英語中統計學家和統計員是同一個(statistician),但統計學並不是直接產生於統計工作的經驗總結。每一門科學都有其建立、發展和客觀條件,統計科學則是統計工作經驗、社會經濟理論、計量經濟方法融合、提煉、發展而來的一種邊緣性學科。
1,關於單詞statistics
起源於國情調查,最早意為國情學。
十 七世紀,在英格蘭人們對「政治算術」感興趣。1662年,John Graunt發表了他第一本也是唯一一本手稿,《natural and politics observations upon the bills of mortality》, 分析了生男孩和女孩的比例,發展了現在保險公司所用的那種類型的死亡率表。
英文的statistics大約在十八世紀中葉由德國學者 Gottfried Achenwall所創造,是由狀態status和德文的政治算術聯合推導得出的,第一次由John Sinclair所使用,即1797年出現在Encyclopaedia Britannica。(早期還有一個單詞publicitics和statistics競爭「統計」這一含義,如果得勝,現在就開始流行 publicitical learning了)。
2,關於高斯分布或正態分布
1733年,德-莫佛(De Moivre)在給友人分發的一篇文章中給出了正態曲線(這一歷史開始被人們忽略)
1783年,拉普拉斯建議正態曲線方程適合於表示誤差分布的概率。
1809年,高斯發表了他的關於天體運行論的偉大著作,在這一著作的第二卷第三節中,他導出正態曲線適宜於表示誤差規律,同時承認拉普拉斯較早的推導。
正態分布在十九世紀前葉因高斯的工作而加以推廣,所以通常稱作高斯分布。卡爾-皮爾遜指出德-莫佛是正態曲線的創始人,第一個稱它為正態分布,但人們仍習慣稱之高斯分布。
3,關於最小二乘法
1805年,Legendre提出最小二乘法,Gauss聲稱自己在1794年用過,並在1809年基於誤差的高斯分布假設,給出了嚴格推導。
4,其它
在十九世紀中葉,三個不同領域產生的重要發展都是基於隨機性是自然界固有的這個前提上的。
阿道夫·凱特萊特(A. Quetlet,1869)利用概率性的概念來描述社會學和生物學現象(正態曲線從觀察誤差推廣到各種數據)
孟德爾(G.Mendel,1870)通過簡單的隨機性結構公式化了他的遺傳法則
玻爾茲曼(Boltzmann,1866)對理論物理中最重要的基本命題之一的熱力學第二定律給出了一個統計學的解釋。
1859 年,達爾文發表了《物種起源》,達爾文的工作對他的表兄弟高爾登爵士有深遠影響,高爾登比達爾文更有數學素養,他開始利用概率工具分析生物現象,對生物計 量學的基礎做出了重要貢獻(可以稱他為生物信息學之父吧),高爾登爵士是第一個使用相關和回歸這兩個重要概念的人,他還是中位數和百分位數這種概念的創始 人。
受高爾登工作影響,在倫敦的大學學院工作的卡爾-皮爾遜開始把數學和概率論應用於達爾文進化論,從而開創了現代統計時代,贏得了統計之父的稱號,1901年Biometrika第一期出版(卡-皮爾遜是創始人之一)。
5,關於總體和樣本
在早期文獻中可找到由某個總體中抽樣的明確例子,然而從總體中只能取得樣本的認識常常是缺乏的。 ----K.皮爾遜時代
到十九世紀末,對樣本和總體的區別已普遍知道,然而這種區分並不一定總被堅持。----1910年Yule在自己的教科書中指出。
在 1900年代的早期,區分變的更清楚,並在1922年被Fisher特別強調。----Fisher在1922年發表的一篇重要論文中《On the mathematical foundation of theoretical statistics》,說明了總體和樣本的聯系和區別,以及其他概念,奠定了「理論統計學」的基礎。
6,期望、標准差和方差
期望是一個比概率更原始的概念,在十七世紀帕斯卡和費馬時代,期望概念已被公認了。K.皮爾遜最早定義了標准差的概念。1918年,Fisher引入方差的概念。
力學中的矩和統計學中的中數兩者之間的相似性已被概率領域的早期工作者注意到,而K.皮爾遜在1893年第一次在統計意義下使用「矩」。
7,卡方統計量
卡方統計量,是卡-皮爾遜提出用於檢驗已知數據是否來自某一特定的隨機模型,或已知數據是否與已給定的假設一致。卡方檢驗被譽為自1900年以來在科學技術所有分支中20個尖端發明之一,甚至敵人Fisher都對此有極高評價。
8,矩估計與最大似然
卡-皮爾遜提出了使用矩來估計參數的方法。
Fisher則在1912年到1922年間提出了最大似然估計方法,基於直覺,提出了估計的一致性、有效性和充分性的概念。
9,概率的公理化
1933年,前蘇聯數學家柯爾莫格洛夫(Kolmogorov)發表了《概率論的基本概念》,奠定了概率論的嚴格數學基礎。
10,貝葉斯定理
貝葉斯對統計學幾乎沒有什麼貢獻,然而貝葉斯的一篇文章成為貝葉斯學派統計學的思想模式的焦點,這一篇文章發表於1763年,由貝葉斯的朋友、著名人壽保險原理的開拓者Richard Price在貝葉斯死後提出來的----貝葉斯定理。
概 率思想的兩種方法,(1)作為一個物理系統內在的一種物理特性,(2)對某一陳述相信程度的度量。 在1950年代後期止,多數統計學家採取第一種觀點,即概率的相對頻數解釋,這一時期貝葉斯定理僅應用在概率能在頻數框架內解釋的場合。貝葉斯統計學派著 作的一個浪潮始於1960年。自此,贊成和反對貝葉斯學派統計的兩方以皮爾遜和費舍爾所特有的激情和狂怒進行申辯和爭辯。
在1960年以前,幾乎所有的統計書刊都避免使用貝葉斯學派方法,Fisher堅持避免使用貝葉斯定理,並在他的最後一本書中再一次堅決的拒絕了它。卡爾-皮爾遜偶然使用,總的來說是避免的。奈曼和E.S.皮爾遜在他們有關假設檢驗的文章中堅決反對使用。
⑶ 統計學經歷了一個什麼樣的產生,發展過程,又將去向何處
統計學的歷史與今天——《社會統計學與數理統計學的統一》理論
統計學是一門通過搜索、整理、分析數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。其中用到了大量的數學及其它學科的專業知識,它的使用范圍幾乎覆蓋了社會科學和自然科學的各個領域。
據權威統計學史記載,從17世紀開始就有了「政治算術」、「國勢學」,即初級的社會統計學,起源於英國、德國。幾乎同時在義大利出現了「賭博數學」,即初級的概率論。直到19世紀,由於概率論出現了大數定理和誤差理論,才形成了初級的數理統計學。
也就是說,社會統計學的形成早於數理統計學兩個世紀。
由於社會統計學廣泛地用於經濟和政治,所以得到各國歷屆政府的極大重視,並得到系統的發展。而數理統計在20世紀40年代以後,由於概率論的發展,而得到飛速發展。經過近400年的變遷,目前世界上已形成社會統計學和數理統計學兩大體系。兩體系爭論不休,難分伯仲。
王見定教授經過30年的學習與研究,發現了社會統計學與數理統計學的聯系與區別。它們的關系與著名牛頓力學與相對論力學關系非常相似。
相對論力學在接近光速時使用,而大多數情況下是遠離光速的,此時使用牛頓力學既准確又方便。如果硬套相對論力學,則是殺雞用了宰牛刀,費力不討好。社會統計學在描寫變數時使用,數理統計學在描寫隨機變數時使用。
我們知道變數與隨機變數是既有聯系又有區別的。當變數取值的概率不是1時,變數就變成了隨機變數;當隨機變數取值的概率為1時,隨機變數就變成了變數。
變數與隨機變數的聯系與區別搞清楚了,社會統計學與數理統計學的關系就搞清楚了。以後,在描述變數時,大膽地使用社會統計學;在描述隨機變數時,就用數理統計學。如果在描述變數時非用數理統計學,那就是殺雞用了宰牛刀。
近70年,由於數理統計學的飛速發展,大有「吃掉」社會統計學的勢頭,尤其是以美國為代表的發達國家,幾乎認為統計學就是數理統計學。實際上,這是一個極大的誤區。王見定教授的研究已經說明了數理統計學永遠「吃不掉」社會統計學,今後的日子,將是社會統計學與數理統計學的共存與互補。
⑷ 統計學的發展
統計學的產生與發展
(一)政治算術學派
最早的統計學源於17世紀英國的政治算術。其代表人物是威廉.配第(William Patty,1623—1687年) 。威廉·佩第在《政治算術》(1676年)一書中,寫到:本書「不用比較級、最高級進行思辨或議論,而是用數字……來表達自己想說的問題……藉以考察在自然中有可見的根據的原因。」 政治算術學派主張用大量觀察和數量分析等方法對社會經濟現象進行研究的主張,為統計學的發展開辟了廣闊的前景。
(二)國勢學派
最早使用「統計學」這一術語的是德國國勢學派的阿亨瓦爾(G.Achenwall,1719-1772)。國勢學派雖然創造了統計學這一名詞,但他們主要使用文字記述的方法對國情國力進行研究,其學科內容與現代統計學有較大的差別。
(三)社會統計學派
1850年,德國的統計學家克尼斯(K.G.A.knies)發表了題為《獨立科學的統計學》的論文,提出統計學是一門獨立的社會科學,是一門對社會經濟現象進行數量對比分析的科學,他主張以「國家論」作為國勢學的科學命名,而以「統計學」作為「政治算術」的科學命名。 在德國、日本和前蘇聯,社會統計學派都曾有相當大的影響。
各國學者在社會經濟統計指標的設定與計算、指數的編制、資料的收集與整理、統計調查的組織和實施、經濟社會的數量分析和預測等方面做出的貢獻已成為現代統計學的重要組成部分。例如, 「恩格爾系數」,至今仍為人們廣泛使用。國民收入和國內生產總值的核算方法被稱為「20世紀最偉大的發明之一。」
(四)數理統計學派
創始人是比利時統計學家凱特勒(Adolphe Quetelet,1796—1874年)。他所著的代表作《概率論書簡》、《社會物理學》等將概率論和統計方法引入社會經濟方面的研究。
在學科性質上,凱特勒認為統計學是一門既研究社會現象又研究自然現象的方法論科學。
從19世紀中葉到20世紀中葉,數理統計學得到迅速發展。
英國生物學家高爾頓提出並闡述了「相關」的概念;
皮爾遜提出了計算復相關和偏相關的方法。
戈塞特建立了「小樣本理論」,即所謂的「t分布」;
費歇 樣本相關系數的分布、方差分析、實驗設計等方面的研究中做出了重要貢獻。到20世紀中期,數理統計學的基本框架已經形成。
數理統計學派成為英美等國統計學界的主流。
歷經300多年的發展,統計學目前已經成為橫跨社會科學和自然科學領域的多科性的科學。
「統計學是有關如何測定、收集和分析反映客觀現象總體數量的數據,以便給出正確認識的方法論科學。」從橫向看,各種統計學都具有上述共同點,因而能夠形成一個學科「家族」。從縱向看,統計學方法應用於各種實質性科學,同它們相結合,產生了一系列專門領域的統計學。
由此可見,現代統計學可以分為兩大類:一類是以抽象的數量為研究對象,研究一般的收集數據、整理數據和分析數據方法的理論統計學。另一類是以各個不同領域的具體數量為研究對象的應用統計學。
⑸ 統計學的產生與發展是怎樣的
17世紀以後
⑹ 統計學誕生的標志
統計學誕生背景
統計學的誕生在於科學家們另闢蹊徑,放棄了通過演繹歸納去建立社會科學的方法,這種新方法始於對事件狀態的分析。
舉例來說,下雨時,我們無法精準地構建雨滴從空中是按照何種曲線下落、落地後會變成什麼形狀、之後多少會滲透地底的模型……如果只有一滴水,我們或許可以進行建模計算。但若是有無數水滴,水滴相互之間還會由於萬有引力而互相作用。光是想一想,就會發現若是採用演繹推理法,從水滴的起始狀態計算預測它的結尾狀態,這中間的復雜度就不是腦力所能承受的了。
那要如何解決呢?方法就是我們放棄研究水滴的中間狀態,根據我們的需要只去統計測量它產生的結果,如每小時降雨量,這一結果才是對我們真正有用的。由此,對社會科學的研究從精確演繹物質狀態向統計分析現象結果轉變,但真正標志統計科學誕生的是威廉配第《政治算術》的問世。
威廉配第
威廉配第(William Petty,1623-1687)是英國古典政治經濟學之父,統計學創始人。當初在研究政治經濟學時有涉獵過他的《賦稅論》理論,但對其統計學貢獻所知甚少,這次狠狠補習了下功課。配第也如那個年代的科學家一樣均是涉獵廣泛、博聞強識,他同時還是一位解剖學和音樂教授,後來成為了軍醫。馬克思對他的人品是很憎惡的,說他是個「十分輕浮的外科軍醫」,但對他的經濟思想仍是給予了極高評價。
配第在統計學方面的主要貢獻是他堅持認為社會科學必須像物理科學一樣定量化,他給統計學這門剛起步的科學命名為「政治算術」,也就是說是用數字處理與政府相關問題的推理藝術。事實上,他認為所有的政治經濟學內容都是統計學的一個分支。
威廉配第
統計學困境
初生的統計學更多的是一種描述統計學,如計算平均數、眾數、中位數等等,和我們現在數據分析所搭建的BI界面是一個原理,它只是對量化數據中隱藏的信息進行了很淺的挖掘。雖然這在當時已是一個極大的進步,但社會科學的要求必然不止於此。社會科學首先要求統計學對於每一個術語都能有精確的定義,這也就是我們現在的指標體系;其次,也希望統計學能對統計出來的結論有合理的解釋。
例如,在政府統計失業情況時,要如何定義失業就是比較難的事,解釋失業率為什麼會上升或是下降也是讓統計學充滿了困難。這是很自然的,因為初生的統計學不明白事物間的因果關系,也還沒有創造相關的概念,它自然無法很好地解釋它的結論。引用《大美網路全書》對於統計學的定義:「作為一個研究領域,統計學是關於收集和分析數據的科學與藝術,其目的是為了對一些不確定的事物進行較為准確的判斷。」按照這個標准,初生的統計學只有小學水平。
但統計學在當時所面臨的困難卻有意無意地被忽略,也同時由於統計數據還招致很多人的濫用、造假,導致統計學的名聲並不太好。曾兩度出任英國首相的本傑明·迪斯雷利就這樣說道,「世界上有三種謊言:謊言、彌天大謊,還有統計數據。」這句名言因為馬克吐溫的引用也就廣泛流傳下來了。
統計學出路
真正將統計學從困境中解救出來,讓其能夠成為揭示事物內在規律、所有科學的一般性研究方法的援手是概率論的引進,概率論讓其有了堅實的數學基礎,從而才能夠真正成為一種世界觀!
⑺ 統計學是如何誕生的
英國地質學家萊伊爾根據各個地層中的化石種類和現在仍在海洋中生活的種類作出百分率,然後定出更新世、上新世、中新世、始新世的名稱,並於1830-1833年出版了三卷《地質學原理》。這些地質學中的名稱沿用至今,可是他使用的類似於現在數理統計的方法,卻沒有引起人們的重視。
生物學家達爾文關於進化論的工作主要是生物統計方面的,他在乘坐「貝格爾號」軍艦到美洲的旅途上帶著萊伊爾的上述著作,兩者看來不無關系。
從數學上對生物統計進行研究的第一人是英國統計學家皮爾遜,他曾在劍橋大學數學系學習,然後去德國學物理,1882年任倫敦大學應用數學力學教授。
1891年,他和劍橋大學的動物學家討論達爾文自然選擇理論,發現他們在區分物種時用的數據有「好」和「比較好」的說法。於是皮爾遜便開始潛心研究數據的分布理論,他借鑒前人的做法,並大膽創新,其研究成果見諸於著作《機遇的法則》。其中提出了「概率」和「相關」的概念。接著又提出「標准差」、「正態曲線」、「平均變差」、「均方根誤差」等一系列數理統計的基本術語。這些文章都發表在進化論的雜志上。
直至1901年,他創辦了雜志《生物統計學》,使得數理統計有了自己的陣地。這可以說是數學在進入20世紀初時的重大收獲之一。
⑻ 統計的起源是什麼,歷史來源
統計一詞起源於國情調查,最早意為國情學。統計語源最早出現於中世界拉丁語的Status,意思指各種現象的狀態和狀況。由這一語根組成義大利語Stato,表示「國家」的概念,也含有國家結構和國情知識的意思。
根據這一語根,最早作為學名使用的「統計」,是 在十八世紀德國政治學教授亨瓦爾(G.Achenwall)在1749年所著《近代歐洲各國國家學綱要》一書緒言中,把國家學名定為「Statistika」(統計)這個詞。原意是指「國家顯著事項的比較和記述」或「國勢學」,認為統計是關於國家應注意事項的學問。
此後,各國相繼沿用「統計」這個詞,並把這個詞譯成各國的文字,法國譯為Statistique,義大利譯為Statistica,英國譯為Statistics,日本最初譯為「政表」、「政算」、「國勢」、「形勢」等,直到1880年在太政官中設立了統計院,才確定以「統計」二字正名。
1903年(清光緒廿九年)由鈕永建、林卓南等翻譯了四本橫山雅南所著的《統計講義錄》一書,把「統計」這個詞從日本傳到我國。1907年(清光緒卅三年)彭祖植編寫的《統計學》在日本出版,同時在國內發行,這是我國最早的一本「統計學」書籍。「統計」一詞就成了記述國家和社會狀況的數量關系的總稱。
(8)統計科學產生擴展閱讀
在實際應用中,人們對統計一詞的理解一般有三種涵義:統計工作、統計資料和統計科學:
(1)統計工作。
指利用科學的方法搜集、整理和分析和提供關於社會經濟現象數量資料的工作的總稱,是統計的基礎。也稱統計實踐,或統計活動,是在一定統計理論指導下,採用科學的方法,搜集、整理、分析統計資料的一系列活動過程。
它是隨著人類社會的發展、治國和管理的需要而產生和發展起來的,至今已有四五千年的歷史。現實生活中,統計工作作為一種認識社會經濟現象總體和自然現象總體的實踐過程,一般包括統計設計、統計調查、統計整理和統計分析四個環節。
(2)統計資料。
指通過統計工作取得的、用來反映社會經濟現象的數據資料的總稱。統計工作所取得的各項數字資料及有關文字資料,一般反映在統計表、統計圖、統計手冊、統計年鑒、統計資料匯編和統計分析報告中。也稱統計信息,是反映一定社會經濟現象總體或自然現象總體的特徵或規律的數字資料、文字資料、圖表資料及其他相關資料的總稱。
包括剛剛調查取得的原始資料和經過一定程度整理、加工的次級資料,其形式有:統計表、統計圖、統計年鑒、統計公報、統計報告和其他有關統計信息的載體。
(3)統計科學。
也稱統計學,是統計工作經驗的總結和理論概括,是系統化的知識體系。指研究如何搜集、整理和分析統計資料的理論與方法。統計學是應用數學的一個分支,主要通過利用概率論建立數學模型,收集所觀察系統的數據,進行量化的分析、總結,並進而進行推斷和預測,為相關決策提供依據和參考。它被廣泛的應用在各門學科之上,從物理和社會科學到人文科學,甚至被用來工商業及政府的情報決策之上。