《高等統(tǒng)計學》介紹高等統(tǒng)計學的基本概念、方法和理論,其內(nèi)容包括基本概念、點估計、統(tǒng)計決策與Bayes統(tǒng)計、假設檢驗、區(qū)間估計和置信域!陡叩冉y(tǒng)計學》著重闡述高等統(tǒng)計學的思想、概念和方法,盡量簡化公式推導和理論證明。此外,每章列舉一些典型例題,給出較詳細的解題方法和技巧,并有選擇地安排一些模擬計算和圖示。
《高等統(tǒng)計學》可以作為本科高年級學生或碩士研究生的教材,也可以作為科技工作者自學或查閱資料的參考書。
更多科學出版社服務,請掃碼獲取。
《高等統(tǒng)計學》可以作為本科高年級學生或碩士研究生的教材,也可以作為科技工作者自學或查閱資料的參考書。
第1章基本概念
本章主要介紹統(tǒng)計學中的基本概念,主要內(nèi)容包括統(tǒng)計模型與常用分布族、統(tǒng)計量及其分布、充分統(tǒng)計量、完備統(tǒng)計量、指數(shù)型分布族。這些內(nèi)容將為后面各章的學習提供幫助。
1.1統(tǒng)計模型與常用分布族
統(tǒng)計學方法和理論的研究是基于某個統(tǒng)計模型展開的,而對統(tǒng)計模型的討論涉及分布族。因此,統(tǒng)計模型與分布族在統(tǒng)計學中扮演著重要角色。本節(jié)首先引入統(tǒng)計模型的概念,然后介紹一些常用的分布族。
1.1.1統(tǒng)計模型
在開始學習統(tǒng)計學之前,首先要明白什么是統(tǒng)計學!洞笥倏迫珪返慕忉屖牵航y(tǒng)計學(Statistics)是一門收集與分析數(shù)據(jù),并且根據(jù)數(shù)據(jù)進行推斷的藝術與科學。按照上述對統(tǒng)計學的解釋,我們可以看出統(tǒng)計學有兩個主要任務:一是收集數(shù)據(jù);二是分析數(shù)據(jù),**個任務的內(nèi)容屬于統(tǒng)計學中的兩門課程抽樣調(diào)查和試驗設計;第二個任務需要利用各種統(tǒng)計方法來完成本書僅考慮第二個任務,即討論如何對已有的數(shù)據(jù)進行統(tǒng)計分析的問題。由于數(shù)據(jù)來源于自然和社會的各個方面,應用是統(tǒng)計學的一個十分重要的特征,但實際應用更需要理論為基礎。
因此,本書不但介紹統(tǒng)計學中的基本概念和方法,而且也涉及主要的統(tǒng)計理論。
在統(tǒng)計學中,數(shù)據(jù)是樣本的觀測值,數(shù)據(jù)分析的目的是利用樣本來對事物的某些未知方面進行統(tǒng)計推斷或預測。假定樣本X的一切可能取值為X,那么通常稱X為樣本空間,稱(X;B)為可測空間,其中B是X的某些子集構成的.域 .依X的分布而從X中隨機抽出的一個元素就是樣本對一維總體,容量為n的樣本X記為(X1;¢¢¢;Xn).,其中 \."表示向量或矩陣的轉(zhuǎn)置,此時樣本空間X是n維歐氏空間Rn或Rn的某個Borel子集,而取X的一切Borel子集作為 B.這樣的樣本空間稱為歐氏樣本空間對于k維總體,也可以作類似理解。有了這個約定,我們就不必在每個場合下對樣本空間進行說明了。
隨機變量X有一定的概率分布F.大家知道,在概率論中F是給定的,概率和數(shù)字特征的計算是在F已知的情況下進行的對統(tǒng)計學中的問題,F(xiàn)總是未知的,或僅知道其形式而其中含有未知參數(shù)。因此,我們可以把這個意思說成:F屬于某個分布族F.它在特定的統(tǒng)計問題中有具體的含義。當F是樣本分布時,F(xiàn)稱為樣本分布族;而當F是總體分布時,F(xiàn)則稱為總體分布族。二者統(tǒng)稱為分布族,但其含義有些差別。例如,如果總體eX有分布eF,從eX中抽取獨立同分布(iid)樣本X1;¢¢¢;Xn,則X=(X1;¢¢¢;Xn).有分布F=eF£¢¢¢£eF,它完全由eF所決定。我們可以把樣本X1;¢¢¢;Xn視為在完全同等的條件下對eX所作的n次獨立觀測值,此時通常把由eX的分布 eF所構成的集合稱為總體分布族,它決定了樣本X的分布族||樣本分布族。因此在這個特例下,總體分布族與樣本分布族有不同的含義。
樣本空間X、.域B和樣本分布族F構成了一個統(tǒng)計問題的三個基本要素。我們稱三元組(X;B;F)為統(tǒng)計模型。如果分布族F僅依賴于某一個參數(shù)(或參數(shù)向量)μ,則稱該模型為參數(shù)(統(tǒng)計)模型,并稱F為參數(shù)分布族。如果F中的分布不能用有限個參數(shù)來刻畫,則稱該模型為非參數(shù)(統(tǒng)計)模型,并稱F為非參數(shù)分布族。例如,設F1=fFμ: μ2£g,其中μ為參數(shù),£為參數(shù)空間,那么(X;B;F1)為參數(shù)模型,其中F1為參數(shù)分布族。又如,設F2=fF:F 為實數(shù)集R上的對稱分布g,那么(X;B;F2)為非參數(shù)模型,其中F2為非參數(shù)分布族。
在實踐中,對具體問題可以借助于專業(yè)知識和經(jīng)驗積累來確定統(tǒng)計模型。人們通常希望從參數(shù)模型出發(fā)來研究統(tǒng)計學中的問題,因為參數(shù)模型含有較多的信息,由此出發(fā)可以獲得精度較高的參數(shù)估計。但這樣做要承擔一定的風險,這是因為當參數(shù)模型不真時,統(tǒng)計推斷結(jié)果可能會偏離實際,甚至與實際相背離。如果選用非參數(shù)模型,所冒風險就會很小,因為非參數(shù)模型適應面廣,但它所含的信息較少,統(tǒng)計推斷結(jié)果的精度一般不會很高。在這兩類模型下所用的統(tǒng)計推斷方法有很大差別,這就形成了統(tǒng)計學中的兩類方法||參數(shù)統(tǒng)計方法和非參數(shù)統(tǒng)計方法。
在20世紀80年代,人們提出了另一類模型||半?yún)?shù)模型部分線性模型就是其中的一種,即有形式
E(YjX=x;U=u)=ˉ.x+g(u);(1.1.1)
其中ˉ=(ˉ1;¢¢¢;ˉp).為p維未知參數(shù)向量,g(u)為定義在某區(qū)間上的未知函數(shù)。模型(1.1.1)由兩部分構成:**部分ˉ.x為x=(x1;¢¢¢;xp).的線性組合;第二部分g(u)為u的非線性函數(shù)。因此稱它為部分線性模型。該模型不能作為參數(shù)模型,因為(X;U;Y)的分布族不能通過有限個參數(shù)來刻畫。由于模型(1.1.1)的**部分是參數(shù)性的,而第二部分是非參數(shù)性的,因此它應歸入半?yún)?shù)模型。按照這一思想,可以舉出其他一些半?yún)?shù)模型的例子。例如,單指標模型、部分線性單指標模型、部分線性變系數(shù)模型、可加部分線性模型等。對半?yún)?shù)模型的討論超出了本書的范圍,這里不再贅述。
本書主要討論參數(shù)模型及參數(shù)統(tǒng)計方法,但也涉及非參數(shù)統(tǒng)計方法。關于非參數(shù)模型及非參數(shù)統(tǒng)計方法的詳細討論,可以閱讀相關的非參數(shù)統(tǒng)計書籍,例如,陳希孺和柴根象(1993),孫山澤(2000),王靜龍和梁小筠(2006),李竹渝與魯萬波和龔金國(2007),薛留根(2013,2015)等。對于半?yún)?shù)模型的討論,可參閱柴根象和洪圣巖 (1995)、薛留根(2012)等人的著作。
下面引入可控分布族和可控模型的概念。為此,我們從測度的**連續(xù)性談起。
定義1.1.1設(X;B;F)為一統(tǒng)計模型。如果在可測空間(X;B)上存在這樣一個.有限測度1,使得F中每一個概率分布F對1都是**連續(xù)的,即對任意F2F,都有F.1,則稱F為可控分布族,稱(X;B;F)為可控模型,并稱1為控制測度,相應的Radon-Nikodym導數(shù)dF=d1稱為密度函數(shù),簡稱為密度。對控制測度1,如無特殊聲明,均指非負測度。統(tǒng)計學中常用來作控制的有限測度有兩種:計數(shù)測度和Lebesgue測度。下面舉例加以說明。
例1.1.1(計數(shù)測度)設X=R;B是直線上一切Borel集組成的.域,在(X;B)上定義如下測度:
1(B)=B中非負整數(shù)的個數(shù);8B2B:容易驗證,測度1是.有限測度,并稱為計數(shù)測度。它可以用來控制任一個定義在非負整數(shù)集合N(或其子集)上的概率分布族,其Radon-Nikodym導數(shù)就是通常的概率分布列。如對Poisson分布族來說,任一個不含非負整數(shù)的Borel集A的計數(shù)測度1(A)為零,而在這樣的集合上Poisson概率P(A)必為零。
今后對離散型隨機變量的分布所談論的密度函數(shù),就是指該分布對計數(shù)測度的Radon-Nikodym導數(shù)。下面給出 Lebesgue測度的定義。
例1.1.2(Lebesgue測度)設X=R;B是直線上的一切Borel集組成的。
域,在(X;B)上基于區(qū)間長度定義Lebesgue測度1(B)=B中不相交區(qū)間的長度之和或其極限;8B2B:容易驗證, Lebesgue測度是有限測度,它可以控制任一個定義在實數(shù)集R上的連續(xù)分布F,其Radon-Nikodym導數(shù)就是通常的密度函數(shù)f(x)。
一般來說,對于一個參數(shù)模型(X;B;F),如果分布族F=fFμ;μ2£g是可控的,其控制測度為1,則相應的密度函數(shù)也依賴于參數(shù)μ,即
dFμ(x)d1=f(x;μ);μ2£:
此時,可控分布族也可以用密度函數(shù)f(x;μ)表示,即
(X;B;ff(x;μ):μ2£g):
存在既不被計數(shù)測度控制,又不被Lebesgue測度控制的分布族。一個特殊的例子是Marshall-Olkin的二元指數(shù)族。對該分布族的詳細討論可參閱茆詩松等(2006)的著作,這里不再贅述。
1.1.2常用分布族
在統(tǒng)計模型(X;B;F)中,樣本空間X和.域B是不可缺少的,它指出了樣本的取值范圍以及應討論哪一類事件是有意義的。但分布族F是統(tǒng)計模型的核心,它在統(tǒng)計推斷中起著重要作用。在概率論與數(shù)理統(tǒng)計的教科書中已介紹過一些常用的分布族,其中包括:
(1)二項分布族fB(n;μ):0<μ<1g;
(2)Poisson分布族fP(.):.>0g;
(3)正態(tài)分布族fN(1;.2):(1;.2)2R£R+g,其中R+是正實數(shù)集;
(4)均勻分布族fU(a;b):.1這些分布族及其性質(zhì)都是大家所熟悉的,這里不再一一贅述。此外,在統(tǒng)計學中還經(jīng)常涉及另外的一些分布族,它們是:Gamma分布族、Beta分布族、t分布族、F分布族等。下面逐個介紹這些分布族。
(i)Gamma分布的密度曲線當固定尺度參數(shù)。改變.的值將導致Gamma分布的密度曲線形狀的改變。圖1.1.1給出了不同值下的Gamma分布的密度曲線。從圖中可以得到如下結(jié)論:當.61時,f(x)是嚴減函數(shù);當1<.62時,f(x) 先凸后凹;當.>2時,f(x)先其中自由度n可為任意正實數(shù),但在實際問題中常用的自由度n為自然數(shù),并編制了2 分布表。
(6)Beta分布族。Beta分布的密度函數(shù)為
記為Be(a;b),其中a和b是正的參數(shù)。Beta分布族記為fBe(a;b):a>0;b>0g。
對Beta分布族作如下解釋。
(i)Beta分布的密度曲線。參數(shù)a和b的值的改變將導致Beta分布的密度曲線形狀的改變。圖1.1.2在a和b的不同值下給出了幾種特殊的Beta分布的密度曲線。從圖中可以得到如下結(jié)論:當a<1和b<1時,f(x)的曲線呈U型,在 (1.a)=(2.a.b)處達到*小值,特別地,對a=b=0:5,該分布為反正弦分布,對a=b=1,該分布就是區(qū)間(0;1)上的均勻分布,記為U(0;1);當a>1和b>1時,
f(x)的曲線呈單峰狀,在(a.1)=(a+b.2)處達到**值;當a61和b>1時,
f(x)是嚴減函數(shù);當a>1和b61時,f(x)是嚴增函數(shù)。