- 相關(guān)推薦
左刪失右截斷數(shù)據(jù)的分位數(shù)的固定寬度序貫置信區(qū)間估計
一、引言在生存分析研究中,一些個體生存時間的開始點在試驗開始之前,所以人們無法觀察到這些個體在進入試驗之前的數(shù)據(jù)。這樣所獲得的個體數(shù)據(jù)就是左截斷數(shù)據(jù)。如果個體一旦進入試驗,人們可能在試驗結(jié)束之前未能完全觀察到這個個體的全部過程,因此引起了右刪失的數(shù)據(jù)。這樣的左截斷右刪失數(shù)據(jù)是生存分析中常常遇到的數(shù)據(jù)之一。具體地說,設(shè)(X,T,Y)表示三維的隨機變量,其中X為感興趣的隨機變量,具有連續(xù)的分布函數(shù)F;T是左截斷隨機變量具有分布函數(shù)G,以及Y是右刪失隨機量具有分布L。假定X是與(T,Y)獨立的,但T和Y可以是相關(guān)的。所謂左截斷右刪失數(shù)據(jù)是:如果Z≥T,(Z,T,δ)是可以觀察的,其中Z=X∧Y=min(X,Y)和δ=I(X≤Y)。而當Z<T時,人們無法觀察到任何數(shù)據(jù)。不失一般性,設(shè)α≡P(T≤Z)>0和W表示Z的分布函數(shù),即有1-W=(1-F)(1-L)。在文中,設(shè)(Z[,i],T[,i],δ[,i])是一列獨立同分布的觀察樣本且與(Z,T,δ),i=1,2,…,n具有相同的分布。又設(shè)表示分布函數(shù)的累積風險函數(shù)。周知,累積風險函數(shù)Λ與分布函數(shù)F是一對一的關(guān)系,具有如下表示式
附圖
容易證明
附圖
在左截斷右刪失數(shù)據(jù)下,固定寬度的分位數(shù)序貫置信區(qū)間估計是生存分析中的重要研究對象之一,一個例子是基于分位數(shù)估計對研究對象進行分類。有關(guān)的真實數(shù)據(jù)是心臟病的心率數(shù)據(jù)(數(shù)據(jù)見[8]),目的是進行它和正常人數(shù)據(jù)的比較,由于沒有足夠多的數(shù)據(jù)和所獲數(shù)據(jù)的不完全性,難于對分位數(shù)進行準確估計。因此準確分類也是不可能的。但一個重要而有效的解決方法是進行序貫試驗,在給定所要求的精度下,適當增加試驗樣本。在獨立同分布情況下,Choudhury,Serfling[9]研究了相類似的固定長度的序貫置信區(qū)間。在右刪失數(shù)據(jù)下,Gijbels,Veraverbeke[10,11]以及Wang,Hettmansperger[12]研究了這樣的置信區(qū)間,Gürler,Stute,Wang[4]考慮了左截斷的情況。
在生存分析中,序貫方法是生物統(tǒng)計中一種廣泛應(yīng)用的方法之一,它的優(yōu)點是節(jié)約成本和試驗時間,在試驗中可以由它來控制所需的時間和成本進行抽樣。在實際工作中,試驗者往往要求在給定的置信水平和滿足一定的精度下,對所感興趣的量進行統(tǒng)計估計和推斷,同時不要浪費太多的資源。因此,此時的序貫區(qū)間估計就是一種很好的選擇。具體體現(xiàn)是,人們首先要求統(tǒng)計推斷滿足一定精度,即是給定固定區(qū)間的長度,當置信水平已知(即給定某個置信水平)的情況下進行抽樣。這些方法在大多數(shù)的應(yīng)用中是很乎合實際要求的。這就是所謂固定寬度的序貫置信區(qū)間估計。本文就在這方面進行研究。
為了證明分位數(shù)的固定寬度序貫置信區(qū)間的漸近性質(zhì),我們給出一個擴展的p[,n]分位估計的Bahadur的強表示定理,其中p[,n]可以是一個隨機量。當ξ[,pn]是ξ[,p]強相合估計。在某些簡單的條件下,的Bahadur表示是
附圖
其中f=F'和R[,n]是剩余項。在下一節(jié),我們給出剩余項R[,n]的幾乎處處漸近收斂速度,其中是一列收斂于p的隨機變量。對于特別的應(yīng)用,p[,n]一般定義為乘積限估計的漸近方差的泛函。此表示定理在推導分位數(shù)估計的大樣本性質(zhì)上具有廣泛的應(yīng)用,此結(jié)果是[13]中重要結(jié)果的推廣。為了獲得分位數(shù)的置信區(qū)間估計,這種推廣是必要的。在此節(jié)的最后,給出相合的漸近方差估計。為方便,假設(shè)Y和T是非負的隨機變量。在本文,我們多次用到如下的積分條件,對于任意T<T[,W],
附圖
根據(jù)[7]的結(jié)果,我們表述如下的引理
引理1.1 假定a[,G]<a[,W]或a[,G]=a[,W]和(3)成立。當a[,W]<x≤b<b[,W],一致地有
附圖
其中表示概率收斂。
在右刪失數(shù)據(jù)下,Cheng[14],Aly,,Horváth[15],Lo,Singh[16]研究了Bahadur表示中剩余項R[,n](p)的幾乎處處收斂速度。Gijbels,Veraverbeke[10,11]給出了Ghosh型的弱表示定理。Zhou[17]考慮了光滑分位數(shù)估計和給出了其一致Bahadur表示定理。Padgett[18]獲得了些核光滑的分位數(shù)估計的漸近性質(zhì)。Gürler,Stute,Wang[4]首先考慮了左截數(shù)據(jù)下的分位數(shù)估計的各種漸近性質(zhì)。
二、Bahadure表示定理及固定長度置信區(qū)間
在這節(jié),給出分位數(shù)估計表示式(2)的結(jié)果。為些我們需要如下的條件。
條件(i) 對于T<T[,W],
附圖
附圖
雖然f的估計容易獲得,但是卷入麻煩的窗寬選擇,因此盡量不用其非參數(shù)估計。使用Y[,i]的次序統(tǒng)計量可以簡單地構(gòu)造分位數(shù)的置信區(qū)間,克服使用f的非參數(shù)估計的窗寬選擇的麻煩。這置信區(qū)間是
附圖
關(guān)于固定長度的序貫區(qū)間方法(11)及其所要求的隨機樣本大小τ,我們?nèi)菀淄茖С鋈缦露ɡ怼?br /> 附圖
附圖
在這里,我們進行一個小的計算機模型試驗,目的是在左截斷右刪失數(shù)據(jù)下,檢驗分位數(shù)估計序貫方法的有效性,以及在給定精度下,如何有效地進行序貫試驗,即在更短的試驗時間里,獲得合乎精度要求的分位數(shù)估計。我們的隨機試驗是在如下的條件下進行的。設(shè)(X,T,Y)分別來自指數(shù)分布的隨機變量,對應(yīng)于指數(shù)分布的參數(shù)分別是θ[,1],θ[,2],θ[,3],它們的值分別取1,1.5,0.25。共進行500次試驗,每次產(chǎn)生樣本數(shù)分別是100,200和500。因此,在這些設(shè)計下,被刪失的數(shù)據(jù)占20%而且被截斷的占45%。獲得的結(jié)果如上表。其它參數(shù)的組合下進行了同樣的模擬試驗,所獲結(jié)果與此情況相似,故略。在此我們僅列出樣本為200的結(jié)果,其它情況略。
表中的是指數(shù)分布p-分位數(shù)的估計,對于每個分位數(shù)的序貫估計分別取3種不同的精度。d[,1]的取法是全樣本下的分位數(shù)估計值除以1.96,d[,2]是d[,1]的一半。而d[,3]是全樣本估計的標準差乘以1.96的兩倍再除于,n是全部樣本的數(shù)量。sd(Q)(se)指的是標準方差和在括號里面的是500次分位估計值的標準方差。Bias是估計相對誤差。n(d)是序貫方法所使用的樣本數(shù)。Covag是分位數(shù)估計落入95%的置信區(qū)間的次數(shù)。這個數(shù)值越靠近95%越好。從表中我們可以看出,序貫估計是相當精確的。同時,我們可以從下面p-分位數(shù)估計的直方圖中可以看出,不管是全樣本還是部分樣本的分位數(shù)估計的分布形狀近似于正態(tài)分布,而且它們是非常相近。最后,從表中看出當分位點靠近分布的尾部時,標準差估計不足,這主要是在方差估計中我們使用了(1-p)[2]這個因子。相信適當?shù)男薷母倪M這個估計。
附圖
分位點p=0.5,指數(shù)分布p分位數(shù)的真值是0.6928。圖(a)是全樣本分位數(shù)估計,估計值是0.690,圖(b)是在區(qū)間長度的精度為d[,1]=0
.30下,分位數(shù)序貫估計,估計值是0.653。圖(c)是在區(qū)間長度的精度為d[,2]=0.15下,分位數(shù)序貫估計,估計值是0.653。圖(d)是在區(qū)間長度的精度為d[,3]=0.10下,分位數(shù)序貫估計,估計值是0.689。
三、定理的證明
下面的一些引理具有獨立的應(yīng)用意義。首先我們擴展p-分位數(shù)的定義到p=0和p=1。
證 這個引理的證明與周勇[13]中的引理2類似,故略。
命題2.1的證明 注意到
附圖
證 周知,僅要證明對于某個d[,0]>0,有
附圖
4.由引理3.5,隨機變量是一致可積的,因此(22)取均值仍成立。最后,因為一致可積性可推得,因此有Eτ<∞,d>0。定理2.2獲證。
【責任編輯】彭非
【參考文獻】
1 Tsai W Y,Jewell N P,Wang M C.A Note on the Product-limit Estimator under Right Censoring and Left Truncation.Biometrika,1987,74:883-886.
2 Kaplan E L,Meier P.Nonparametric Estimation from Incomplete Observations.J.Amer.
Stat.Assoc.,1958,53:457-481.
3 Lynden-Bell D.A Method of Allowing for Known ObservationalSelection in Small Samples
Applied to 3CR Quasars.Monthly Notices Roy.Astronom.Soc.,1971,155:95-118.
4 Güler ,Stute W,Wang F L.Weak and Strong Quantile Representations for
Randomly Truncated Data with Applications.Statist.Prob.Lett.,1993,17:139-148.
5 Zhou Y.A Note on the TJW Product-limit Estimator for Truncated and Censored Data.Statist.Probab.Lett.,1996,26:
381-387.
6 Woodroofe M.Estimating a Distribution Function with Truncated Data.Ann.
Statist.1985,13:163-177.
7 Zhou Y,Pau Yip.A Strong Representation of the Product-limit Estimator for Truncated and Censored Data.J.Multivariate.Anal.,1999,
69(2):261-280.
8 Izenman A.Recent Developments in Nonparametric Density
Estimation.J.Amer.Statist.Assoc.,1991,86:205-224.
9 Choudhury J,Serfling R J.Generalized Order Statistics,Bahadur Representations
and Sequential Nonparametric Fixedwidth Confidence Intervals.J.Statist.Plann.
Inference,1988,19:269-282.
10 Gijbels I.Veraverbeke&nbs
p; N.Weak Asymptotic Representation for Quantiles of
the Product-limit Estimator.J.Statist.Plann.Inference,1988,18:151-160.
11 Gijbels I,Veraverbeke N.Sequential Fixed-width ConfidenceIntervals for Quantiles in Presence of Censoring.J.Statist.Plann.
Inference,1989,19:213-222.
12 Wang J L,Hettmansperger T P.Two-sample Inference for Median Survival Times Based on One-sample Pro for Censored Survival Data.J.Amer.Statist.Assoc.,1990,85:529-536.
13 周勇.左刪失右截斷情形下分位函數(shù)的分位估計.應(yīng)用數(shù)學學報,1997,20(3):456-465.
(Zhou Yong.The Product-limit Quantile Estimator for Randomly Truncated and Censored Data.Acta
Appl.Math.Sinica,1997,20(3):456-465.)
14 Cheng K F.On Almost Sure Representation for Quantiles of the
Product-limit Estimator with Applications.Sankhyā(Ser.A),1984,46:426-443.
15 Aly A A, M,Horaáth L.Strong Approximation of the Quantile Process of
the Product-limit Estimator.J.Mult.Anal.,1985,16:185-210.
16 Lo S H,Singh K.The Product Limit Estimator and the Bootstrap:Some
Asymptotic Representation.Prob.Theory Related Fields,1986,71:455-465.
17 Zhou Y.Bahadur-Kiefer Theorems for Kernel Smooth Product-limit Quantile Estimator.Commun.Statist.Theory Meth.,1996,24:2815-2828.
18 Padgett W J.A Kernel-type Estimator of a Quantile Function from
Right-censored Data.J.Amer.Statist.Assoc.,1986,81:215-222.
19 Sander J M.The Weak Convergence of Quantiles of the Product-limit Estimator.Technical Report 5,Division of Biostatistics,Stanford University,
1975.
20 Serfling R J.Approxima
tion Theorems of Mathematical Statistics.New York:
Wiley,1980.
21 Zhu Y J.The Exponential Bound of the Survival Function Estimator for
Randomly Truncated and Censored Data.J.Sys.Scien.Math.,1996,16:260-269.
22 Lo S H,Mack Y P,Wang J T.Density and Hazard Rate Estimation for
Censored Data via Strong Representations of the Kaplan-Meier Estimator.Probab.Th.Rel.Field.,1989,80:461-473.
【左刪失右截斷數(shù)據(jù)的分位數(shù)的固定寬度序貫置信區(qū)間估計】相關(guān)文章:
左、右08-16
《足走 左 右》08-15
足、走、左、右08-16
熱忱在左,理性在右08-20
19《足 走 左 右》08-15
愛在左,感恩在右作文08-17
“認識左、右”教學設(shè)計08-16
愛在左,感恩在右作文04-27
左和右教學反思01-30