一、问题

【题目】在自然数{1,2,,N}中随机抽取n个样本,求最小的k个样本的平均值的期望。

【定义】为方便讨论,记样本为{X1,X2,,Xn},大小排在第k位的样本记为X(k)

image-20220417183105477

image-20220417183105477

注1:需要分别讨论放回抽样和不放回抽样两种情况。
注2:本问题由瓦屋青衣提供。

二、不放回抽样解法

2.1 普通解法(不放回抽样)

【预备知识】由隔板法可知,将N+2个小球分成n+2组(每组至少有一个小球),相当于在N+1个缝隙中插入n+1个隔板,共有(N+1n+1)种分法。

同时,也可以这样考虑本问题。首先,任选一个k{0,1,,n},先在第i个缝隙插入一个隔板,使得隔板左边至少有k个缝隙,隔板右边至少有nk个缝隙,所以i的取值范围是{k,k+1,,Nn+k},从中选定一个i后,在第i个缝隙左侧插入k个隔板,从第i个缝隙右侧插入nk个隔板,将所有小球分为n+2组,分法有(ik)(Nink),遍历所有的i,就是将N+2个小球分成n+2组的方法数,所以

(N+1n+1)=i=kNn+k(ik)(Nink)k{0,1,,n}

注1:当k=n时,上等式便是朱世杰恒等式的一种特殊形式。

注2:这是自己独立推导得到的,算是个人小发现,不过前人应该早已发现。

与上面的二项式系数公式相比,其在二项式的第一个系数变化;类似的还有“二项式系数的范德蒙卷积公式”,其在二项式的第二个参数变化,参见《组合数学》Richard A. Bruald,P97:

k=0n(m1k)(m2nk)=(m1+m2n)

【解题】在不放回抽样情况下,所有样本共有(Nn)种可能,大小排在第k位的样本X(k)=i,等价于在n个样本中有k1个样本小于i、有1个样本等于i、有nk个样本大于i,所以概率P(X(k)=i)等于

P(X(k)=i)={(i1k1)1(Nink)(Nn),i{k,k+1,,Nn+k}0,else

所以X(k)的期望为

E(X(k))=i=kNn+kiP(X(k)=i)=i=kNn+ki(i1k1)1(Nink)(Nn)=i=kNn+kk(ik)(Nink)(Nn)=k(Nn)i=kNn+k(ik)(Nink)利用前面的公式=k(Nn)(N+1n+1)=k(N+1)n+1

所以,最小的k个样本的平均值的期望为

E(X(1)+X(2)++X(k)k)=E(X(1))+E(X(2))++E(X(k))k=(k+1)(N+1)2(n+1)

2.2 巧妙解法(不放回抽样)

设排序后的样本为X(1),X(2),,X(n),构造新的统计量:

y1=X(1)0y2=X(2)X(1)y3=X(3)X(2)yn=X(n)X(n1)yn+1=N+1X(n)i=1n+1yi=N+1

由于是不放回抽样,所以任意两个相邻样本之间的距离都有同样多种可能(1至N-n+1),而每种可能性是均等的,按相同的取值范围补上端点后即为上述统计量y1,y2,,yn+1,因此这些统计量是同分布的yiY,所以:

E(Y)=1n+1i=1n+1yi=N+1n+1

所以第k个样本的期望为:

E(X(k))=E(y1+y2++yk)=kE(Y)=k(N+1)n+1

所以前k个样本的均值的期望为:

E(X(1)+X(2)++X(k)k)=E(X(1))+E(X(2))++E(X(k))k=(k+1)(N+1)2(n+1)

注:这一巧妙方法由于llc提供。

三、放回抽样解法

3.1 普通解法(放回抽样)

对于放回抽样,由于任意想个相邻样本的距离的分布不再相同,所以不能使用上面的方法求解。不过,抽出的n个样本X的分布都是相同的:

P(X=i)=1N,i{1,2,,N}

注意:这里不能直接使用次序统计量的公式,这是由于在公式推导过程中,要求只有一个观察值落入区间[yk,yk+dy)之中。

k个样本X(k)值小于等于i的概率,等价于在n次伯努力实验中至少有i个样本小于等于x,即(定义00=1,下同)

P(X(k)i;N,n)=j=kn(nj)(iN)j(NiN)nj,1knN,1iN

所以

P(X(k)=i;N,n)={j=kn(nj)(iN)j(NiN)nj,i=1j=kn(nj)[(iN)j(NiN)nj(i1N)j(Ni+1N)nj],i{2,3,,N}

所以

E(X(k))=i=1niP(X(k)=i;N,n)=P(X(k)=1;N,n)+i=2niP(X(k)=i;N,n)=j=kn(nj)(1N)j(N1N)nj+i=2nj=kn(nj)i[(iN)j(NiN)nj(i1N)j(Ni+1N)nj]

尚未完成化简工作,未完待续……

最后修改:2023 年 10 月 22 日
如果觉得我的文章对你有用,请随意赞赏