目录

03随机变量

随机变量

前面我们都是关注试验结果集合中事件发生的概率。而有的时候我们更关注某一特性的发生。例如关心两枚骰子和的情况,扔硬币过程中正面朝上次数的情况。这个时候,我们关心的是基于样本空间上事件特性的量的结果。

这个结果我们可以标记为关联于样本空间上的一个变量,即随机变量。

定义

定义于样本空间上的实值函数,称之为随机变量。

例如扔3枚均匀硬币,如果令$Y$表示正面朝上的次数。那么$Y$的值建立在样本空间的事件上,并且将其映射到一个数值。其根据结果可取值为$0,1,2,3$之一。其分别拥有如下概率:

$$ P\{Y=0\}=1/8\\ P\{Y=1\}=3/8\\ P\{Y=2\}=3/8\\ P\{Y=3\}=1/8\\ $$

随机变量是样本空间上的实值函数,其针对每个事件给出一个数值。每个数值根据原空间概率函数有个对应的概率值,可以看到对于随机变量具体取值的概率会用$P\{X=i\}$来进行表示。从某种角度来看,随机变量就跟函数中的自变量一样,是一个变化数值,只是定义于样本空间上。

对于一个随机变量可以定义其累积分布函数(cumulative distribution function)。其定义如下

定义

累计分布函数$F$定义为

$$F(x)=P\{X\le x\}\quad -\infty\lt x \lt\infty $$

也可简称为分布函数。即分布函数是一个函数,对任一给定实数$x$,分布函数为该随机变量小于等于$x$的概率。

离散型随机变量

若一个随机变量最多有可数个可能取值,则称之为离散型随机变量。对于一个离散型随机变量$X$。我们可以定义$X$的概率分布列函数$p(a)$即

$$p(a)=P\{X=a\}$$

即概率赋值直接映射为函数值。对应的分布函数即

$$F(a)=\sum_{x\le a} p(a)$$

期望

现在来看概率轮种一个常用的概念,期望(expectation)也常表示随机变量发生的结果的均值。对于离散型随机变量,其期望定义为

定义

随机变量$X$的期望为

$$E[X]=\sum xp(x)$$

即随机变量每个可能值根据发生概率的加权平均值。

随机变量函数的期望

可以基于随机变量通过函数的方式定义新随机变量。例如已知一个随机变量$X$,可以定义$Y=X^2$。更通用的可以基于随机变量定义一个函数,表示为$g(X)$。

现在来看离散随机变量函数的期望。假设现在有离散随机变量$X$,其分布列函数为$p(x)$。通过定义来看,我们应该针对$g(X)$值域的每个值,求取对应的概率值然后加权求和来求取$E[g(X)]$。

但还有另一种理解,即当随机变量$X=x$时,$g(X)=g(x)$。此时其值得加权平均值即$p(x)$。即原来每个$g(X)$值得变量逐个拆解成$X$变量对应值的概率求和。所以可得随机变量函数的期望即:

定理

如果$X$是一个离散型随机变量,其可能取值为$x_i$,对应概率分布列函数为$p(x_i)$。那么对于任意实值函数$g(x)$都有

$$E[g(X)]=\sum g(x_i)p(x_i)$$

这里涉及一个证明。实际上就是说明上述公式跟期望定义$g(X)$为随机变量是一致的。根据定义来描述,设$Y=g(X)$,其为一个随机变量,有其对应分布列函数,其分布列函数可表示为$p'(y)=P\{g(X)=y\}$。其期望应该是$E[g(X)]=\sum y_jp'(y_j)$。其中$y_j$为$Y$的所有不同可能取值。

所以需要说明的其实就是针对$Y=g(X)$值域的一个取值$y_j$,定理中具有相同值的求和得到的结果即$y_jp'(y_j)$。因为$Y=g(X)$可以取值$y_j$表明至少存在一个$x_i$有$g(x_i)=y_j$。

现在考虑求和式:

$$ \begin{aligned} \sum g(x_i)p(x_i)&=\sum_j\sum_{i:g(x_i)=y_j}g(x_i)p(x_i)=\sum_j\sum_{i:g(x_i)=y_j}y_jp(x_i)\\ &=\sum_j y_jP\{g(X)=y_j\}=E[g(X)] \end{aligned} $$

其中关键部分就是所有$g(x_i)=y_j$的概率和就是$P\{g(X)=y_j\}$。

随机变量$X$的期望$E[X]$也称为$X$的均值(mean)或者一阶矩(first moment)

对应的$E[X^n](n\ge 1)$称为$X$的$n$阶矩。有前面定理可得:

$$E[X^n]=\sum_x x^np(x)$$

方差

定义

如果随机变量$X$的期望为$\mu$,那么$X$的方差记为$Var(x)$。定义为

$$Var(X)=E[(X-\mu)^2]$$

可以根据期望定义展开得到方差的另一种计算方式

$$ \begin{aligned} Var(X)&=E[(X-\mu)^2]=\sum (x-\mu)^2p(x)\\ &=\sum x^2p(x)-2\mu\sum xp(x)+\mu^2\sum p(x)^2\\ &=E[X^2]-E[X]^2 \end{aligned} $$

各种类型离散随机变量

下面主要介绍各种常见的随机离散变量。注意随机变量是定义在样本空间上的实值函数。所以都有对应的试验背景。然后定义我们关心的随机变量来进行表征。

伯努利随机变量和二项随机变量

考虑一个试验,结果分为两类,成功或失败。令事件$A$表示成功,事件$A^c$表示失败。现在每次试验可能成功也可能失败,所以可以给出一个概率赋值。令$P(A)=p$则$P(A^c)=1-p$。

现在可以设一个建立在实验结果上的随机变量$X$。令

$$ X= \begin{cases} 1\qquad 试验成功\\ 0\qquad 试验失败 \end{cases} $$

可以得到$X$的分布列$p(x)$为

$$ p(0)=P\{X=0\}=P(A^c)=1-p\\ p(1)=P\{X=1\}=P(A)=p\\ $$

如果随机变量$X$的分布列由上式给出,则$X$为伯努利随机变量

现在假设进行$n$次独立重复实验。且每次成功概率都是$p$,失败概率为$1-p$。如果$X$表示$n$次实验中成功的次数,那么$X$为参数是$(n,p)$的二项随机变量(binomial)

根据离散数学可以得出参数$(n,p)$的二项随机变量分布列为:

$$ p(i)=\binom{n}{i}p^i(1-p)^{n-i}\qquad i=0,1,\cdots,n $$

二项随机变量的性质

先计算$E[X^k]$。根据前面函数变量的期望计算有:

$$ E[X^k]=\sum_{i=0}^{n} i^k\binom{n}{i}p^i(1-p)^{n-i}=\sum_{i=1}^{n} i^k\binom{n}{i}p^i(1-p)^{n-i} $$

例用恒等式

$$ i\binom{n}{i}=n\binom{n-1}{i-1} $$

可以把一个$i$放进二项系数里面。原公式变为

$$ \begin{aligned} E[X^k]&=n\sum_{i=1}^{n} i^{k-1}\binom{n-1}{i-1}p^i(1-p)^{n-i}=np\sum_{i=1}^ni^{k-1}\binom{n-1}{i-1}p^{i-1}(1-p)^{n-i}\\ &=np\sum_{j=0}^{n-1}(j+1)^{n-1}\binom{n-1}{j}p^{j}(1-p)^{n-j-1}\qquad 令j=i-1\\ &=npE[(Y+1)^{k-1}] \end{aligned} $$

这里面需要关注最后一个等式。很显然$\binom{n-1}{j}p^{j}(1-p)^{n-1-j}$是参数为$n-1$的二项展开系数。所以最后求和的部分相当于$E[(Y+1)^{k-1}]$。其中$Y$是一个参数为$(n-1,p)$的二项随机变量。

上述公式表明二项系数的$n$阶矩有递推关系。现在令$k=1$。则有

$$ E[X]=npE[(Y+1)^0]=npE[1]=np。 $$

其中$E[1]$其实就是所有可能概率求和,自然就是$1$。也可以直接通过推导公式中令$n=1$发现求和部分就是二项随机变量分布列求和得到。

现在看$E[X^2]$

$$ E[X^2]=npE[(Y+1)]=np(E[Y]+1)=np[(n-1)p+1] $$

其中注意$Y$为参数$(n-1,p)$的二项随机变量。

所以

$$Var(X)=E[X^2]-(E[X])^2=np[(n-1)p+1]-(np)^2=np(1-p)$$

定理

如果$X$是一个参数为$(n,p)$的二项随机变量,其中$0\lt p\lt 1$。那么当$k$从$0$到$n$时,$P\{X=k\}$一开始单调递增,然后一直单调递减。当$k=\lfloor(n+1)p\rfloor$时取得最大值。($\lfloor X\rfloor$表示小于等于$X$的最大整数)。

证明方式考虑$\frac{P\{X=k\}}{P\{X=k-1\}}$。其大于$1$表示涨,否则为跌。

直接套用二项概率分布有

$$ \frac{P\{X=k\}}{P\{X=k-1\}}=\frac{(n-k+1)p}{k(1-p)} $$

所以$P\{X=k\}\ge P\{X=k-1\}$当且仅当$(n-k+1)p\ge k(1-p)$。移项等价于$k\le (n+1)p$。

泊松随机变量

如果一个取值$0,1,2\cdots$的随机变量$X$对某一个$\lambda >0$满足如下概率分布列,

$$ p(i)=P\{X=i\}=e^{-\lambda}\frac{\lambda^i}{i!}\qquad i=0,1,2\cdots $$

我们称该随机变量$X$为服从参数$\lambda$的泊松随机变量(Poisson)

值得说明的是泊松分布各个领域有广泛应用。这是由于当$n$足够大,$p$足够小,使得$np$保持适当大小时,参数为$(n,p)$的二项随机变量可以近似的看作参数为$\lambda=np$的泊松分布。

假设$X$是一个服从参数为$(n,p)$的二项随机变量,并记$\lambda=np$那么:

$$ \begin{align} p\{X=i\}&=\frac{n!}{(n-i)!i!}p^i(1-p)^{n-i}=\frac{n!}{(n-i)!i!}(\frac{\lambda}{n})^i(1-\frac{\lambda}{n})^{n-i}\\ &=\frac{n(n-1)\cdots(n-i+1)}{n^i}\frac{\lambda^i}{i!}\frac{(1-\lambda/n)^n}{(1-\lambda/n)^i} \end{align} $$

注意$e^x$的定义为$\lim\limits_{x\to \infty}(1+\frac{x}{n})^n$。$n$足够大,$p$足够小所以有

$$ (1-\frac{\lambda}{n})^n\approx e^{-\lambda}\qquad\frac{n(n-1)\cdots(n-i+1)}{n^i}\approx 1\qquad (1-\frac{\lambda}{n})^i\approx 1$$

可得出整个近似公式。话句话说,如果独立重复的$n$次试验次数足够大,每次成功概率$p$充分小。使得$np$适当的话,那么成功次数近似地服从参数为$\lambda=np$的泊松分布。

现在计算一下$E[X^k]$。根据前面公式有

$$ \begin{aligned} E[X^k]&=\sum_{i=0} i^k e^{-\lambda}\frac{\lambda^i}{i!}=\lambda\sum_{i=1}i^{k-1}e^{-\lambda}\frac{\lambda^{i-1}}{(i-1)!} \\ &=\lambda \sum_{j=0}(j+1)^{k-1}e^{-\lambda}\frac{\lambda^j}{j!}\qquad j=i-1 \\ &=\lambda E[(Y+1)^{k-1}] \end{aligned} $$

其中有$y=i-1$以及变换后的求和公式说明$Y$也是符合参数为$\lambda$的泊松分布。

由此可以推断出$E[X]=\lambda,E[X^2]=\lambda(\lambda+1)$可得出$Var(X)=\lambda$

几何随机变量

几何随机变量是考虑这样一种试验。

在独立重复试验,每次成功概率为$p$,重复试验知道试验首次成功为止。如果令$X$表示需要实验的次数,那么

$$ p\{X=n\}=(1-p)^{n-1}p $$

推导也很直接。$X=n$的充分必要条件是前$n-1$次失败,而第$n$次试验成功。可以得出概率分布。该随机变量称为参数为$p$的几何随机变量(geometric)

现在计算$E[X^k]$,令$q=1-p$有

$$ \begin{aligned} E[X^k]&=\sum_{i=1} i^kq^{i-1}p=\sum_{i=1}(i-1+1)^kq^{i-1}p\\ &=\sum_{i=1}\sum_{j=0}^k\binom{k}{j}(i-1)^jq^{i-1}p\\ &=\sum_{j=0}^k\binom{k}{j}\sum_{i=1}(i-1)^jq^{i-1}p\\ &=\sum_{j=0}^k\binom{k}{j}\sum_{t=0}t^jq^tp \end{aligned} $$

最后这一段需要区分$j=0$的情况,当 $j=0$时,后续求和就是$\sum_{t=1}q^{t-1}p=1$。否则$t^j$在$t=0$情况下为$0$后续求和可转化为$q\sum_{t=1}t^jq^{t-1}p$。即原公式可变为

$$ \begin{aligned} E[X^k]&=\sum_{j=1}^k\binom{k}{j}q\sum_{t=1}t^jq^{t-1}p+1\\ &=\sum_{j=1}^k\binom{k}{j}qE[X^j]+1 \end{aligned} $$

可以发现这是一个递推关系。只是其$n$阶矩跟之前所有系数有一定关联。当$k=1$时显然有

$$ \begin{aligned} E[X]&=qE[X]+1 \end{aligned} $$

可得$E[X]=1/(1-q)=1/p$

当$k>1$时有

$$ \begin{aligned} E[X^k]&=qE[X^k]+\sum_{j=1}^{k-1}\binom{k}{j}qE[X^j]+1 \end{aligned} $$

这表明此时

$$E[X^k]=\frac{1}{p}(\sum_{j=1}^{k-1}\binom{k}{j}qE[X^j]+1)$$

所以$E[X^2]=1/p(2qE[X]+1)=(2q+p)/p^2$

负二项随机变量

假定在独立重复实验中,每次成功概率为$p$。持续进行试验直到累积$r$次成功为止,此时令$X$表示试验的总次数。则

$$ P\{X=n\}=\binom{n-1}{r-1}p^r(1-p)^{n-r} $$

推导也很直接。整个流程相当于要执行$n$次试验,恰有$r$次成功,且最后一次成功。这相当于前$n-1$次有$r-1$次成功,并且最后成功。前面有$r-1$次成功可以由离散数学得出为$\binom{n-1}{r-1}p^{r-1}(1-p)^{n-r}$。再加上最后一次成功即可。

现在计算$E[X^k]$:

$$ \begin{aligned} E[X^k]&=\sum_{n=r}n^k\binom{n-1}{r-1}p^r(1-p)^{n-r}\\ &=\frac{r}{p}\sum_{n=r}n^{k-1}\binom{n}{r}p^{r+1}(1-p)^{n-r}\\ &=\frac{r}{p}\sum_{m=r+1}(m-1)^{k-1}\binom{m-1}{r}p^{r+1}(1-p)^{m-1-r}\qquad 令n=m-1\\ &=\frac{r}{p}E[(Y-1)^{k-1}] \end{aligned} $$

其中$Y$是一个参数为$(r+1,p)$的负二项随机变量。由此得到递推关系。由此可求出

$$E[X]=r/p \qquad E[X^2]=r/p[(r+1)/p-1]$$

超几何随机变量

假设一个坛子中共有$N$个球,其中有$m$个白球,$N-m$个黑球,从中随机的取$n$个球,令$X$表示取出来的白球个数。那么由离散数学部分可以得知

$$ p\{X=i\}=\frac{\binom{m}{i}\binom{N-m}{n-i}}{\binom{N}{n}} $$

即随机取出的$n$个球中有$i$个白球的组合情况。由表示可知,这个概率由$N,n,m$三个参数确定。

还是考虑计算参数为$N,n,m$的$E[X^k]$:

$$ E[X^k]=\sum_{i=1}^ni^k\binom{m}{i}\binom{N-m}{n-i}/\binom{N}{n} $$

考虑到

$$ i\binom{m}{i}=m\binom{m-1}{i-1}\qquad n\binom{N}{n}=N\binom{N-1}{n-1} $$

可以得

$$ \begin{aligned} E[X^k]&=\frac{nm}{N}\sum_{i=1}^{n}i^{k-1}\binom{m-1}{i-1}\binom{N-m}{n-i}/\binom{N-1}{n-1}\\ &=\frac{nm}{N}\sum_{j=0}^{n-1}(j+1)^{k-1}\binom{m-1}{j}\binom{N-m}{n-j-1}/\binom{N-1}{n-1}\\ &=\frac{nm}{N}E[(Y+1)^{k-1}] \end{aligned} $$

其中$Y$是参数为$(n-1,N-1,m-1)$得超几何随机变量。

所以可得

$$E[X]=\frac{nm}{N}\qquad E[X^2]=\frac{nm}{N}E[Y+1]=\frac{nm}{N}[\frac{(n-1)(m-1)}{N-1}+1]$$

$\zeta$分布

如果一个随机变量有如下分布列

$$P\{X=k\}=\frac{C}{k^{\alpha+1}},\qquad k=1,2,\cdots$$

我们就称该随机变量服从$\zeta$分布。其中$\alpha>0$,因为概率和分布必定为$1$。所以有

$$C=[\sum_{k=1}(\frac{1}{k})^{\alpha+1}]^{-1}$$

这实际上要求后面这个无限和时收敛的。当$\alpha=0$这实际上是调和级数,是发散的。而大于$1$之后这个和必然收敛存在。这个函数实际来自于如下分布

$$\zeta(s)=1+(\frac{1}{2})^s+(\frac{1}{3})^s+\cdots$$

即黎曼$\zeta$函数。

随机变量和的期望

本节最重要的内容是说明:

一组随机变量的和的期望与这组随机变量各自期望的和相等。

换句话说,假设有$n$个随机变量$X_1,X_2,\cdots,X_n$。则有

$$E[\sum X_i]=\sum E[X_i]$$

论证的角度就是从随机变量的定义,以及期望的定义出发。

随机变量是建立在样本空间上的实值函数。给定一个随机变量$X$,假设样本空间为$S$,那么对于$S$中的每一个元素$s\in S$(即一个结果)来说,可以用$X(s)$表示此结果下随机变量所表示的值。

根据概率公理。可令$p(s)=P(\{s\})$表示$s$作为随机试验的结果的概率。对于任意事件$A$来说,其为有限个或者可数无限个互不相容的事件$\{s\}$的和。所以根据概率论公理可以得:

$$P(A)=\sum_{s\in A}P(\{s\})$$

现在考虑随机变量$X$得期望$E[X]$。从试验结果角度直观出发,当结果$s$发生得时候,$X$取值$X(s)$。而这个时候得概率为$p(s)$,所以有

定理

$$E[X]=\sum_{s\in S}X(s)p(s)$$

具体证明还需从$E[X]=xp(x)$出发。注意此时其中$x$为$X$可能取值,$p(x)$为$X$取$x$时得概率值。假设对于其中某一个取值$x_i$,样本空间必然有一系列结果使得$X$取值$x_i$。令这些结果组成事件$S_i=\{s:X(s)=x_i\}$。那么:

$$E[X]=\sum_i x_iP\{X=x_i\}=\sum_i x_i \sum_{s\in S_i}p(s)=\sum_i\sum_{s\in S_i}X(s)p(s)=\sum_{s\in S}X(s)p(s)$$

其实只管来说就是期望的定义,可以自然得引用在事件发生基础上。

借由此定义可以方便得说明前面描述得定理

定理

对于随机变量$X_1,X_2,\cdots,X_n$

$$E[\sum_{i=1}^n X_i]=\sum_{i=1}^n E[X_i]$$

证明设$Z=\sum_{i=1}^n X_i$,有

$$ \begin{aligned} E[Z]&=\sum_{s\in S}Z(s)p(s)=\sum_{s\in S}(X_1(s)+X_2(s)+\cdots+X_n(s))p(s)\\ &=\sum_{s\in S}X_1(s)p(s)+\sum_{s\in S}X_2(s)p(s)+\cdots+\sum_{s\in S}X_n(s))p(s)\\ &=E[X_1]+E[X_2]+\cdots+E[X_n] \end{aligned} $$

这个证明其中有较为关键一步,就是$Z(s)$展开这一步。这一步实际是说,对于可能得$Z(s)$值,必然有该结果$s$推得的$X_1(s),X_2(s),\cdots,X_n(s)$之和构成。这个过程并没有关注$X_i$之间的独立性。即使这个结果$s$导致某些值必然关联(例如值相等),上述推导依然成立。对于不同空间下的结果,也一样。所以这个结论适用情况非常广泛。