04连续型随机变量
连续型随机变量
本章主要讲述随机变量中的,连续型随机变量部分。这类随机变量,它们的可能取值集合是不可数的。
定义
设$X$是一个随机变量,如果存在一个定义在实数轴上的非负函数$f$,使得对于任一实数集$B$,满足
$$P\{X\in B\}=\int_{B}f(x)dx$$则称$X$为连续型随机变量(continuous),$f(x)$称为随机变量$X$的概率密度函数(probability density function)
由概率定义可知,因为$X$必须取一个值。所以有
$$1=P\{X\in (-\infty,\infty) \}=\int_{-\infty}^{\infty}f(x)dx$$再考虑累积分布函数定义有:
$$F(a)=P\{X\le a\}= P\{X< a\}=\int_{-\infty}^af(x)dx$$连续型随机变量的期望和方差
用类似于离散的方式我们可以定义
定义
连续型随机变量$X$的期望为
$$E[X]=\int_{-\infty}^{\infty}xf(x)dx$$定理
如果$X$是一个连续型随机变量,其概率密度函数为$f(x)$,那么对于任意实值函数$g$,有
$$E[g(X)]=\int_{-\infty}^{\infty}g(x)f(x)dx$$这个定理证明比较复杂,书上例子中对$g(X)$非负情况下证明了命题。而在习题中给出了一些列细节。这里一步步补充其所需内容:
引理
对于一个非负随机变量$Y$有
$$E[Y]=\int_{0}^{\infty}P\{Y > y\}dy$$这个引理注意表达,其中积分内为一个概率表示即$P\{Y > y\}$。展开右侧即为
$$\int_{0}^{\infty}P\{Y > y\}dy=\int_{0}^{\infty}\int_{y}^{\infty}f_Y(x)dxdy$$这里主要用到的是积分次序交换。内部积分是从$y\to \infty$即外部给定一个$y$之后积分到$\infty$。可以放到$xy$坐标系中,其大概是$y=x$坐标轴下方区域。所以可以交换这个积分为内$y:0\to x$外部为$x:0\to \infty$。
即
$$ \begin{aligned} \int_{0}^{\infty}\int_{y}^{\infty}f_Y(x)dxdy&=\int_{0}^{\infty}\int_{0}^{x}f_Y(x)dydx\\ &=\int_{0}^{\infty}\int_{0}^{x}dyf_Y(x)dx=\int_{0}^{\infty}xf_Y(x)dx=E[X] \end{aligned} $$常见连续型随机变量
均匀随机变量
如果一个随机变量$X$的密度函数为
$$ f(x)= \begin{cases} 1\quad 1显然其分布函数为
$$ F(x)= \begin{cases} 0\quad &x\le 0\\ x \quad &0如果一个随机变量$X$的密度函数为
$$ f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-(x-\mu)^2/2\sigma^2} $$则称$X$是服从参数为$\mu$和$\sigma^2$的正态分布的随机变量,简称正态随机变量。
可以验证上述确实为一个密度函数,即积分和为1
$$ \int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}\sigma}e^{-(x-\mu)^2/2\sigma^2}dx=1 $$其中最关键的证明来自于一个经典微积分命题。即
$$ \int_{-\infty}^{\infty}e^{-x^2}dx=\sqrt{\pi} $$这个经典证明方式是,设$I=\int_{-\infty}^{\infty}e^{-x^2}dx$,求解$I^2$,把积分扩展到二维平面上做积分变量变换得来。(好像复分析还有一个证明)。考虑$I^2$有
$$ I^2=\int_{-\infty}^{\infty}e^{-x^2}dx\int_{-\infty}^{\infty}e^{-y^2}dy=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}e^{-(x^2+y^2)}dxdy $$考虑积分变换$x=r\cos\theta,y=r\sin\theta$。注意$dxdy$实际表示二维积分小片元表示为$dx\wedge dy$。$dx=\cos\theta dr-r\sin\theta d\theta,dy=\sin\theta dr+r\cos\theta d\theta$。
$$\begin{aligned} dx\wedge dy&=(\cos\theta dr-r\sin\theta d\theta)\wedge(\sin\theta dr+r\cos\theta d\theta)\\ &=r\cos^2\theta dr\wedge d\theta-r\sin^2\theta d\theta \wedge dr=rdr \wedge d\theta \end{aligned} $$积分区间为整个平面,换算成极坐标即$r:0\to \infty,\theta:0\to 2\pi$。所以原来积分变为
$$ \int_{0}^{\infty}\int_{0}^{2\pi}e^{-r^2}rdrd\theta=\pi\int_{0}^{\infty}e^{-r^2}dr^2=-\pi e^{r^2}|_0^{\infty}=\pi $$所以可以得到$I=\sqrt{\pi}$。现在考虑回正态分布的表达式。令$x=\mu+\sqrt{2}\sigma y$即可发现原式积分变为
$$\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}\sigma}e^{-(x-\mu)^2/2\sigma^2}dx=\frac{1}{\sqrt{\pi}}\int_{-\infty}^{\infty}e^{-x^2}dx=1$$还有一个关于正态分布的重要结论式:如果$X$是一个服从参数为$(\mu,\sigma^2)$的正态分布的随机变量,那么$aX+b$也是服从正态分布,且参数为$(a\mu+b,a^2\sigma^2)$。
这个最重要的引用就是如果如果$X$是一个服从参数为$(\mu,\sigma^2)$的正态分布的随机变量,那么$Z=(X-\mu)/\sigma$为一个服从参数为$(0,1)$。这样的随机变量称为标准正态随机变量。
所以很多特性我们可以通过标准正态随机变量的期望和方差开始。
$$ E[X]=\int_{-\infty}^{\infty}xf(x)dx=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{\infty}xe^{-x^2/2}dx=-\frac{1}{\sqrt{2\pi}}e^{-x^2/2}|_{-\infty}^{\infty}=0$$而放长$Var(X)$有
$$ \begin{aligned} Var(X)&=E[X^2]-E[X]^2=E[X^2]\\ &=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{\infty}x^2e^{-x^2/2}dx=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{\infty}xe^{-x^2/2}d(x^2/2)=-\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{\infty}xde^{-x^2/2}\\ &=-\frac{1}{\sqrt{2\pi}}(xe^{-x^2/2}|_{-\infty}^{\infty}-\int_{-\infty}^{\infty}e^{-x^2/2}dx)=-\frac{1}{\sqrt{2\pi}}(0-\sqrt{2\pi})=1 \end{aligned} $$可以发现其参数$(\mu,\sigma^2)$就是其期望和方差。
虽然我们可以知道其期望,方差等特性。但是其累积分布函数并没有简单函数表示。一般将标准正态随机变量的分布函数表示为$\Phi(x)$。即
$$ \Phi(x)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^xe^{-y^2/2}dy $$指数随机变量
如果一个连续型随机变量的密度函数如下,对于$\lambda >0$有
$$ f(x)= \begin{cases} \lambda e^{-\lambda x}\quad &x\ge 0\\ 0 \quad &x<0 \end{cases} $$则称随机变量是参数为$\lambda$的指数随机变量。指数随机变量的分布函数$F(a)$如下:
$$F(a)=\int_{0}^a\lambda e^{-\lambda x}dx=1-e^{-\lambda a}$$现在计算一下其期望和方差,关注$E[X^k]$有:
$$ \begin{aligned} E[X^k]&=\int_{0}^{\infty}x^n\lambda e^{-\lambda x}dx =-\int_{0}^{\infty}x^n de^{-\lambda x}\\ &=-(x^ne^{-\lambda x}|_0^\infty-\int_0^\infty nx^{n-1}e^{-\lambda x}dx)=n\int_0^\infty x^{n-1}e^{-\lambda x}dx\\ &=\frac{n}{\lambda}\int_0^\infty x^{n-1}\lambda e^{-\lambda x}dx=\frac{n}{\lambda}E[X^{k-1}] \end{aligned} $$所以$E[X]=1/\lambda,E[X^2]=2/\lambda^2$。
指数随机变量有个特点,即无记忆性。无记忆性是指,对于随机变量来说如果:
$$P\{X>s+t|X>t\}=P\{X>s\} \qquad \text{for all }s,t\ge 0 $$即在随机变量已知大于$t$情况下再大于$s$的概率,跟直接大于$s$的概率一致。如果用某个设备的寿命来表述,回更清晰。上式相当于已知该设备已经使用$t$小时的条件下寿命至少为$s+t$的概率与开始时寿命至少为$s$小时的概率时一样的。
话句话说,不论设备使用多久,后续对于剩余寿命的可能估计依然同一开始时时一样的。
可以简单表述指数随机变量是符合这个状况的。有前面可知:
$$ P\{X>s\}=1-F(x)=1-(1-e^{-\lambda x})=e^{-\lambda x} $$所以原式有
$$ P\{X>s+t|X>t\}=\frac{P\{X>s+t,X>t\}}{P\{X>t\}}=\frac{e^{-\lambda (s+t)}}{e^{-\lambda t}}=e^{-\lambda s}=P\{X>s\} $$可以进一步的说明,指数分布不仅具有无记忆性,而且式唯一具有无记忆性的分布。下面可以简单说明这一点。令$g(x)=P\{X>x\}$,由无记忆性定义可得,其相当于求解满足下来条件的函数
$$g(s+t)=g(s)g(t)$$可以说明满足这个条件的唯一非平凡右连续解就是$g(x)=e^{-\lambda x}$
由这个条件可得
$$g(\frac{2}{n})=g(\frac{1}{n}+\frac{1}{n})=g^2(\frac{1}{n})$$重复以上计算可得
$$g(1)=g^n(\frac{1}{n}),g(\frac{m}{n})=g^m(\frac{1}{n})=g^{m/n}(1)$$这说明该函数中任意有理数$m/n$赋值都是$g(1)$的$m/n$次方。又因为函数$g(x)$要求右连续。所以有$g(x)=(g(1))^x$这就说明了函数具有指数分布形状。
其他连续型概率分布
$\Gamma$分布
如果一个随机变量具有密度函数
$$ f(x)= \begin{cases} \frac{\lambda e^{-\lambda x}(\lambda x)^{\alpha -1}}{\Gamma(\alpha)}\quad &x\ge 0\\ 0 \quad &x<0 \end{cases} $$我们就称其为$\Gamma$分布。其中$\Gamma(\alpha)$称为$\Gamma$函数。其参数为$(\alpha,\lambda),\alpha > 0,\lambda>0$。其定义如下:
$$ \Gamma(\alpha)=\int_0^{\infty}e^{-y}y^{\alpha-1}dy $$由分布积分可得$\Gamma(\alpha)=(\alpha-1)\Gamma(\alpha-1)$。
而$\Gamma(1)=\int_0^{\infty}e^{-y}dy=1$。由此可得$\Gamma(n)=n!$,实际上$\Gamma$函数就是阶乘的拓展。
在概率论中。参数为$(n,\lambda)$的$\Gamma$分布经常用来作为某个事件总共发生$n$次等待的时间的分布。
韦布尔分布
韦布尔分布最初用在解释疲劳数据时提出。后来已经扩展到许多其他领域。特别是,对象适合“最弱链”模型时。
韦布尔分布具有如下形式:
$$ f(x)= \begin{cases} 0 &x\le \nu\\ 1-\exp\{-(\frac{x-\nu}{\alpha})^\beta\} \quad &x<0 \end{cases} $$柯西分布
柯西分布的密度函数形如:
$$ f(x)=\frac{1}{\pi}\frac{1}{1+(x-\theta)^2} $$$\beta$分布
$\beta$分布的密度函数形式如下:
$$ f(x)= \begin{cases} \frac{1}{B(a,b)}x^{\alpha-1}(1-x)^{b-1}\quad &0随机变量函数的分布
这一部分我觉得时随机变量中相当重要的一部分。因为在计算机中我们通常需要各种类型分布随机变量,但是一般伪随机只提供一个某范围的均匀随机分布。如果模拟各种分布,跟随机变量函数有必然关系。对于随机模拟,后续有专门一章(模拟)来介绍。但其中用到的知识皆来自于概率论基础理论。
现在假设已知随机变量$X$的分布,欲求$g(X)$的分布。其基础思路是通过概率分布函数入手逐步带入。
例 7a
随机变量$X$服从$(0,1)$上均匀分布,求解$Y=X^n$的分布。
对于随机变量$Y$来看。其累积分布函数即$F_Y(y)=P\{Y\le y\}$。其中$Y$就是那个随机变量。将函数带入可得
$$P\{Y\le y\}=P\{X^n\le y\}=P\{X\le y^{1/n}\}$$$P\{X\le y^{1/n}\}$即随机变量$X$小于$y^{1/n}$的分布值。考虑$0\le y\le 1$,则$F_Y(y)=F_X(y^{1/n})=y^{1/n}$。
求导可得对应密度函数
$$ f_Y(y)= \begin{cases} \frac{1}{n}y^{1/n-1}\quad &0\le y\le 1\\ 0\quad & \text{other} \end{cases} $$定理
设$X$为一连续型随机变量,密度函数为$f_X$。设$g(x)$为一严格单独(递增或递减)且可微(因此必连续)的函数,那么随机变量$Y=g(X)$的密度函数为:
$$ f_Y(y)= \begin{cases} f_X[g^{-1}(y)]\left|\frac{d}{dy}g^{-1}(y)\right|\quad &\text{if } \exist x,y=g(x)\\ 0\quad & \text{other} \end{cases} $$其中$g^-1(y)$定义为满足$g(x)=y$的$x$值。
证明:
还是从分布函数入手。在$g(x)$递增情况下,设对某些$x$,有$y=g(x)$。若令$Y=g(X)$则有:
$$F_Y(y)=P\{g(X)\le y\}=P\{X\le g^{-1}(y)\}=F_X(g^{-1}(y))$$求导即可得
$$ f_Y(y)=f_X[g^{-1}(y)]\frac{d}{dy}g^{-1}(y) $$注意这是在$g(x)$递增情况下。如果$g(x)$为单调递减函数。其中$P\{g(X)\le y\}$部分会有差异。因为$g(x)$递减。所以可得
$$P\{g(X)\le y\}=P\{X\ge g^{-1}(y)\}=1-F_X(g^{-1}(y))$$求导可得
$$ f_Y(y)=-f_X[g^{-1}(y)]\frac{d}{dy}g^{-1}(y) $$会发现这里有个正负号差异。注意到对于递减函数来说,$\frac{d}{dy}g^{-1}(y)$为负数,所以两者结合其相当于$\left|\frac{d}{dy}g^{-1}(y)\right|$。
问题 5.26
设$F$是连续分布函数,$U$是$(0,1)$上均匀分布,求$Y=F^{-1}(U)$的分布函数,其中$F^{-1}$是$F$的逆函数(即如果$F(y)=x$,则$y=F^{-1}(x)$)
还是从概率分布函数入手即
$$F_Y(y)=P\{Y\le y\}=P\{F^{-1}(U)\le y\}$$因为$F$是连续分布函数,其一定是一个递增函数,且值域在$[0,1]$上。所以有
$$P\{F^{-1}(U)\le y\}=P\{U\le F(y)\}=F_U(F(y))$$注意$U$是$(0,1)$上均匀分布。$F_U(F(y))=F(y)$。这说明$Y$的分布函数就是$F$。
这个问题最重要的一点在于计算机模拟。因为模拟一般伪随机提供一个均匀分布,即$U$。通过想要模拟的随机变量的分布函数,构造$Y=F^{-1}(U)$。那么$Y$就会具有想要的分布。
例如指数分布,我们知道其分布函数为$F(a)=1-e^{-\lambda a}$。所以令$Y=-\frac{1}{\lambda}\ln(1-F(U))$。那么$Y$就会具有指数随机变量的效果。
但有的分布函数可能不是很好求出解析形式,例如正态分布,无法得到其逆函数$Y=F^{-1}(U)$,就无法通过这个方式模拟出对应随机变量。这就要通过别的方式来进行模拟了。正态分布的模拟在联合分布章节中会讲述。其模拟方式,跟求解其积分感觉有一定相同之处。
问题 5.29
设$X$为连续型随机变量,分布函数$为F$。定义随机变量$Y:Y=F(X)$。证明$Y$服从$(0,1)$上的均匀分布。
这个问题实际上就是上一个问题的逆命题。还是从分布函数入手:
$$ F_Y(y)=P\{Y\le y\}=P\{F(X)\le y\}=P\{X\le F^{-1}(y)\} $$这说明$F_Y(y)$的分布函数即$X$分布函数带入$F^{-1}(y)$的值。即
$$ F_Y(y)=F(F^{-1}(y))=y \quad 0\le y \le 1 $$这说明$Y$服从$(0,1)$上的均匀分布。