04连续型随机变量

xxxx

2026-04-26 约 727 字预计阅读 2 分钟

连续型随机变量

本章主要讲述随机变量中的，连续型随机变量部分。这类随机变量，它们的可能取值集合是不可数的。

定义

设$X$是一个随机变量，如果存在一个定义在实数轴上的非负函数$f$，使得对于任一实数集$B$，满足

$$P\{X\in B\}=\int_{B}f(x)dx$$

则称$X$为连续型随机变量(continuous)，$f(x)$称为随机变量$X$的概率密度函数(probability density function)

由概率定义可知，因为$X$必须取一个值。所以有

$$1=P\{X\in (-\infty,\infty) \}=\int_{-\infty}^{\infty}f(x)dx$$

再考虑累积分布函数定义有：

$$F(a)=P\{X\le a\}= P\{X< a\}=\int_{-\infty}^af(x)dx$$

连续型随机变量的期望和方差

用类似于离散的方式我们可以定义

定义

连续型随机变量$X$的期望为

$$E[X]=\int_{-\infty}^{\infty}xf(x)dx$$

定理

如果$X$是一个连续型随机变量，其概率密度函数为$f(x)$，那么对于任意实值函数$g$，有

$$E[g(X)]=\int_{-\infty}^{\infty}g(x)f(x)dx$$

这个定理证明比较复杂，书上例子中对$g(X)$非负情况下证明了命题。而在习题中给出了一些列细节。这里一步步补充其所需内容：

引理

对于一个非负随机变量$Y$有

$$E[Y]=\int_{0}^{\infty}P\{Y > y\}dy$$

这个引理注意表达，其中积分内为一个概率表示即$P\{Y > y\}$。展开右侧即为

$$\int_{0}^{\infty}P\{Y > y\}dy=\int_{0}^{\infty}\int_{y}^{\infty}f_Y(x)dxdy$$

这里主要用到的是积分次序交换。内部积分是从$y\to \infty$即外部给定一个$y$之后积分到$\infty$。可以放到$xy$坐标系中，其大概是$y=x$坐标轴下方区域。所以可以交换这个积分为内$y:0\to x$外部为$x:0\to \infty$。

即

$$ \begin{aligned} \int_{0}^{\infty}\int_{y}^{\infty}f_Y(x)dxdy&=\int_{0}^{\infty}\int_{0}^{x}f_Y(x)dydx\\ &=\int_{0}^{\infty}\int_{0}^{x}dyf_Y(x)dx=\int_{0}^{\infty}xf_Y(x)dx=E[X] \end{aligned} $$

常见连续型随机变量

均匀随机变量

如果一个随机变量$X$的密度函数为

$$ f(x)= \begin{cases} 1\quad 1称随机变量$X$在$(0,1)$区间上均匀分布(uniformly distribution)

显然其分布函数为

$$ F(x)= \begin{cases} 0\quad &x\le 0\\ x \quad &0正态随机变量

如果一个随机变量$X$的密度函数为

$$ f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-(x-\mu)^2/2\sigma^2} $$

则称$X$是服从参数为$\mu$和$\sigma^2$的正态分布的随机变量，简称正态随机变量。

可以验证上述确实为一个密度函数，即积分和为1

$$ \int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}\sigma}e^{-(x-\mu)^2/2\sigma^2}dx=1 $$

其中最关键的证明来自于一个经典微积分命题。即

$$ \int_{-\infty}^{\infty}e^{-x^2}dx=\sqrt{\pi} $$

这个经典证明方式是，设$I=\int_{-\infty}^{\infty}e^{-x^2}dx$，求解$I^2$，把积分扩展到二维平面上做积分变量变换得来。(好像复分析还有一个证明)。考虑$I^2$有

$$ I^2=\int_{-\infty}^{\infty}e^{-x^2}dx\int_{-\infty}^{\infty}e^{-y^2}dy=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}e^{-(x^2+y^2)}dxdy $$

考虑积分变换$x=r\cos\theta,y=r\sin\theta$。注意$dxdy$实际表示二维积分小片元表示为$dx\wedge dy$。$dx=\cos\theta dr-r\sin\theta d\theta,dy=\sin\theta dr+r\cos\theta d\theta$。

$$\begin{aligned} dx\wedge dy&=(\cos\theta dr-r\sin\theta d\theta)\wedge(\sin\theta dr+r\cos\theta d\theta)\\ &=r\cos^2\theta dr\wedge d\theta-r\sin^2\theta d\theta \wedge dr=rdr \wedge d\theta \end{aligned} $$

积分区间为整个平面，换算成极坐标即$r:0\to \infty,\theta:0\to 2\pi$。所以原来积分变为

$$ \int_{0}^{\infty}\int_{0}^{2\pi}e^{-r^2}rdrd\theta=\pi\int_{0}^{\infty}e^{-r^2}dr^2=-\pi e^{r^2}|_0^{\infty}=\pi $$

所以可以得到$I=\sqrt{\pi}$。现在考虑回正态分布的表达式。令$x=\mu+\sqrt{2}\sigma y$即可发现原式积分变为

$$\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}\sigma}e^{-(x-\mu)^2/2\sigma^2}dx=\frac{1}{\sqrt{\pi}}\int_{-\infty}^{\infty}e^{-x^2}dx=1$$

还有一个关于正态分布的重要结论式：如果$X$是一个服从参数为$(\mu,\sigma^2)$的正态分布的随机变量，那么$aX+b$也是服从正态分布，且参数为$(a\mu+b,a^2\sigma^2)$。

这个最重要的引用就是如果如果$X$是一个服从参数为$(\mu,\sigma^2)$的正态分布的随机变量，那么$Z=(X-\mu)/\sigma$为一个服从参数为$(0,1)$。这样的随机变量称为标准正态随机变量。

所以很多特性我们可以通过标准正态随机变量的期望和方差开始。

$$ E[X]=\int_{-\infty}^{\infty}xf(x)dx=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{\infty}xe^{-x^2/2}dx=-\frac{1}{\sqrt{2\pi}}e^{-x^2/2}|_{-\infty}^{\infty}=0$$

而放长$Var(X)$有

$$ \begin{aligned} Var(X)&=E[X^2]-E[X]^2=E[X^2]\\ &=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{\infty}x^2e^{-x^2/2}dx=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{\infty}xe^{-x^2/2}d(x^2/2)=-\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{\infty}xde^{-x^2/2}\\ &=-\frac{1}{\sqrt{2\pi}}(xe^{-x^2/2}|_{-\infty}^{\infty}-\int_{-\infty}^{\infty}e^{-x^2/2}dx)=-\frac{1}{\sqrt{2\pi}}(0-\sqrt{2\pi})=1 \end{aligned} $$

可以发现其参数$(\mu,\sigma^2)$就是其期望和方差。

虽然我们可以知道其期望，方差等特性。但是其累积分布函数并没有简单函数表示。一般将标准正态随机变量的分布函数表示为$\Phi(x)$。即

$$ \Phi(x)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^xe^{-y^2/2}dy $$

指数随机变量

如果一个连续型随机变量的密度函数如下，对于$\lambda >0$有

$$ f(x)= \begin{cases} \lambda e^{-\lambda x}\quad &x\ge 0\\ 0 \quad &x<0 \end{cases} $$

则称随机变量是参数为$\lambda$的指数随机变量。指数随机变量的分布函数$F(a)$如下：

$$F(a)=\int_{0}^a\lambda e^{-\lambda x}dx=1-e^{-\lambda a}$$

现在计算一下其期望和方差，关注$E[X^k]$有：

$$ \begin{aligned} E[X^k]&=\int_{0}^{\infty}x^n\lambda e^{-\lambda x}dx =-\int_{0}^{\infty}x^n de^{-\lambda x}\\ &=-(x^ne^{-\lambda x}|_0^\infty-\int_0^\infty nx^{n-1}e^{-\lambda x}dx)=n\int_0^\infty x^{n-1}e^{-\lambda x}dx\\ &=\frac{n}{\lambda}\int_0^\infty x^{n-1}\lambda e^{-\lambda x}dx=\frac{n}{\lambda}E[X^{k-1}] \end{aligned} $$

所以$E[X]=1/\lambda，E[X^2]=2/\lambda^2$。

指数随机变量有个特点，即无记忆性。无记忆性是指，对于随机变量来说如果：

$$P\{X>s+t|X>t\}=P\{X>s\} \qquad \text{for all }s,t\ge 0 $$

即在随机变量已知大于$t$情况下再大于$s$的概率，跟直接大于$s$的概率一致。如果用某个设备的寿命来表述，回更清晰。上式相当于已知该设备已经使用$t$小时的条件下寿命至少为$s+t$的概率与开始时寿命至少为$s$小时的概率时一样的。

话句话说，不论设备使用多久，后续对于剩余寿命的可能估计依然同一开始时时一样的。

可以简单表述指数随机变量是符合这个状况的。有前面可知：

$$ P\{X>s\}=1-F(x)=1-(1-e^{-\lambda x})=e^{-\lambda x} $$

所以原式有

$$ P\{X>s+t|X>t\}=\frac{P\{X>s+t,X>t\}}{P\{X>t\}}=\frac{e^{-\lambda (s+t)}}{e^{-\lambda t}}=e^{-\lambda s}=P\{X>s\} $$

可以进一步的说明，指数分布不仅具有无记忆性，而且式唯一具有无记忆性的分布。下面可以简单说明这一点。令$g(x)=P\{X>x\}$，由无记忆性定义可得，其相当于求解满足下来条件的函数

$$g(s+t)=g(s)g(t)$$

可以说明满足这个条件的唯一非平凡右连续解就是$g(x)=e^{-\lambda x}$

由这个条件可得

$$g(\frac{2}{n})=g(\frac{1}{n}+\frac{1}{n})=g^2(\frac{1}{n})$$

重复以上计算可得

$$g(1)=g^n(\frac{1}{n}),g(\frac{m}{n})=g^m(\frac{1}{n})=g^{m/n}(1)$$

这说明该函数中任意有理数$m/n$赋值都是$g(1)$的$m/n$次方。又因为函数$g(x)$要求右连续。所以有$g(x)=(g(1))^x$这就说明了函数具有指数分布形状。

其他连续型概率分布

$\Gamma$分布

如果一个随机变量具有密度函数

$$ f(x)= \begin{cases} \frac{\lambda e^{-\lambda x}(\lambda x)^{\alpha -1}}{\Gamma(\alpha)}\quad &x\ge 0\\ 0 \quad &x<0 \end{cases} $$

我们就称其为$\Gamma$分布。其中$\Gamma(\alpha)$称为$\Gamma$函数。其参数为$(\alpha,\lambda),\alpha > 0,\lambda>0$。其定义如下：

$$ \Gamma(\alpha)=\int_0^{\infty}e^{-y}y^{\alpha-1}dy $$

由分布积分可得$\Gamma(\alpha)=(\alpha-1)\Gamma(\alpha-1)$。

而$\Gamma(1)=\int_0^{\infty}e^{-y}dy=1$。由此可得$\Gamma(n)=n!$，实际上$\Gamma$函数就是阶乘的拓展。

在概率论中。参数为$(n,\lambda)$的$\Gamma$分布经常用来作为某个事件总共发生$n$次等待的时间的分布。

韦布尔分布

韦布尔分布最初用在解释疲劳数据时提出。后来已经扩展到许多其他领域。特别是，对象适合“最弱链”模型时。

韦布尔分布具有如下形式：

$$ f(x)= \begin{cases} 0 &x\le \nu\\ 1-\exp\{-(\frac{x-\nu}{\alpha})^\beta\} \quad &x<0 \end{cases} $$

柯西分布

柯西分布的密度函数形如：

$$ f(x)=\frac{1}{\pi}\frac{1}{1+(x-\theta)^2} $$

$\beta$分布

$\beta$分布的密度函数形式如下：

$$ f(x)= \begin{cases} \frac{1}{B(a,b)}x^{\alpha-1}(1-x)^{b-1}\quad &0其中$B(a,b)$为

$$ B(a,b)=\int_0^1x^{a-1}(1-x)^{b-1}dx $$

随机变量函数的分布

这一部分我觉得时随机变量中相当重要的一部分。因为在计算机中我们通常需要各种类型分布随机变量，但是一般伪随机只提供一个某范围的均匀随机分布。如果模拟各种分布，跟随机变量函数有必然关系。对于随机模拟，后续有专门一章(模拟)来介绍。但其中用到的知识皆来自于概率论基础理论。

现在假设已知随机变量$X$的分布，欲求$g(X)$的分布。其基础思路是通过概率分布函数入手逐步带入。

例 7a

随机变量$X$服从$(0,1)$上均匀分布，求解$Y=X^n$的分布。

对于随机变量$Y$来看。其累积分布函数即$F_Y(y)=P\{Y\le y\}$。其中$Y$就是那个随机变量。将函数带入可得

$$P\{Y\le y\}=P\{X^n\le y\}=P\{X\le y^{1/n}\}$$

$P\{X\le y^{1/n}\}$即随机变量$X$小于$y^{1/n}$的分布值。考虑$0\le y\le 1$，则$F_Y(y)=F_X(y^{1/n})=y^{1/n}$。

求导可得对应密度函数

$$ f_Y(y)= \begin{cases} \frac{1}{n}y^{1/n-1}\quad &0\le y\le 1\\ 0\quad & \text{other} \end{cases} $$

定理

设$X$为一连续型随机变量，密度函数为$f_X$。设$g(x)$为一严格单独(递增或递减)且可微(因此必连续)的函数，那么随机变量$Y=g(X)$的密度函数为：

$$ f_Y(y)= \begin{cases} f_X[g^{-1}(y)]\left|\frac{d}{dy}g^{-1}(y)\right|\quad &\text{if } \exist x,y=g(x)\\ 0\quad & \text{other} \end{cases} $$

其中$g^-1(y)$定义为满足$g(x)=y$的$x$值。

证明：

还是从分布函数入手。在$g(x)$递增情况下，设对某些$x$，有$y=g(x)$。若令$Y=g(X)$则有：

$$F_Y(y)=P\{g(X)\le y\}=P\{X\le g^{-1}(y)\}=F_X(g^{-1}(y))$$

求导即可得

$$ f_Y(y)=f_X[g^{-1}(y)]\frac{d}{dy}g^{-1}(y) $$

注意这是在$g(x)$递增情况下。如果$g(x)$为单调递减函数。其中$P\{g(X)\le y\}$部分会有差异。因为$g(x)$递减。所以可得

$$P\{g(X)\le y\}=P\{X\ge g^{-1}(y)\}=1-F_X(g^{-1}(y))$$

求导可得

$$ f_Y(y)=-f_X[g^{-1}(y)]\frac{d}{dy}g^{-1}(y) $$

会发现这里有个正负号差异。注意到对于递减函数来说，$\frac{d}{dy}g^{-1}(y)$为负数，所以两者结合其相当于$\left|\frac{d}{dy}g^{-1}(y)\right|$。

问题 5.26

设$F$是连续分布函数，$U$是$(0,1)$上均匀分布，求$Y=F^{-1}(U)$的分布函数，其中$F^{-1}$是$F$的逆函数(即如果$F(y)=x$，则$y=F^{-1}(x)$)

还是从概率分布函数入手即

$$F_Y(y)=P\{Y\le y\}=P\{F^{-1}(U)\le y\}$$

因为$F$是连续分布函数，其一定是一个递增函数，且值域在$[0,1]$上。所以有

$$P\{F^{-1}(U)\le y\}=P\{U\le F(y)\}=F_U(F(y))$$

注意$U$是$(0,1)$上均匀分布。$F_U(F(y))=F(y)$。这说明$Y$的分布函数就是$F$。

这个问题最重要的一点在于计算机模拟。因为模拟一般伪随机提供一个均匀分布，即$U$。通过想要模拟的随机变量的分布函数，构造$Y=F^{-1}(U)$。那么$Y$就会具有想要的分布。

例如指数分布，我们知道其分布函数为$F(a)=1-e^{-\lambda a}$。所以令$Y=-\frac{1}{\lambda}\ln(1-F(U))$。那么$Y$就会具有指数随机变量的效果。

但有的分布函数可能不是很好求出解析形式，例如正态分布，无法得到其逆函数$Y=F^{-1}(U)$，就无法通过这个方式模拟出对应随机变量。这就要通过别的方式来进行模拟了。正态分布的模拟在联合分布章节中会讲述。其模拟方式，跟求解其积分感觉有一定相同之处。

问题 5.29

设$X$为连续型随机变量，分布函数$为F$。定义随机变量$Y:Y=F(X)$。证明$Y$服从$(0,1)$上的均匀分布。

这个问题实际上就是上一个问题的逆命题。还是从分布函数入手：

$$ F_Y(y)=P\{Y\le y\}=P\{F(X)\le y\}=P\{X\le F^{-1}(y)\} $$

这说明$F_Y(y)$的分布函数即$X$分布函数带入$F^{-1}(y)$的值。即

$$ F_Y(y)=F(F^{-1}(y))=y \quad 0\le y \le 1 $$

这说明$Y$服从$(0,1)$上的均匀分布。

目录

04连续型随机变量

连续型随机变量

连续型随机变量的期望和方差

常见连续型随机变量

均匀随机变量

指数随机变量

其他连续型概率分布

$\Gamma$分布

韦布尔分布

柯西分布

$\beta$分布

随机变量函数的分布