跳转至

随机变量

随机变量的概念

随机变量

随机变量是用来表示随机试验结果的变量,通常用大写字母 \(X,Y,Z\) 或小写希腊字母 \(\xi,\eta,\zeta\) 表示。

随机函数是一个特殊的实函数,对于任意 \(e\in S\),都有唯一一个对应 \(X(e)\),如图。

随机变量实质上是样本空间上的函数,可作为因变量,满足其值不大于某数的状况都是事件。我们称随机变量这个函数的值域为随机变量的取值范围,或值域。

随机变量在不同的条件下由于偶然因素影响,其可能取各种随机变量不同的值,具有不确定性和随机性,但这些取值落在某个范围的概率是一定的,此种变量称为随机变量。随机变量可以是离散型的,也可以是连续型的。如分析测试中的测定值就是一个以概率取值的随机变量,被测定量的取值可能在某一范围内随机变化,具体取什么值在测定之前是无法确定的,但测定的结果是确定的,多次重复测定所得到的测定值具有统计规律性。随机变量与模糊变量的不确定性的本质差别在于,后者的测定结果仍具有不确定性,即模糊性。

随机变量按其值域(根据定义,随机变量是一个函数)是否可数分为离散型连续型两种。

分布函数

对于随机变量 \(X\),称函数

\[ F(x) = P( X \leq x ) \]

为随机变量 X 的 分布函数。记作 \(X \sim F(x)\)

分布函数具有以下性质:

  • 右连续性:\(F(x) = F(x + 0)\).

  • 单调性:在 \(\mathbb{R}\) 上单调递增(非严格).

  • \(F(-\infty) = 0,F(+\infty) = 1\).

同时我们可以证明,满足上述要求的函数都是某个随机变量的分布函数。

因此,分布函数与随机变量之间一一对应。

示性函数

对于样本空间 \(\Omega\) 上的事件 \(A\),定义随机变量

\[ I_A(\omega) = \begin{cases} 1, & \omega \in A \\ 0, & \omega \notin A \end{cases} \]

\(I_A\) 是事件 \(A\)示性函数,根据定义可以求得其期望 \(EI_A = P(A)\)

离散型随机变量

如果随机变量 \(X\) 的取值是有限的或者是可数无穷尽的值:\(X(S)=\{x_1, x_2, \cdots, x_n\}\) 则称 \(X\) 为离散随机变量。

\(X\) 为离散型随机变量,其所有可能的取值为 \(x_1, x_2, \cdots\),则我们可以用一系列形如 \(P\{ X = x_i \} = p_i\) 的等式来描述 \(X\),这就是概率分布列

\(X\) \(x_1\) \(x_2\) \(\cdots\) \(x_n\)
\(P\) \(p_1\) \(p_2\) \(\cdots\) \(p_n\)

连续型随机变量

  • 如果 \(X\) 的取值遍布一区间甚至是整个数线 \(X(S)=[a,b]\) 则称 \(X\) 为连续随机变量。

  • \(X\) 为连续型随机变量,考察 \(P\{ X = x \}\) 往往是无意义的(因为这一概率很可能是 \(0\))。

为什么说概率「很可能」是 \(0\)

考虑这样的随机变量 \(X\):它以 \(1/2\) 的概率取 \(0\),以 \(1/2\) 的概率服从开区间 \((0, 1)\) 上的均匀分布。显然 X 满足连续型随机变量的定义。对任何实数 \(r \in (0, 1)\),不难得到 \(P\{ X = r \} = 0\),但同时有 \(P\{ X = 0 \} = 1/2\)

另一方面,设 \(X \sim F(x)\),则

\[ P( l < x \leq l + \Delta x ) = F(l + \Delta x) - F(l) \]

一个自然的想法是用极限:

\[ \lim\limits_{\Delta x \to 0^+} \frac{F(l + \Delta x) - F(l)}{\Delta x} \]

来描述 \(X\) 取值为 \(l\) 的可能性,这个式子就是我们熟知的导数,于是问题转化为寻找一个非负函数 \(f(x)\) 使得:

\[ F(x) = \int_{-\infty}^{x} f(x) \text{d} x \]

若这样的 \(f(x)\) 存在,则称之为 \(X\)密度函数

随机变量的独立性

前面讨论了随机事件的独立性。由于随机变量和随机事件紧密联系,我们还可以类似地给出随机变量独立性的定义。

定义:

  • 若随机变量 \(X, Y\) 满足对任意的 \(x, y \in \mathbb{R}\) 都有

    \[ P( X \leq x, Y \leq y ) = P( X \leq x ) P( Y \leq y ) \]

    则称随机变量 \(X, Y\) 独立。

  • 中学课本中对随机变量独立性的定义是用形如 \(P(X = \alpha)\) 的概率定义的,但由于连续性随机变量取特定值的概率通常是 \(0\),故在更一般的情形下借助分布函数定义才是更加明智的选择。

性质

  • 若随机变量 \(X,Y\) 相互独立,则对于任意函数 \(f, g\),随机变量 \(f(X)\)\(g(Y)\) 相互独立。

  • 有时候我们会研究相互独立的随机变量 \(X,Y\) 的某一函数 \(f(X, Y)\)(如 \(XY^2\))的分布。

  • 尽管 \(X\)\(Y\) 是独立的,但不能想当然地认为对 \(Y\) 的某一取值 \(y\)\(f(X, y)\)\(f(X, Y)\) 服从同样的分布。

  • 根据 Qwen2.5-Max,这混淆了条件分布与无条件分布,错误认为独立性允许直接替换随机变量为常数而不改变分布。实际上,独立性仅保证边缘分布的分离,而非函数分布的等价性。

随机变量的数字特征

期望

算术平均数 \(A_n\)

\[ \bar x=\dfrac1n\sum_{i=1}^nx_i \]

离散型随机变量

设离散型随机变量 \(X\) 的概率分布为 \(p_i = P\{ X = x_i \}\),若和式

\[ \sum x_i p_i \]

绝对收敛,则称其值为 \(X\)期望,记作 \(EX\)

连续型随机变量

设连续型随机变量 \(X\) 的密度函数为 \(f(x)\),若积分

\[ \int_{\mathbb{R}} xf(x) \text{d} x \]

绝对收敛,则称其值为 \(X\)期望,记作 \(EX\)

期望的性质

  • 期望的线性性(据此可以通过变换计算平均数):

    \[ E(ax+by+c)=aEx+bEy+c \]
  • 若随机变量 \(X,Y\) 的期望存在且 \(X,Y\) 相互独立,则有

    \[ E(XY) = EX \cdot EY \]

    注意:上述性质中的独立性并非必要条件。

方差

我们常见的序列方差:

\[ DX=\dfrac1n\sum_{i=1}^n(X_i-DX)^2 \]

推广到一般的随机变量:

设随机变量 \(X\) 的期望 \(EX\) 存在且期望

\[ DX=E\left[(X - EX)^2\right]=\sum p_i(X_i-EX)^2 \]

也存在,则称上式的值为随机变量 \(X\)方差,记作 \(DX\)\(VX\)

拆开平方即可得到:

\[ DX=E(X^2)-(EX)^2 \]

方差也有类似线性性的变换:

\[ \begin{aligned} V(ax+b)&=E\left[(ax+b)^2\right]-\left[E(ax+b)\right]^2\\ &=a^2E(x^2)+2abEx+b^2-\left[a^2(Ex)^2+2abE_x+b^2\right]\\ &=a^2\left[E(x^2)-(Ex)^2\right]\\ &=a^2V(x) \end{aligned} \]

这暗示了方程描述离散程度的性质。

方差的算术平方根称为标准差,记作 \(\sigma(X) = \sqrt{DX}\)

协方差

对于随机变量 \(X, Y\),称

\[ E((X - EX)(Y - EY)) \]

\(X\)\(Y\)协方差,记作 \(\operatorname{Cov}(X, Y)\)

对于随机变量 \(X, Y, Z\) 有:

\[ \operatorname{Cov}(X, Y) = \operatorname{Cov}(Y, X) \]

对任意常数 \(a, b\),有:

\[ \operatorname{Cov}(aX + bY, Z) = a \cdot \operatorname{Cov}(X, Z) + b \cdot \operatorname{Cov}(Y, Z) \]

同时协方差与方差也有如下联系:

\[ DX = \operatorname{Cov}(X, X) \]
\[ D(X + Y) = DX + 2 \operatorname{Cov}(X, Y) + DY \]

不难看出 \(D(X + Y) = DX + DY\) 当且仅当 \(\operatorname{Cov}(X, Y) = 0\),它的一个充分而不必要条件是 \(X,Y\) 独立:

\[ \operatorname{Cov}(X, Y) = E((X - EX)(Y - EY)) = E(X - EX) E(Y - EY) = 0 \]

关于协方差:你可能会发现协方差的性质与向量内积的运算性质在形式上高度一致。

在泛函分析的视角下,对于给定的概率空间,其上的全体随机变量构成一个线性空间,而协方差是这个空间上的一个内积,标准差则是由该内积导出的范数。

相关系数

对于随机变量 \(X, Y\),称

\[ \frac{ \operatorname{Cov}(X, Y)}{ \sigma(X)\sigma(Y) } \]

\(X\)\(Y\) 的 Pearson 相关系数,记作 \(\rho_{X,Y}\)

Pearson 相关系数描述了两个随机变量之间线性关联的紧密程度。

  • 不难证明 \(|\rho_{X,Y}| \leq 1\).

  • \(|\rho_{X,Y}|\) 越大,则 \(X\)\(Y\) 之间的线性关联程度越强。

  • \(\rho_{X,Y} = 0\) 时我们称随机变量 \(X\)\(Y\) 不相关,此时 \(X\)\(Y\) 之间不存在线性关系。

\(|\rho_{X,Y}| = 1\) 仅可能出现在以下两种情况:

  • 当存在实数 \(a\) 和正实数 \(b\) 使得 \(P(X = a + bY) = 1\) 时,有 \(\rho_{X,Y} = 1\)

  • 当存在实数 \(a\) 和负实数 \(b\) 使得 \(P(X = a + bY) = 1\) 时,有 \(\rho_{X,Y} = -1\)

两随机变量不相关只是表明他们之间没有线性关联,并不代表没有其他形式的联系。

因此两随机变量 \(X, Y\) 不相关是他们相互独立的必要而不充分条件,而 \(\operatorname{Cov}(X, Y) = 0\) 的充要条件是 \(X, Y\) 不相关。

Markov 不等式

\(X\) 是一个取值非负的随机变量,则对任意正实数 \(a\)

\[ P\{ X \geq a \} \leq \frac{EX}{a} \]

事实上,由于 Markov(马尔可夫)不等式本身并没有用到随机变量除期望外的与分布有关的任何信息,因此直接应用这个不等式得到的约束通常很松。

证明:

\(I\) 为事件 \(X \geq a\) 的示性函数,则有

\[ I \leq \frac{X}{a} \]

这是根据下去整的性质,进而:

\[ P\{ X \geq a \} = EI \leq \frac{EX}{a} \]

随机变量的应用

信息熵

信息熵描述了存储数据所占用的空间下限,若实际可用的空间低于这个下限则必然损失信息。

对随机变量 \(X\),定义信息熵为:

\[ H(X)=-\sum_{x}P(X=x)\log_2 P(X=x) \]

定义中对数底数为 \(2\) 是因为计算机中存储的信息每位只有 \(2\) 种取值:\(0\)\(1\)

例如设 \(X\) 服从 \(\{1,2,\dots,n\}\) 上的均匀分布,则其信息熵为:

\[ H(X)=-\sum_{i=1}^n\frac{1}{n}\log_2\frac{1}{n}=\log_2 n \]

所以我们至少需要 \(\log_2 n\) 位来存储 \(1\)\(n\) 的整数。

频率分布直方图

横轴表示数据,纵轴表示频率除以组距。

数据分组可以是等距的,也可以是不等距的,要根据数据的特点而定。

有时为了方便,往往按等距分组,或者除了第一和最后的两段,其他各段按等距分组。

因此,图像中矩形的面积就是频率,频率等于频数除以总数。

百分位数和四分位数

若将一组数据从小到大排序,并计算相应的累计百分点,则某百分点所对应数据的值,就称为这百分点的百分位数,以 \(P_{k}\) 表示第 \(k\) 百分位数。

准确定义:\(P_{k}\) 表示至少有 \(k\%\) 的资料小于或等于这个数,而同时也至少有 \((100-k)\%\) 的资料大于或等于这个数。

特殊的:

百分位数 意义
\(P_0\) 最小值
\(Q_1=P_{25}\) 第一个四分位数,上四分位数
\(Q_2=P_{50}\) 第二个四分位数,中位数
\(Q_3=P_{75}\) 第三个四分位数,下四分位数
\(P_{100}\) 最大值

百分位数的计算方法:

  1. 将数据从小到大排序为 \(x_1,x_2,\dots,x_n\)
  2. 计算 \(i=n\cdot p\%\)
    • 如果 \(i\) 不是整数,则取 \(x_{\lceil i\rceil}\)\(p\%\) 分位数。
    • 否则,取 \((x_i+x_{i+1})/2\)\(p\%\) 分位数。
  3. 特别的,规定 \(0\) 分位数为最小值,\(100\%\) 分位数为最大值。

另外的,\(P_{75}\)\(P_{25}\) 的差称为四分位距。


Page Top