机器学习概率统计基础随机变量部分

辞别發表於 2025-5-26 10:07:00

机器学习概率统计基础随机变量部分

<h2 id="第零章-积分">第零章积分</h2>
<ul>
<li>
变上限积分：设积分形式为$\boxed{I(x)=\int_{v(x)}^{u(x)}f(t,x)\text{d}t}$，则对$I(x)$求导得：
<div class="math display">\[\boxed{\frac{\text{d}I}{\text{d}x} = f(v(x), x) \cdot v'(x) - f(u(x), x) \cdot u'(x) + \int_{u(x)}^{v(x)} \frac{\partial f}{\partial x}(t, x) \text{d}t}
\]</div></li>
<li>
二重积分：$\boxed{\iint_Df(x,y)\text{d}\sigma=\int_a^b\left[\int_{\phi_1(x)}^{\phi_2(x)}f(x,y)\text{d}y\right]\text{d}x}$，
<ul>
<li>体积几何意义：以$D$为底面，$f(x,y)$为顶面的曲顶柱体的体积。</li>
<li>质量几何意义：以$D$为面，$f(x,y)$为面密度的质量。</li>
<li>口诀：
<ul>
<li>后积先定常数限：先找常数限（如$a\leq x\leq b$），然后确定后积$\text{d}x$，先积$\text{d}y$，然后对每个固定的$x$，写出内层变量$y$的积分范围$\phi_1(x)\leq y \leq \phi_2(x)$，最后先写后积的$\int_a^b\text{d}x$，再写先积$\int_{\phi_1(x)}^{\phi_2(x)}f(x,y)\text{d}y$。</li>
<li>限内画先积直线：比如区域$D$的两侧都是$x=a$、$x=b$这种形式，就在区域中间从下往上画条竖线。</li>
<li>先交写下限：$y=\phi_1(x)$写在下限。</li>
<li>后交写上限：$y=\phi_2(x)$写在下限。</li>
</ul>
</li>
</ul>
</li>
</ul>
<h2 id="第一章-随机事件的概率">第一章随机事件的概率</h2>
<h3 id="一-随机试验与随机事件">一随机试验与随机事件</h3>
<ul>
<li>
试验：对某种特性的观察。
</li>
<li>
随机试验：满足以下三个条件的试验，记作试验$E$：
<ul>
<li>可重复性：在相同条件下可重复进行。</li>
<li>可预知性：每次试验结果不止一个，但所有可能结果已知。</li>
<li>不确定性：每次试验结果不确定。</li>
</ul>
</li>
<li>
样本空间：试验$E$的全部基本事件组成的集合，记作$\Omega$。
</li>
<li>
样本点：样本空间的元素。
</li>
<li>
随机事件：对随机试验的观察中，试验的结果，记作$A_1$、$A_2$等。
</li>
<li>
基本事件：随机试验每一个不可再分的结果，记作$a$、$b$等。
</li>
<li>
必然事件与不可能事件：必然会发生的事件是必然事件。
<ul>
<li>注意：概率为1的事件不一定是必然事件。</li>
</ul>
</li>
</ul>
<h3 id="二-随机事件的运算">二随机事件的运算</h3>
<ul>
<li>
随机事件的运算：
<ul>
<li>
包含： $A \subset B$
</li>
<li>
和事件： $A + B$
</li>
<li>
差事件： $A - B$
</li>
<li>
积事件： $AB$
</li>
<li>
事件$A_1, A_2$互不相容/互斥： $A_1A_2 = \emptyset$
</li>
<li>
事件$A_1, A_2, \cdots, A_n$互不相容： $A_iA_j = \emptyset(i\neq j)$
</li>
<li>
事件$A_1, A_2$对立： $A_1+A_2 = \Omega$、$A_1=\overline{A_2}$
</li>
<li>
交换律、结合律、分配律、德摩根公式
</li>
</ul>
</li>
<li>
古典概型：记试验$E$：$\Omega=\{e_1,e_2,\cdots,e_n\}$，且有限个基本事件等可能发生，则$P(A)=\dfrac{事件A包含基本事件个数}{基本事件总数n}$。
<ul>
<li>有界性：$0 ≤ P(A) ≤ 1$</li>
<li>规范性： $P(\Omega)=1$、 $P(\emptyset)=0$</li>
<li>单调性：若 $A \subset B$，则$P(A) ≤ P(B)$</li>
<li>有限可加性：若$A_1, A_2, \cdots, A_n$两两互斥，则$P(A_1 + A_2 + \cdots + A_n) = P(A_1) + P(A_2) + \cdots + P(A_n)$</li>
</ul>
</li>
<li>
推论：
<ul>
<li>加法公式：$P(A+B)=P(A)+P(B)-P(AB)$</li>
<li>减法公式：$P(A-B)=P(A\overline{B})$</li>
<li>对立事件概率：$P(\overline{A})=1-P(A)$</li>
</ul>
</li>
</ul>
<h3 id="三-条件概率与全概率公式">三条件概率与全概率公式</h3>
<ul>
<li>
条件概率：$P(A|B)=\dfrac{P(AB)}{P(B)}$。
<ul>
<li>加法公式：$P(A+B|C)=P(A|C)+P(B|C)-P(AB|C)$</li>
</ul>
</li>
<li>
乘法公式：若$P(B)>0$，则$P(AB)=P(A|B)P(B)$。
</li>
<li>
事件的独立性：若$P(AB)=P(A)P(B)$，则事件$A$与$B$独立。
<ul>
<li>
设$P(B)>0$，则$A, B$独立$\iff P(A|B)=P(A)$
</li>
<li>
设事件$A_1,A_2,\cdots,A_n$相互独立，则：
<div class="math display">\[\begin{array}{l} P(A_1+A_2+\cdots+A_n) & = & 1-P(\overline{A_1+A_2+\cdots+A_n}) \\ & = & 1-P(\overline{A_1}\space\overline{A_2}\cdots\overline{A_n}) \\ & = & 1-P(\overline{A_1})\cdot P(\overline{A_2})\cdots P(\overline{A_n}) \end{array}
\]</div></li>
</ul>
</li>
<li>
全概率公式：设$B_1, B_2,\cdots ,B_n$为$\Omega$的一个完整事件组，且$P(B_i)>0(i=1,2,\cdots,n)$，则：$P(A)=\sum_{i=1}^nP(A|B_i)P(B_i)$。
<ul>
<li>完备事件组：①$B_i, B_j$两两互斥，②$B_1+B_2+\cdots+B_n=\Omega$。</li>
</ul>
</li>
<li>
贝叶斯公式：设$B_1, B_2,\cdots ,B_n$为$\Omega$的一个完整事件组，且$P(B_i)>0(i=1,2,\cdots,n)$，则对任意$P(A)>0$的事件：$P(B_i|A)=\dfrac{P(AB_i)}{P(A)}=\dfrac{P(A|B_i)P(B_i)}{\sum_{i=1}^nP(A|B_i)P(B_i)}$。
</li>
</ul>
<h2 id="第二章-一维随机变量">第二章一维随机变量</h2>
<h3 id="一-随机变量与分布函数">一随机变量与分布函数</h3>
<ul>
<li>
集合族：幂集的子集，可以理解为“集合的集合”。
</li>
<li>
事件域：设集合族$F$是样本空间$\Omega$的某些子集构成的一个集合族，且满足下面三个条件，则称$F$是$\Omega$上的一个事件域：
<ul>
<li>空集、全集在其中：$\empty \in F$，$\Omega \in F$</li>
<li>对补运算封闭：$A \in F \Longrightarrow \overline{A} \in F$
<ul>
<li>对可列并运算封闭：对任意有限个/可列个$A_i \in F$，都有 $A_1+A_2+\cdots+A_n \in F$。</li>
</ul>
</li>
</ul>
</li>
<li>
概率测度函数：给定样本空间$\Omega$和其上的事件域$F$，一个概率测度函数是从$F$到区间的映射$P: F \rightarrow $，并满足下面三条概率公理：
<ul>
<li>有界性：对任意事件$A\in F$，$0 ≤P(A) ≤1$</li>
<li>规范性：$P(\empty)=0$，$P(\Omega)=1$</li>
<li>可列可加性：对任意可列个互斥事件$A_1,A_2,\cdots,A_n,\cdots$，有：$P(A_1+A_2+\cdots+A_n+\cdots)=P(A_1)+P(A_2)+\cdots+P(A_n)+\cdots$</li>
</ul>
</li>
<li>
概率的公理化定义：概率测度函数是定义在某个事件域 $F$ 上的一个满足上述三条性质的函数 $P$，事件$A \in F$的概率是$P(A)$。
</li>
<li>
概率空间：一个三元组$(\Omega, F, P)$，包含样本空间、事件域、概率测度函数。
</li>
<li>
随机变量：设$(\Omega, F, P)$是一个概率空间，则随机变量是一个从样本空间$\Omega$到实数集$\R$的函数$X: \Omega \rightarrow \R$，并满足下面的条件：
<ul>
<li>
可测性：$\forall x \in \R, \{\omega \in \Omega | X(\omega) \leq x\} \in F$
</li>
<li>
可测性简化写法：$\forall x \in \R, \{X \leq x\} \in F$
</li>
<li>
可测性的含义：可以把$\{X \leq x\}$这种“所有使得函数值小于等于 $x$ 的样本点组成的集合”视为一个事件，作为概率测度函数$P$的自变量，进而合理谈论积分等数学操作。
</li>
<li>
注意事项：随机变量是一个函数，把样本点映射为数值
</li>
</ul>
</li>
<li>
分布函数：设$X$是一个定义在概率空间$(\Omega, F, P)$的随机变量，则其累计分布函数（Cumulative Distribution Function, 简称 CDF）记为：
<div class="math display">\[F_X(x)=P(X\leq x)=P(\omega\in \{\omega \in \Omega | X(\omega) \leq x\}),x\in \R
\]</div>即：对任意实数$x$，$F_X(x)$ 表示样本点$\omega$满足$X(\omega) \leq x$的概率。
</li>
<li>
分布函数的充要条件：
<ul>
<li>有界性：$0 \leq F(X) \leq 1$</li>
<li>规范性：$\lim_{x \to -\infty} F_X(x) = 0,\quad \lim_{x \to +\infty} F_X(x) = 1$</li>
<li>单调不减：$若\ x_1 < x_2,\ 则\ F_X(x_1) \le F_X(x_2)$。</li>
<li>右连续：$\lim_{x \to x_0^+} F_X(x) = F_X(x_0+0) = F_X(x_0)$</li>
</ul>
</li>
<li>
概率计算常用等式：小于等于就是函数值，小于就是左极限
<ul>
<li>
$P(X\leq a) = F(a)$
</li>
<li>
$P(X < a)=F(a-0)=\lim_{x \to a^-} F_X(x)$
</li>
<li>
$P(X=a)=F(a)-F(a-0)$
</li>
<li>
$P(a<X\leq b)=P(X\leq b)-P(X\leq a) = F(b)-F(a)$
</li>
</ul>
</li>
</ul>
<h3 id="二-离散型随机变量">二离散型随机变量</h3>
<ul>
<li>
离散型随机变量：函数值只有有限个或可列无限个值的随机变量$X: \Omega \rightarrow S$（$S$是可数集或可列无限集）。
</li>
<li>
分布律：设离散型随机变量$X$的所有可能取值为$x_1,x_2,\cdots$，则其分布律是一个概率质量函数：$p(x_i)=P(X=x_i)$。也可以用表格表示：
<table>
<thead>
<tr>
<th>$X$</th>
<th>$x_1$</th>
<th>$x_2$</th>
<th>$\cdots$</th>
</tr>
</thead>
<tbody>
<tr>
<td>$P(X=x_i)$</td>
<td>$p(x_1)$</td>
<td>$p(x_2)$</td>
<td>$\cdots$</td>
</tr>
</tbody>
</table>
</li>
</ul>
<h3 id="三-连续型随机变量">三连续型随机变量</h3>
<ul>
<li>
连续型随机变量概念：可以在某个区间（或多个区间）内取任意实数值。
</li>
<li>
分布函数：$F_X(x)=P(X\leq x)$。
</li>
<li>
概率密度函数：如果存在一个非负函数$f_X(x)$，使得对任意实数$x$，有：$F_X(x)=\int_{-\infin}^{x}f_X(t)\text{d}t$，则$X$为连续型随机变量，$f_X(x)$为$X$的概率密度函数。另外，如果$f(x)$是某个连续型随机变量$X$的概率密度函数，当且仅当具有以下三条性质：
<ul>
<li>可积性：$f(x)$不必连续，必须可积。</li>
<li>非负性：$\forall x\in \R, f(x)\geq0$。</li>
<li>规范性：$\int_{-\infin}^{+\infin}f(x)\text{d}x=F(+\infin)=1$。</li>
</ul>
</li>
<li>
设$X$为连续型随机变量，分布函数$F_X(X)$，概率密度函数为$f_X(x)$，则：
<ul>
<li>分布函数连续：$F_X(x)=\int_{-\infin}^{x}f_X(t)\text{d}t$</li>
<li>分布函数在概率密度函数连续点可导：$f_X(x)$在点$x_0$连续，则$F(x)$在点$x_0$可导，且$F_X'(x_0)=f_X(x_0)$</li>
<li>单点概率为零：$\forall x\in \R, P(X=x)=F_X(x)-F_X(x-0)=0$（因为$F_X(x)$连续）</li>
<li>区间概率：$P(a<X<b)$（无论是开区间、闭区间、半开半闭）$=\int_a^bf_X(x)\text{d}x$。</li>
<li>概率密度函数的广义定义：对任意可测集合$A$，可将其分解为互不相交的区间或简单集合的并$A=\cup_{i=1}^{\infin}(a_i,b_i]$，其中各区间可开可并不重叠。由概率的可列可加性和积分的可加性，$P(X\in \cup_{i=1}^{\infin}(a_i,b_i])=\sum_{i=1}^{\infin}\int_{a_i}^{b_i}f_X(t)\text{d}t$，所以，$\boxed{P(X\in A)=\int_Af_X(x)\text{d}x}$。</li>
</ul>
</li>
<li>
积分表：
<ul>
<li>$\int a^x\text{d}x = \dfrac{a^x}{\ln a}+C(a>0,a\neq 1)$</li>
<li>$\int e^{\lambda x}\text{d}x = \dfrac{e^{\lambda x}}{\lambda}+C$</li>
<li>$\int e^{-\lambda x}\text{d}x = -\dfrac{e^{-\lambda x}}{\lambda}+C$</li>
</ul>
</li>
</ul>
<h3 id="四-常见随机变量分布">四常见随机变量分布</h3>
<table>
<thead>
<tr>
<th>分布名称</th>
<th>类型</th>
<th>概率函数 / 密度函数 $f(x)$ 或 $P(X=x)$</th>
<th>分布函数 $F(x)$</th>
<th>期望 $E(X)$</th>
<th>方差 $\text{Var}(X)$</th>
</tr>
</thead>
<tbody>
<tr>
<td>两点分布 （伯努利分布）</td>
<td>离散</td>
<td>$\begin{array}{l} P(X=1)=p,\\ P(X=0)=1-p\end{array}$</td>
<td>阶梯函数： $F(x) = \begin{cases} 0 & x < 0 \\ 1-p & 0 \le x < 1 \\ 1 & x \ge 1 \end{cases}$</td>
<td>$p$</td>
<td>$p(1-p)$</td>
</tr>
<tr>
<td>二项分布 $B(n,p)$</td>
<td>离散</td>
<td>$\begin{array}{l} \binom{n}{k} p^k (1-p)^{n-k},\\ k=0,1,\dots,n\end{array}$</td>
<td>$F(x) = \sum_{k=0}^{\lfloor x \rfloor} \binom{n}{k} p^k (1-p)^{n-k}$</td>
<td>$np$</td>
<td>$np(1-p)$</td>
</tr>
<tr>
<td>泊松分布 $P(\lambda)$</td>
<td>离散</td>
<td>$\dfrac{\lambda^k e^{-\lambda}}{k!},\ k=0,1,2,\dots$</td>
<td>$F(x) = \sum_{k=0}^{\lfloor x \rfloor} \dfrac{\lambda^k e^{-\lambda}}{k!}$</td>
<td>$\lambda$</td>
<td>$\lambda$</td>
</tr>
<tr>
<td>超几何分布 $H(N,K,n)$</td>
<td>离散</td>
<td>$\begin{array}{l}\dfrac{\binom{K}{k}\binom{N-K}{n-k}}{\binom{N}{n}},\\ k=0,1,\dots,\min(n,K)\end{array}$</td>
<td>无显式表达，可通过累加计算</td>
<td>$n\cdot\frac{K}{N}$</td>
<td>$n\cdot\frac{K}{N}\cdot\left(1-\frac{K}{N}\right)\cdot\frac{N-n}{N-1}$</td>
</tr>
<tr>
<td>均匀分布 $U(a,b)$</td>
<td>连续</td>
<td>$f(x) = \dfrac{1}{b-a},\ a \le x \le b$</td>
<td>$F(x) = \begin{cases} 0 & x < a \\ \dfrac{x-a}{b-a} & a \le x \le b \\ 1 & x > b \end{cases}$</td>
<td>$\frac{a+b}{2}$</td>
<td>$\frac{(b-a)^2}{12}$</td>
</tr>
<tr>
<td>指数分布 $Exp(\lambda)$</td>
<td>连续</td>
<td>$f(x) = \lambda e^{-\lambda x},\ x \ge 0$</td>
<td>$F(x) = 1 - e^{-\lambda x},\ x \ge 0$</td>
<td>$\frac{1}{\lambda}$</td>
<td>$\frac{1}{\lambda^2}$</td>
</tr>
<tr>
<td>伽马分布 $\Gamma(k,\theta)$</td>
<td>连续</td>
<td>$\begin{array}{l}f(x) = \dfrac{x^{k-1}e^{-x/\theta}}{\theta^k \Gamma(k)},\\ x > 0\end{array}$</td>
<td>无显式表达，需数值积分</td>
<td>$k\theta$</td>
<td>$k\theta^2$</td>
</tr>
<tr>
<td>正态分布 $N(\mu,\sigma^2)$</td>
<td>连续</td>
<td>$f(x) = \dfrac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$</td>
<td>$F(x) = \Phi\left( \dfrac{x - \mu}{\sigma} \right)$，其中 $\Phi$ 是标准正态分布函数</td>
<td>$\mu$</td>
<td>$\sigma^2$</td>
</tr>
</tbody>
</table>
<ul>
<li>
指数分布性质：
<ul>
<li>分布函数：$F(x)=\int_0^x\lambda e^{-\lambda t}\text{d}t=[-e^{-\lambda t}]_0^x=1-e^{-\lambda x}$（注意下边是0）。</li>
<li>$P(X>a)=e^{-\lambda a}(a>0)$。</li>
<li>无记忆性：$P(X>s+t|X>s)=P(X>t)$，其中$s,t>0$。</li>
</ul>
</li>
<li>
正态分布性质：若$X\sim N(\mu, \sigma^2)$，则：
<ul>
<li>对称性：$P(X>\mu)=P(X<\mu)=\dfrac{1}{2}$</li>
<li>线性性：$Y=aX+b\sim N(a\mu+b, a^2\sigma^2)$</li>
<li>标准化：$Z=\dfrac{X-\mu}{\sigma}\sim N(0,1)$，故$P(a<X\leq b)=\Phi(\dfrac{b-\mu}{\sigma})-\Phi(\dfrac{a-\mu}{\sigma})$。</li>
<li>独立正态变量的线性组合仍服从正态分布：$X\sim N(\mu_1, \sigma_1^2),Y\sim N(\mu_2, \sigma_2^2)$，且$X$与$Y$相互独立，则非零线性组合$aX+bY\sim N(a\mu_1+b\mu_2,a^2\sigma_1^2+b^2\sigma_2^2)$。</li>
</ul>
</li>
</ul>
<h3 id="五-的分布">五 $Y=g(X)$的分布</h3>
<ul>
<li>离散型：多加一行表格。</li>
<li>连续型：
<ul>
<li>分布函数定义：$F_Y(y)=P(Y\leq y)=P(g(X)\leq y)=\int_{g(x)\leq y}f(x)\text{d}x$。</li>
<li>解不等式：解$g(x)\leq y$，得$x$的解集$\{x|g(x)\leq y\}$，记作$A$。
<ul>
<li>若$y$在$A$上单调递增：反函数求解：$F_Y(y)=P(X\leq h(y))=F_X(h(y))$，其中$h(y)$是$g(x)$的反函数。</li>
<li>若$y$在$A$上单调递减：$F_Y(y)=P(X\geq h(y))=1-P(X< h(y))=1-F_X(h(y))$。</li>
<li>若$y$在$A$上非单调，需分区间讨论$x$的取值范围。</li>
</ul>
</li>
<li>第二种理解：$P(g(X)\leq y)=\boxed{P(\omega\in \{\omega\in \Omega|g(X(\omega))\leq y\})=P(X(\omega)\in\{x\in \R|g(x)\leq y\})=\int_{g(x)\leq y}f_X(x)\text{d}x}$。
<ul>
<li>框式解释：因为$X(\omega)$是实数，所以$\boxed{ \{ \omega\in \Omega|g(X(\omega))\leq y \} = \{ \omega\in\Omega|X(\omega)\in\{x\in\R|g(x)\leq y \} \} }$ 。由于这两个事件是同一事件，所以把二者代入概率测度函数，函数值相等： $P(g(X(\omega))\leq y)=P(X(\omega)\in \{x\in\R|g(x)\leq y\})$。根据概率密度函数的广义定义，$P(X\in A)=\int_Af_X(x)\text{d}x$，所以把$A=\{x\in\R|g(x)\leq y\}$代入左式，得到上述式子。</li>
<li>注意事项：框式得到的实际上是勒贝格积分，但$A$为区间或分段区间时会退化到黎曼积分。</li>
</ul>
</li>
</ul>
</li>
</ul>
<h2 id="第三章-二维随机变量">第三章二维随机变量</h2>
<h3 id="一-二维随机变量联合分布函数与边缘分布函数">一二维随机变量、联合分布函数与边缘分布函数</h3>
<ul>
<li>
二维随机变量：设$X, Y$是定义在同一概率空间$(\Omega, F, P)$的两个随机变量，则称$(X,Y): \Omega\rightarrow\R^2$为一个二维随机变量。
</li>
<li>
联合分布函数：$(X,Y)$的联合分布函数为$F_{X,Y}(x,y)=P(X\leq x, Y\leq y),x,y\in \R$，即随机变量$X$不超过$x$且随机变量$Y$不超过$y$的联合概率。
<ul>
<li>
有界性：$0≤F_{X,Y}(x,y)≤1$。
</li>
<li>
规范性：以下四条
<ul>
<li>$F_{X,Y}(+\infin,+\infin)=1$、</li>
<li>$F_{X,Y}(x,-\infin)=0$、</li>
<li>$F_{X,Y}(-\infin,y)=0$、</li>
<li>$F_{X,Y}(-\infin,-\infin)=0$。</li>
</ul>
</li>
<li>
单调不减：
<ul>
<li>若$x_1<x_2$，则$F_{X,Y}(x_1,y)\leq F_{X,Y}(x_2,y)$。</li>
<li>若$y_1<y_2$，则$F_{X,Y}(x,y_1)\leq F_{X,Y}(x,y_2)$。</li>
</ul>
</li>
<li>
右连续：
<ul>
<li>
$F_{X,Y}(x+0,y)=F_{X,Y}(x,y)$
</li>
<li>
$F_{X,Y}(x,y+0)=F_{X,Y}(x,y)$
</li>
</ul>
</li>
</ul>
</li>
<li>
概率计算常用等式：
<ul>
<li>$P(x_1<X\leq x_2,y_1<Y\leq y_2) = F_{X,Y}(x_2,y_2)-F_{X,Y}(x_1,y_2)-F_{X,Y}(x_2,y_1)+F_{X,Y}(x_1,y_1)$</li>
<li>例如：$P(X>x_1, Y>x_2)=1-F_{X,Y}(x_1,+\infin)-F_{X,Y}(+\infin,y_1)+F_{X,Y}(x_1,y_1)$。</li>
</ul>
</li>
<li>
边缘分布函数：忽略一个变量，只对单独一个变量的概率分布。
<ul>
<li>设二维随机变量$(X,Y)$的联合分布函数为$F_{X,Y}(x,y)$，则：</li>
<li>$X$的边缘分布函数$F_X(x)=P(X\leq x)=P(X\leq x,Y \leq +\infin)=F_{X,Y}(x,+\infin)$。</li>
<li>$Y$的边缘分布函数$F_Y(y)=P(Y\leq y)=P(X \leq +\infin,Y\leq y)=F_{X,Y}(+\infin,y)$。，</li>
</ul>
</li>
</ul>
<h3 id="二-二维离散型随机变量">二二维离散型随机变量</h3>
<ul>
<li>
二维离散型随机变量：设$X, Y$是定义在同一概率空间$(\Omega, F, P)$的两个离散型随机变量，则称$(X,Y): \Omega\rightarrow S^2$为一个二维随机变量（$S^2$是可数集或可列无限集）。
</li>
<li>
联合分布律：$p_{ij}=P(X=x_i,Y=y_j)$或表格法。
</li>
<li>
边缘分布律：对于表格法来说，在最下和最右各加一栏求和。
<ul>
<li>$F_X(x)=P(X=x)=\sum_{y=0}^{+\infin}P(X=x,Y=y)$。</li>
<li>$F_Y(y)=P(Y=y)=\sum_{x=0}^{+\infin}P(X=x,Y=y)$。</li>
</ul>
</li>
<li>
条件分布律：
<ul>
<li>
$P(X=x_i|Y=y_i)=\dfrac{P(X=x_i,Y=y_i)}{P(Y=y_i)}$。
</li>
<li>
$P(Y=y_i|X=x_i)=\dfrac{P(X=x_i,Y=y_i)}{P(X=x_i)}$。
</li>
</ul>
</li>
<li>
判断独立性：联合分布律各行（列）成比例。
</li>
</ul>
<h3 id="三-二维连续型随机变量">三二维连续型随机变量</h3>
<ul>
<li>
二维连续型随机变量：若$(X,Y)$在平面上的某个区域中可以取任意不可数个实数值，则称$(X,Y): \Omega\rightarrow\R^2$为一个二维连续型随机变量。
</li>
<li>
联合分布函数：$F_{X,Y}(x,y)=P(X\leq x, Y\leq y),x,y\in \R$。
</li>
<li>
联合概率密度函数：若存在非负函数$f_{X,Y}(x,y)$，使得对任意$x,y\in \R$都有：$F_{X,Y}(x,y)=\int_{-\infin}^{y}\int_{-\infin}^{x}f_{X,Y}(u,v)\text{d}u\text{d}v$，则称$f_{X,Y}(x,y)$为$(X,Y)$的联合概率密度函数。
<ul>
<li>广义定义：设$D$为平面上任一区域，则$P((X,Y)\in D)=\iint_{D}f_{X,Y}(x,y)\text{d}x\text{d}y$。</li>
</ul>
</li>
<li>
边缘分布函数：忽略一个变量，只关心一个变量情况下的累计概率。
<ul>
<li>$X$的边缘分布函数：$F_X(x) = P(X \le x) = \lim_{y \to +\infty} F_{X,Y}(x, y)$，</li>
<li>$Y$的边缘分布函数：$F_Y(y) = P(Y \le y) = \lim_{x \to +\infty} F_{X,Y}(x, y)$。</li>
</ul>
</li>
<li>
边缘概率密度函数：保留关心的维度，把不关心的维度“积掉”
<ul>
<li>$X$的边缘概率密度函数：竖线，$f_X(x)=\int_{-\infty}^{+\infin} f_{X,Y}(x, y)\text{d}y$。</li>
<li>$Y$的边缘概率密度函数：横线，$f_Y(y) = \int_{-\infty}^{\infty} f_{X,Y}(x, y)\text{d}x$。</li>
<li>证明方法：由于$F_X(x) = \lim_{y \to +\infin}F_{X,Y}(x,y)= \int_{-\infty}^{x} \int_{-\infty}^{+\infin} f_{X,Y}(u, v)\text{d}v\text{d}u=\int_{-\infty}^{x}\left( \int_{-\infty}^{+\infin} f_{X,Y}(u, v)\text{d}v \right) \text{d}u$，所以$f_X(x)=\dfrac{\text{d}}{\text{d}x}\left[\int_{-\infty}^{x}\left( \int_{-\infty}^{+\infin} f_{X,Y}(u, v)\text{d}v \right) \text{d}u\right]$，记$g(u)= \int_{-\infty}^{+\infin} f_{X,Y}(u, v)\text{d}v$，则$f_X(x)=\dfrac{\text{d}}{\text{d}x}\left[\int_{-\infty}^{x}g(u) \text{d}u\right]=g(x)$（变上限积分）</li>
</ul>
</li>
<li>
条件分布函数与条件概率密度：
<ul>
<li>$X$的条件分布函数为：$F_{X|Y}(x|y)=P(X\leq x|Y=y)=\dfrac{\int_{-\infin}^x f_{X,Y}(u,y)\text{d}u}{f_Y(y)}$。</li>
<li>$Y$的条件分布函数为：$F_{Y|X}(y|x)=P(Y\leq y|X=x)=\dfrac{\int_{-\infin}^y f_{X,Y}(x,v)\text{d}v}{f_X(x)}$。</li>
<li>$X$的条件概率密度为：$f_{X|Y}(x|y)=\dfrac{f_{X,Y}(x,y)}{f_Y(y)}$。</li>
<li>$Y$的条件概率密度为：$f_{Y|X}(y|x)=\dfrac{f_{X,Y}(x,y)}{f_X(x)}$。</li>
</ul>
</li>
<li>
判断两个连续型随机变量是否独立：二者任选其一
<ul>
<li>$F_{X,Y}(x, y) = F_X(x) \cdot F_Y(y),\quad \forall x, y \in \mathbb{R}$。</li>
<li>$f_{X,Y}(x, y) = f_X(x) \cdot f_Y(y),\quad \text{除了测度为零的集合外}$。</li>
</ul>
</li>
<li>
判断两个随机变量是否独立的定义：$\forall A,B\subseteq \R, P(X\in A,且 Y\in B)=P(X\in A)P(Y \in B)$。
<ul>
<li>推论：若$X$与$Y$相互独立，且$f(x)$与$g(y)$是可测函数，则$f(X)$与$g(Y)$相互独立。</li>
</ul>
</li>
</ul>
<h3 id="四-的函数的分布">四 $Z=g(X,Y)$的函数的分布</h3>
由$F_Z(z)=P(Z\leq z)=P(g(X,Y)\leq z)$，对右边的集合变形：
<div class="math display">\[\{\omega\in\Omega|g(X(\omega),Y(\omega))\leq z\}=\{\omega\in\Omega|(X(\omega),Y(\omega))\in\{(x,y)\in\R^2|g(x,y)\leq z\}\}
\]</div>因为等号两边是同一个事件，所以代入概率测度函数得到的函数值相等。记$A_z=\{(x,y)\in\R^2|g(x,y)\leq z\}$，则$P(g(X,Y)\leq z)=P((X,Y)\in A_z)$。根据概率密度函数的广义定义：
<div class="math display">\[P((X,Y)\in A)=\iint_{A_z}f_{X,Y}(x,y)\text{d}x\text{d}y
\]</div>所以：
<div class="math display">\[\boxed{F_Z(z)=\iint_{g(x,y)\leq z}f_{X,Y}(x,y)\text{d}x\text{d}y}
\]</div>同样，最终得到的是勒贝格积分，但对于连续概率密度函数与规则区域，可视为二维黎曼积分。
此外，若$X_1,X_2,\cdots,X_n$相互独立，则：
$Z=\max(X_1,X_2,\cdots,X_n)$的分布函数为$F_{max}(z)=F_{X_1}(z)F_{X_2}(z)\cdots F_{X_n}(z)$，
$Z=\min(X_1,X_2,\cdots,X_n)$的分布函数为$F_{min}(z)=1-\cdots $。
<h2 id="第四章-数字特征">第四章数字特征</h2>
<h3 id="一-数学期望">一数学期望</h3>
<ul>
<li>离散型随机变量的数学期望：设随机变量$X$的分布律为$P(X=x_i)=p_i$，则期望$\boxed{E(X)=\sum_{i}x_ip_i}$。</li>
<li>离散型随机变量的函数的数学期望：设随机变量$X$的分布律为$P(X=x_i)=p_i$，$g(x)$是实值函数，则$\boxed{E(g(X))=\sum_ig(x_i)p_i}$。</li>
<li>连续型随机变量的数学期望：设随机变量$X$的概率密度函数为$f_X(x)$，则$\boxed{E(X)=\int_{-\infin}^{+\infin}xf(x)\text{d}x}$（绝对收敛）。</li>
<li>连续型随机变量的函数的数学期望：设随机变量$X$的概率密度函数为$f_X(x)$，$g(x)$是实值函数，则$\boxed{E(g(X))=\int_{-\infin}^{+\infin}g(x)f(x)\text{d}x}$。</li>
<li>二维随机变量的函数的数学期望：设$Z=g(X,Y)$是二维随机变量$(X,Y)$的一个实值函数，
<ul>
<li>离散型：$P(X=x_i,Y=y_j)=p_{ij}$。则$Z$的期望$\boxed{E(Z)=E(g(X,Y))=\sum_i\sum_jg(x_i,y_j)p_{ij}}$。</li>
<li>连续型：概率密度函数$f_{X,Y}(x,y)$，则$Z$的期望$\boxed{E(Z)=\int_{-\infin}^{+\infin}\int_{-\infin}^{+\infin}g(x,y)f(x,y)\text{d}x\text{d}y}$。</li>
</ul>
</li>
<li>数学期望的性质：
<ul>
<li>$E(aX+b)=aE(X)+b$</li>
<li>$E(X\pm Y)=E(X)\pm E(Y)$</li>
<li>若$X,Y$相互独立，则$E(XY)=E(X)E(Y)$</li>
</ul>
</li>
</ul>
<h3 id="二-方差">二方差</h3>
<ul>
<li>$D(x)$实际上求$X$的函数$Y=(X-E(X))^2$的数学期望。
<ul>
<li>离散型： $P(X=x_i)=p_i$，则$\boxed{D(X)=E((X-E(X))^2)=\sum_i(x_i-E(X))^2p_i}$。</li>
<li>连续型：概率密度函数$f_X(x)$，则$\boxed{D(X)=E((X-E(X))^2)=\int_{-\infin}^{+\infin}(x-E(X))^2f_X(x)\text{d}x}$。</li>
<li>$\boxed{D(X)=E(X^2)-(E(X))^2}$。</li>
</ul>
</li>
<li>方差的性质：
<ul>
<li>$D(aX+b)=a^2D(X)$</li>
<li>若$X,Y$相互独立，则$D(X\pm Y)=D(X)+D(Y)$（注意等号右边是加号）</li>
</ul>
</li>
</ul>
<h3 id="三-协方差和相关系数">三协方差和相关系数</h3>
<ul>
<li>
协方差：设$X,Y$是两个随机变量，期望分别为$E(X)$和$E(Y)$，则协方差：$\boxed{\text{Cov}(X,Y)=E[(X-E(X))(Y-E(Y))]=E(XY)-E(X)E(Y)}$
</li>
<li>
协方差的性质：
<ul>
<li>
$\text{Cov}(aX+b,cY+d)=ac\text{Cov}(X,Y)$、$\text{Cov}(X,X)=D(X)$
<ul>
<li>$\text{Cov}(X,Y)=\text{Cov}(Y,X)$、$\text{Cov}(X,C)=0$</li>
<li>$\text{Cov}(X,Y+Z)=\text{Cov}(X,Y)+\text{Cov}(X,Z)$、$\text{Cov}(X+Y,Z)=\text{Cov}(X,Z)+\text{Cov}(Y,Z)$</li>
<li>$D(X\pm Y)=D(X)+D(Y)\pm 2\text{Cov}(X,Y)$（知三求一）</li>
</ul>
</li>
<li>
若$X,Y$相互独立，则$\text{Cov}(X,Y)=0$，反着不成立。
</li>
</ul>
</li>
<li>
相关系数：设$X,Y$是两个随机变量，期望分别为$E(X)$和$E(Y)$，方差分别为$D(X)$和$D(Y)$，协方差为$\text{Cov}(X,Y)$则：$\text{Cov}(X,Y)$则：$\boxed{\rho_{XY}=\dfrac{\text{Cov}(X,Y)}{\sqrt{D(X)D(Y)}}}$。
</li>
<li>
相关系数的性质：
<ul>
<li>
若$\rho_{XY}=0$，则称$X$和$Y$不相关。
<ul>
<li>
不相关仅表示$X,Y$无限性关系，而独立表示$X,Y$完全无关系。
</li>
<li>
$X,Y$独立则一定不相关，而不相关不能推出独立。
</li>
</ul>
</li>
<li>
$|\rho_{XY}|\leq 1$、$\rho_{XY}=\rho_{YX}$、$\rho_{XX}=1$。
</li>
<li>
不相关的四个等价命题：两变量独立等价于协方差、相关系数为零、期望的乘积等于乘积的期望、和的方差可分解。
<div class="math display">\[\boxed{\text{Cov}(X,Y)=0\iff\rho_{XY}=0\iff E(XY)=E(X)E(Y)\iff D(X\pm Y)=D(X)+D(Y)}
\]</div></li>
</ul>
</li>
</ul>
<h3 id="四-协方差矩阵">四协方差矩阵</h3>
<ul>
<li>
随机向量$\boldsymbol{X}=(X_1,X_2,\cdots,X_n)^T$的协方差矩阵：设
<div class="math display">\[\boldsymbol{X} =
\begin{bmatrix}
X_1 \\
X_2 \\
\vdots \\
X_n
\end{bmatrix},\quad
E(\boldsymbol{X}) = \boldsymbol{\mu} =
\begin{bmatrix}
\mu_1 \\
\mu_2 \\
\vdots \\
\mu_n
\end{bmatrix}
\]</div>则：
<div class="math display">\[\text{Cov}(\boldsymbol{X}) = E \left((\boldsymbol{X} - \boldsymbol{\mu})(\boldsymbol{X} - \boldsymbol{\mu})^T \right)
\]</div>故：
<div class="math display">\[\boldsymbol{\Sigma} = \text{Cov}(\boldsymbol{X}) =
\begin{bmatrix}
\text{Cov}(X_1,X_1) & \text{Cov}(X_1,X_2) & \cdots & \text{Cov}(X_1,X_n) \\
\text{Cov}(X_2,X_1) & \text{Cov}(X_2,X_2) & \cdots & \text{Cov}(X_2,X_n) \\
\vdots & \vdots & \ddots & \vdots \\
\text{Cov}(X_n,X_1) & \text{Cov}(X_n,X_2) & \cdots & \text{Cov}(X_n,X_n)
\end{bmatrix}
\]</div>对于二维随机变量$\boldsymbol{Z}=(X,Y)^T$，由于$\text{Cov}(X,Y)=\text{Cov}(Y,X)$、$\text{Cov}(X,X)=D(X)$、$\text{Cov}(Y,Y)=D(Y)$，所以其协方差矩阵为：
<div class="math display">\[\text{Cov}(\boldsymbol{Z}) =
\begin{bmatrix}
D(X) & \text{Cov}(X,Y) \\
\text{Cov}(X,Y) & D(Y)
\end{bmatrix}
\]</div></li>
<li>
特殊性质：
<ul>
<li>如果随机变量 $X_1, X_2, \cdots, X_n$ 相互独立，根据两变量独立等价于协方差、相关系数为零、期望的乘积等于乘积的期望、和的方差可分解，所以协方差矩阵是对角矩阵：<div class="math display">\[\boldsymbol{\Sigma} = \text{Cov}(\boldsymbol{X}) =
\begin{bmatrix}
D(X_1) & 0 & \cdots & 0 \\
0 & D(X_2) & \cdots & 0 \\
\vdots & \vdots & \ddots & \vdots \\
0 & 0 & \cdots & D(X_n)
\end{bmatrix}
\]</div></li>
</ul>
</li>
</ul>
<h3 id="五-二维正态分布的数字特征">五二维正态分布的数字特征</h3>
二维正态分布 $(X, Y)$ 的概率密度函数为：
<div class="math display">\[f_{X,Y}(x,y) = \frac{1}{2\pi\sigma_X\sigma_Y\sqrt{1-\rho^2}}
\exp\left\{
-\frac{1}{2(1-\rho^2)}\left[
\left(\frac{x - \mu_X}{\sigma_X}\right)^2
- 2\rho\left(\frac{x - \mu_X}{\sigma_X}\right)\left(\frac{y - \mu_Y}{\sigma_Y}\right)
+ \left(\frac{y - \mu_Y}{\sigma_Y}\right)^2
\right]
\right\}
\]</div>其中参数满足：
<ul>
<li>$\mu_X$：$X$ 的数学期望；</li>
<li>$\mu_Y$：$Y$ 的数学期望；</li>
<li>$\sigma_X > 0$：$X$ 的标准差；</li>
<li>$\sigma_Y > 0$：$Y$ 的标准差；</li>
<li>$-1 < \rho < 1$：$X$ 与 $Y$ 的相关系数。</li>
</ul>
记作：
<div class="math display">\[(X, Y) \sim N(\mu_X, \mu_Y, \sigma_X^2, \sigma_Y^2, \rho)
\]</div><table>
<thead>
<tr>
<th>特征</th>
<th>表达式</th>
</tr>
</thead>
<tbody>
<tr>
<td>联合分布</td>
<td>$(X, Y) \sim N(\mu_X, \mu_Y, \sigma_X^2, \sigma_Y^2, \rho)$</td>
</tr>
<tr>
<td>边缘分布</td>
<td>$X \sim N(\mu_X, \sigma_X^2),\quad Y \sim N(\mu_Y, \sigma_Y^2)$</td>
</tr>
<tr>
<td>数学期望</td>
<td>$E(X) = \mu_X,\quad E(Y) = \mu_Y$</td>
</tr>
<tr>
<td>方差</td>
<td>$D(X) = \sigma_X^2,\quad D(Y) = \sigma_Y^2$</td>
</tr>
<tr>
<td>协方差</td>
<td>$\text{Cov}(X, Y) = \rho \sigma_X \sigma_Y$</td>
</tr>
<tr>
<td>相关系数</td>
<td>$\rho_{XY} = \rho$</td>
</tr>
<tr>
<td>独立条件</td>
<td>当且仅当 $\rho = 0$ 时，$X$ 与 $Y$ 独立</td>
</tr>
<tr>
<td>线性组合分布</td>
<td>$aX + bY \sim N(a\mu_X + b\mu_Y,\ a^2\sigma_X^2 + b^2\sigma_Y^2 + 2ab\rho\sigma_X\sigma_Y)$</td>
</tr>
</tbody>
</table>
<h3 id="六-多维正态分布">六多维正态分布</h3>
<ul>
<li>
多维正态分布定义：设 $\boldsymbol{X} = (X_1, X_2, \ldots, X_n)^T$ 是一个 $n$ 维随机向量，其期望为：
<div class="math display">\[\boldsymbol{\mu} = E(\boldsymbol{X}) =
\begin{bmatrix}
E(X_1) \\
E(X_2) \\
\vdots \\
E(X_n)
\end{bmatrix}
=
\begin{bmatrix}
\mu_1 \\
\mu_2 \\
\vdots \\
\mu_n
\end{bmatrix}
\]</div>其协方差矩阵为：
<div class="math display">\[\boldsymbol{\Sigma} = \text{Cov}(\boldsymbol{X}) = E\left((\boldsymbol{X} - \boldsymbol{\mu})(\boldsymbol{X} - \boldsymbol{\mu})^T\right)
\]</div>若$\boldsymbol{X}$ 的联合概率密度函数为：
<div class="math display">\[f_{\boldsymbol{X}}(\boldsymbol{x}) = \frac{1}{(2\pi)^{n/2}\text{det}(\boldsymbol{\Sigma})^{1/2}}
\exp\left\{
-\frac{1}{2} (\boldsymbol{x} - \boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1} (\boldsymbol{x} - \boldsymbol{\mu})
\right\}
\]</div>其中：
<ul>
<li>$\boldsymbol{x} = (x_1, x_2, \ldots, x_n)^T$ 是实数向量；</li>
<li>$\boldsymbol{\Sigma}$ 是 $n \times n$ 协方差矩阵，必须是对称正定矩阵；</li>
<li>$\text{det}(\boldsymbol{\Sigma})$ 表示矩阵 $\boldsymbol{\Sigma}$ 的行列式；</li>
</ul>
则称 $\boldsymbol{X}$ 服从 $n$ 维正态分布，记作：
<div class="math display">\[\boldsymbol{X} \sim N_n(\boldsymbol{\mu}, \boldsymbol{\Sigma})
\]</div>在人工智能相关的论文中，常写作$\boldsymbol{X} \sim \mathcal{N}_n(\boldsymbol{\mu}, \boldsymbol{\Sigma})$。
</li>
<li>
二维正态分布的表示：
<div class="math display">\[\boldsymbol{X} = \begin{bmatrix} X_1 \\ X_2 \end{bmatrix}
\sim \mathcal{N}_n\left(
\begin{bmatrix} \mu_1 \\ \mu_2 \end{bmatrix},
\begin{bmatrix}
\sigma_1^2 & \rho \sigma_1 \sigma_2 \\
\rho \sigma_1 \sigma_2 & \sigma_2^2
\end{bmatrix}
\right)
\]</div>如果用$\boldsymbol{Z}=(X,Y)^T$表示，则可以写成：
<div class="math display">\[\boldsymbol{Z} = \begin{bmatrix} X \\ Y \end{bmatrix}
\sim \mathcal{N}_n\left(
\begin{bmatrix} \mu_X \\ \mu_Y \end{bmatrix},
\begin{bmatrix}
\sigma_X^2 & \rho_{XY} \sigma_X \sigma_Y \\
\rho_{XY} \sigma_X \sigma_Y & \sigma_Y^2
\end{bmatrix}
\right)
\]</div></li>
<li>
标准正态分布：设一个 $ n $ 维随机向量：
<div class="math display">\[\boldsymbol{X} = \begin{bmatrix} X_1 \\ X_2 \\ \vdots \\ X_n \end{bmatrix}
\]</div>如果它的每个分量 $ X_i \sim N(0, 1) $，并且各分量之间相互独立，则称这个随机向量服从 n 维标准正态分布，记作：
<div class="math display">\[\boldsymbol{Z} \sim \mathcal{N}_n(\boldsymbol{0}, \boldsymbol{I}_n)
\]</div>其中：
<ul>
<li>$\boldsymbol{0}$ 是 $ n $ 维零向量（均值为0）；</li>
<li>$\boldsymbol{I}_n$ 是 $ n \times n $ 的单位矩阵（协方差矩阵是对角线为1、其余为0的矩阵），表示各个维度相互独立且方差为1。</li>
</ul>
</li>
</ul>
<h3 id="七-矩-常用不等式">七矩常用不等式</h3>
<ul>
<li>
k阶原点矩：$\mu_k'=E(X^k)$。数学期望是一阶原点矩。
</li>
<li>
k阶中心距：$\mu_k=E((X-E(X))^k)$。方差是二阶中心距。
</li>
<li>
矩生成函数：设$X$为随机变量，其矩生成函数定义为：$\boxed{M_X(t) = E(e^{tX}) = \int_{-\infty}^{\infty} e^{tx} f_X(x)\text{d}x}$。
<ul>
<li>
若$M_X(t)$在$t=0$的某个领域内存在且可导，则对任意正整数$k$，有：$\boxed{E(X^k)=\dfrac{\text{d}^k}{\text{d}t^k}M_X(t)\Bigg|_{t=0}}$
</li>
<li>
即：$M_X(t)$的k阶导数在$t=0$的值是$E(X^k)$。
</li>
</ul>
</li>
<li>
正态分布的矩生成函数：
<ul>
<li>由$f_X(x) = \dfrac{1}{\sqrt{2\pi}\sigma} \exp\left( -\dfrac{(x - \mu)^2}{2\sigma^2} \right)$，把它代入$M_X(t) = E(e^{tX}) = \int_{-\infty}^{\infty} e^{tx} f_X(x)\text{d}x$，合并同类项，得：</li>
<li>$M_X(t) = \int_{-\infty}^{\infty} e^{tx} \cdot \dfrac{1}{\sqrt{2\pi}\sigma} \exp\left( -\dfrac{(x - \mu)^2}{2\sigma^2} \right) \text{d}x= \dfrac{1}{\sqrt{2\pi}\sigma} \int_{-\infty}^{\infty} \exp\left( tx - \dfrac{(x - \mu)^2}{2\sigma^2} \right) \text{d}x$。完全平方，得：</li>
<li>$M_X(t)=\dfrac{1}{\sqrt{2\pi}\sigma} \int_{-\infty}^{\infty} \exp\left( -\dfrac{1}{2\sigma^2}(x - (\mu + \sigma^2 t))^2 + \dfrac{(\mu + \sigma^2 t)^2 - \mu^2}{2\sigma^2} \right) \text{d}x$。移动一些常数项，得：</li>
<li>$M_X(t) = \exp\left( \dfrac{(\mu + \sigma^2 t)^2 - \mu^2}{2\sigma^2} \right) \cdot \int_{-\infty}^{\infty} \dfrac{1}{\sqrt{2\pi}\sigma} \cdot \exp\left( -\dfrac{(x - (\mu + \sigma^2 t))^2}{2\sigma^2} \right) \text{d}x$。</li>
<li>注意到积分内是一个$N(\mu+\sigma^2t,\sigma^2)$的正态分布。根据$\int_{-\infin}^{+\infin}f_X(x)\text{d}x=1$，所以：</li>
<li>$M_X(t) = \exp\left( \dfrac{(\mu + \sigma^2 t)^2 - \mu^2}{2\sigma^2} \right)$，化简，得：$\boxed{M_X(t) = \exp\left( \mu t + \frac{1}{2} \sigma^2 t^2 \right)}$。</li>
</ul>
</li>
<li>
正态分布的原点矩与中心距（把$t=0$代入矩生成函数的各阶导数）：
<ul>
<li>一阶原点矩：$M'_X(t) = (\mu + \sigma^2 t) e^{\mu t + \frac{1}{2}\sigma^2 t^2} \Rightarrow E(X) = \mu$。</li>
<li>二阶原点矩：$M''_X(t) = [(\mu + \sigma^2 t)^2 + \sigma^2] e^{\mu t + \frac{1}{2}\sigma^2 t^2} \Rightarrow E(X^2) = \mu^2 + \sigma^2$。</li>
<li>三阶原点矩：$M'''_X(t) = [(\mu + \sigma^2 t)^3 + 3\sigma^2(\mu + \sigma^2 t)] e^{\mu t + \frac{1}{2}\sigma^2 t^2} \Rightarrow E(X^3) = \mu^3 + 3\mu\sigma^2$。</li>
<li>四阶原点矩：$M''''_X(t) = [(\mu + \sigma^2 t)^4 + 6\sigma^2(\mu + \sigma^2 t)^2 + 3\sigma^4] e^{\mu t + \frac{1}{2}\sigma^2 t^2} \Rightarrow E(X^4) = \mu^4 + 6\mu^2\sigma^2 + 3\sigma^4$。</li>
<li>奇数阶中心距：$\mu_k=E((X-E(X))^k)=\int_{-\infin}^{+\infin} (x-\mu)^kf_X(x)\text{d}x=\int_{-\infin}^{+\infin} (x-\mu)^ke^{-\frac{(x-\mu)^2}{2\sigma^2}}\text{d}x$。$k$是奇数时，积分符号内的式子关于$x=\mu$对称，所以积分结果为0。$\mu_k=0$。</li>
<li>偶数阶中心距：$\mu_k=\sigma^k(k-1)!!$（换元法，较为麻烦，这里直接给出结果）</li>
<li>方差的k次方：$D(X^k)=E(X^{2k})-(E(X^k))^2=\mu_{2k}'-\mu_{k}'^2$，$D(X^2)=4\mu^2\sigma^2+2\sigma^4$。</li>
</ul>
</li>
<li>
常用不等式：
<ul>
<li>琴生不等式：若$g''(x)\geq0$，则$E(g(X))\geq g(E(X))$，若$g(x)''\leq0$，则$E(g(X))\leq g(E(X))$。</li>
<li>柯西不等式：$(E(XY))^2\leq E(X^2)E(Y^2)$。</li>
<li>协方差绝对值有界：$|\text{Cov}(X,Y)|\leq \sqrt{D(X)D(Y)}$。</li>
</ul>
</li>
</ul> 
来源：https://www.cnblogs.com/kirina-official/p/18896426

頁: [1]

圆梦公社's Archiver

机器学习 概率统计基础 随机变量部分

机器学习概率统计基础随机变量部分