概率论与数理统计是考研数学(特别是数学一和数学三)的重要组成部分,通常占据约33%的分数。这部分内容虽然计算量相对高等数学较小,但概念抽象、公式繁多,且容易与线性代数结合出题。本文将深入剖析核心考点,并提供一套高效的复习策略,帮助考生在备考过程中有的放矢,事半功倍。
一、 随机事件与概率
这是概率论的基石,虽然基础,但往往是后续复杂问题的简化模型。
核心考点解析
事件的关系与运算:
- 包含关系:若事件A发生,则事件B必然发生,记作 \(A \subseteq B\)。
- 互斥关系(互不相容):\(A \cap B = \emptyset\),即A和B不能同时发生。
- 对立事件:\(A \cup B = \Omega\) 且 \(A \cap B = \emptyset\),记 \(B = \bar{A}\)。
- 德·摩根定律(对偶原理):\(\overline{A \cup B} = \bar{A} \cap \bar{B}\),\(\overline{A \cap B} = \bar{A} \cup \bar{B}\)。这是处理“至少有一个”或“都不”的常用工具。
三大概型:
- 古典概型:样本空间有限,每个样本点等可能。\(P(A) = \frac{m}{n}\)。
- 几何概型:样本空间是无限的(如区间、区域),利用长度、面积或体积计算概率。
- 伯努利概型(二项分布雏形):\(n\) 次独立重复试验中,事件A恰好发生 \(k\) 次的概率:\(P_n(k) = C_n^k p^k (1-p)^{n-k}\)。
概率公式:
- 加法公式:\(P(A \cup B) = P(A) + P(B) - P(AB)\)。
- 条件概率:\(P(A|B) = \frac{P(AB)}{P(B)}\)。
- 全概率公式:若 \(B_1, B_2, ..., B_n\) 构成完备事件组,则 \(P(A) = \sum_{i=1}^n P(A|B_i)P(B_i)\)。关键点:寻找导致A发生的所有“原因”。
- 贝叶斯公式:\(P(B_i|A) = \frac{P(A|B_i)P(B_i)}{\sum_{j=1}^n P(A|B_j)P(B_j)}\)。关键点:已知结果A发生,推断是由原因 \(B_i\) 导致的概率。
典型例题与代码模拟
题目:甲乙两人独立射击,甲命中率0.8,乙命中率0.6。两人同时射击,求目标被击中的概率。
解析: 设A为“甲命中”,B为“乙命中”。 目标被击中即 \(A \cup B\)。 \(P(A \cup B) = P(A) + P(B) - P(AB)\)。 因为独立,\(P(AB) = P(A)P(B) = 0.8 \times 0.6 = 0.48\)。 \(P(A \cup B) = 0.8 + 0.6 - 0.48 = 0.92\)。
Python 模拟验证: 我们可以通过蒙特卡洛模拟来验证这个概率结果。
import random
def simulate_hit_probability(trials=100000):
hit_count = 0
for _ in range(trials):
# 模拟甲是否命中 (0-1之间随机数小于0.8则命中)
甲命中 = random.random() < 0.8
# 模拟乙是否命中
乙命中 = random.random() < 0.6
if 甲命中 or 乙命中:
hit_count += 1
return hit_count / trials
# 运行模拟
probability = simulate_hit_probability()
print(f"模拟得到的击中概率: {probability:.4f}")
# 输出应接近 0.92
二、 一维随机变量及其分布
这是考研概率的绝对重点,几乎所有大题都会涉及。
核心考点解析
离散型随机变量:
- 分布律:\(P(X=x_k) = p_k\)。
- 常见分布:
- 0-1分布 \(B(1, p)\)。
- 二项分布 \(B(n, p)\):\(n\) 次伯努利试验。
- 泊松分布 \(P(\lambda)\):描述稀有事件,\(P(X=k) = \frac{\lambda^k e^{-\lambda}}{k!}\)。当 \(n\) 很大,\(p\) 很小时,二项分布近似泊松分布。
- 几何分布 \(G(p)\):第一次成功所需的试验次数。
连续型随机变量:
- 概率密度函数 (PDF) \(f(x)\):\(\int_{-\infty}^{+\infty} f(x) dx = 1\),\(P(a \le X \le b) = \int_a^b f(x) dx\)。
- 分布函数 (CDF) \(F(x) = P(X \le x) = \int_{-\infty}^x f(t) dt\)。
- 常见分布:
- 均匀分布 \(U(a, b)\):\(f(x) = \frac{1}{b-a}, \quad a \le x \le b\)。
- 指数分布 \(E(\lambda)\):具有无记忆性,\(f(x) = \lambda e^{-\lambda x}, \quad x > 0\)。
- 正态分布 \(N(\mu, \sigma^2)\):重中之重!
- 标准正态分布 \(\Phi(x)\)。
- 标准化公式:若 \(X \sim N(\mu, \sigma^2)\),则 \(\frac{X-\mu}{\sigma} \sim N(0, 1)\)。
随机变量函数的分布:
- 已知 \(X\) 的分布,求 \(Y = g(X)\) 的分布。
- 公式法(单调函数):\(F_Y(y) = F_X(g^{-1}(y))\) 或 \(f_Y(y) = f_X(g^{-1}(y)) \cdot |(g^{-1}(y))'|\)。
- 定义法(通用):\(F_Y(y) = P(Y \le y) = P(g(X) \le y)\),然后根据 \(X\) 的类型进行积分或求和。
典型例题与代码模拟
题目:设 \(X \sim N(1, 4)\),求 \(P(0 < X < 2)\)。
解析: \(\mu = 1, \sigma^2 = 4 \Rightarrow \sigma = 2\)。 标准化:\(P(0 < X < 2) = P(\frac{0-1}{2} < \frac{X-1}{2} < \frac{2-1}{2}) = P(-0.5 < Z < 0.5)\)。 查标准正态分布表:\(\Phi(0.5) - \Phi(-0.5) = 2\Phi(0.5) - 1 \approx 2 \times 0.6915 - 1 = 0.383\)。
Python 计算验证:
利用 scipy 库进行精确计算。
from scipy.stats import norm
def calculate_normal_prob(mu, sigma, low, high):
# norm.cdf 是累积分布函数
prob = norm.cdf(high, loc=mu, scale=sigma) - norm.cdf(low, loc=mu, scale=sigma)
return prob
# 参数
mu = 1
sigma = 2 # 注意 scale 参数是标准差
low = 0
high = 2
prob = calculate_normal_prob(mu, sigma, low, high)
print(f"P(0 < X < 2) = {prob:.4f}")
# 输出应为 0.3829
三、 多维随机变量及其分布
此部分开始涉及变量间的相互关系,是区分度较高的考点。
核心考点解析
联合分布:
- 联合分布律(离散):\(P(X=x_i, Y=y_j) = p_{ij}\)。
- 联合密度函数(连续):\(f(x,y)\),\(\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} f(x,y) dxdy = 1\)。
边缘分布:
- 离散:\(P(X=x_i) = \sum_j p_{ij}\)。
- 连续:\(f_X(x) = \int_{-\infty}^{+\infty} f(x,y) dy\)。
条件分布:
- \(f_{Y|X}(y|x) = \frac{f(x,y)}{f_X(x)}\)。
独立性:
- 判定:\(f(x,y) = f_X(x) \cdot f_Y(y)\) 或 \(p_{ij} = p_{i\cdot} \cdot p_{\cdot j}\)。
- 注意:不相关 \(\neq\) 独立(除非是正态分布)。独立一定不相关,反之不成立。
常见二维分布:
- 二维均匀分布:\(f(x,y) = \frac{1}{S_D}, \quad (x,y) \in D\)。
- 二维正态分布:\(N(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho)\)。其边缘分布仍是正态分布,且独立性等价于 \(\rho=0\)。
典型例题
题目:设 \((X, Y)\) 服从区域 \(D = \{(x,y) | 0 < x < 1, 0 < y < 2x\}\) 上的均匀分布。求边缘密度 \(f_X(x)\) 和 \(f_Y(y)\)。
解析:
- 联合密度:区域面积 \(S_D = \frac{1}{2} \times 1 \times 2 = 1\)。故 \(f(x,y) = 1, (x,y) \in D\),否则为0。
- 求 \(f_X(x)\): 对于 \(0 < x < 1\), \(y\) 的范围是 \(0 < y < 2x\)。 \(f_X(x) = \int_{-\infty}^{+\infty} f(x,y) dy = \int_0^{2x} 1 dy = 2x\)。 所以 \(f_X(x) = 2x, \quad 0 < x < 1\)。
- 求 \(f_Y(y)\): 对于 \(0 < y < 2\), \(x\) 的范围是 \(y/2 < x < 1\)(由 \(y < 2x\) 推导)。 \(f_Y(y) = \int_{-\infty}^{+\infty} f(x,y) dx = \int_{y/2}^{1} 1 dx = 1 - \frac{y}{2}\)。 所以 \(f_Y(y) = 1 - \frac{y}{2}, \quad 0 < y < 2\)。
四、 随机变量的数字特征
这是考研大题的高频考点,常与求分布结合考察。
核心考点解析
数学期望 \(E(X)\):
- 离散:\(E(X) = \sum x_i p_i\)。
- 连续:\(E(X) = \int_{-\infty}^{+\infty} x f(x) dx\)。
- 性质:\(E(aX+bY) = aE(X) + bE(Y)\)。
方差 \(D(X) = Var(X)\):
- 定义:\(D(X) = E[(X - E(X))^2] = E(X^2) - [E(X)]^2\)。
- 性质:
- \(D(aX+b) = a^2 D(X)\)。
- \(X, Y\) 独立 \(\Rightarrow D(X \pm Y) = D(X) + D(Y)\)。
协方差与相关系数:
- 协方差 \(Cov(X, Y) = E[XY] - E(X)E(Y)\)。
- 相关系数 \(\rho_{XY} = \frac{Cov(X, Y)}{\sqrt{D(X)}\sqrt{D(Y)}}\)。
- \(\rho_{XY} = 0\) 称为 \(X\) 与 \(Y\) 不相关。
切比雪夫不等式:
- \(P\{|X - E(X)| \ge \epsilon\} \le \frac{D(X)}{\epsilon^2}\)。用于估计概率。
常见分布的数字特征表(必背)
| 分布名称 | 记号 | 期望 \(E(X)\) | 方差 \(D(X)\) |
|---|---|---|---|
| 0-1分布 | \(B(1, p)\) | \(p\) | \(p(1-p)\) |
| 二项分布 | \(B(n, p)\) | \(np\) | \(np(1-p)\) |
| 泊松分布 | \(P(\lambda)\) | \(\lambda\) | \(\lambda\) |
| 几何分布 | \(G(p)\) | \(1/p\) | \((1-p)/p^2\) |
| 均匀分布 | \(U(a, b)\) | \((a+b)/2\) | \((b-a)^2/12\) |
| 指数分布 | \(E(\lambda)\) | \(1/\lambda\) | \(1/\lambda^2\) |
| 正态分布 | \(N(\mu, \sigma^2)\) | \(\mu\) | \(\sigma^2\) |
五、 大数定律与中心极限定理
这部分多为选择题考点,理解概念即可。
核心考点解析
- 切比雪夫大数定律:方差有界,则算术平均依概率收敛于期望。
- 伯努利大数定律:频率依概率收敛于概率 \(p\)。
- 辛钦大数定律:独立同分布且期望存在,则样本均值依概率收敛于期望。
- 列维-林德伯格定理(中心极限定理):
- 独立同分布的随机变量序列,只要期望和方差存在,当 \(n\) 很大时,\(\frac{\sum_{i=1}^n X_i - n\mu}{\sigma\sqrt{n}}\) 近似服从标准正态分布 \(N(0,1)\)。
- 棣莫弗-拉普拉斯定理:二项分布 \(B(n,p)\) 当 \(n\) 很大时,可用正态分布近似计算。
六、 数理统计基础
从这部分开始进入“统计”领域,重点在于样本数据的处理。
核心考点解析
总体与样本:
- \(X_1, ..., X_n\) 是简单随机样本(独立同分布)。
统计量:
- 样本均值 \(\bar{X} = \frac{1}{n}\sum X_i\)。
- 样本方差 \(S^2 = \frac{1}{n-1}\sum (X_i - \bar{X})^2\)。注意分母是 \(n-1\)(无偏性)。
- 样本原点矩 \(A_k = \frac{1}{n}\sum X_i^k\)。
- 样本中心矩 \(B_k = \frac{1}{n}\sum (X_i - \bar{X})^k\)。
三大抽样分布(重中之重):
- \(\chi^2\) 分布:\(n\) 个独立标准正态变量的平方和。\(E(\chi^2(n)) = n, D(\chi^2(n)) = 2n\)。
- \(t\) 分布:\(Z \sim N(0,1), V \sim \chi^2(n)\),则 \(T = \frac{Z}{\sqrt{V/n}} \sim t(n)\)。
- \(F\) 分布:\(U \sim \chi^2(n_1), V \sim \chi^2(n_2)\),则 \(F = \frac{U/n_1}{V/n_2} \sim F(n_1, n_2)\)。
正态总体的抽样性质(必背):
- 设 \(X_1, ..., X_n\) 来自 \(N(\mu, \sigma^2)\)。
- \(\bar{X} \sim N(\mu, \frac{\sigma^2}{n})\)。
- \(\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)\)。
- \(\frac{\bar{X} - \mu}{S/\sqrt{n}} \sim t(n-1)\) (注意这里用 \(S\) 代替 \(\sigma\))。
七、 参数估计
这是大题的必考内容。
核心考点解析
点估计:
- 矩估计法:用样本矩(如 \(\bar{X}, A_2\))等于总体矩(如 \(\mu, E(X^2)\)),解方程组得到参数估计。
- 极大似然估计法 (MLE):
- 写出似然函数 \(L(\theta) = \prod_{i=1}^n f(x_i; \theta)\)。
- 取对数 \(\ln L(\theta)\)。
- 求导 \(\frac{d}{d\theta} \ln L(\theta) = 0\)。
- 解方程。
区间估计:
- 枢轴量法:构造一个包含待估参数 \(\theta\) 但分布已知的函数 \(G(X, \theta)\)。
- 单正态总体均值:
- \(\sigma\) 已知:\(\bar{X} \pm Z_{\alpha/2} \frac{\sigma}{\sqrt{n}}\)。
- \(\sigma\) 未知:\(\bar{X} \pm t_{\alpha/2}(n-1) \frac{S}{\sqrt{n}}\)。
- 单正态总体方差:
- \(\mu\) 未知:\(\frac{(n-1)S^2}{\chi^2_{\alpha/2}(n-1)} \le \sigma^2 \le \frac{(n-1)S^2}{\chi^2_{1-\alpha/2}(n-1)}\)。
典型例题:极大似然估计
题目:设 \(X_1, ..., X_n\) 是来自指数分布 \(f(x; \lambda) = \lambda e^{-\lambda x} (x>0)\) 的样本,求 \(\lambda\) 的极大似然估计。
解析:
- 似然函数:\(L(\lambda) = \prod_{i=1}^n \lambda e^{-\lambda x_i} = \lambda^n e^{-\lambda \sum x_i}\)。
- 对数似然:\(\ln L(\lambda) = n \ln \lambda - \lambda \sum x_i\)。
- 求导:\(\frac{d}{d\lambda} \ln L(\lambda) = \frac{n}{\lambda} - \sum x_i\)。
- 令导数为0:\(\frac{n}{\lambda} = \sum x_i \Rightarrow \hat{\lambda} = \frac{n}{\sum x_i} = \frac{1}{\bar{X}}\)。
Python 代码实现: 模拟生成指数分布数据,计算 MLE。
import numpy as np
import matplotlib.pyplot as plt
# 设定真实参数
lambda_true = 2.0
n_samples = 100
# 生成样本 (numpy.random.exponential 的参数是 scale=1/lambda)
data = np.random.exponential(scale=1/lambda_true, size=n_samples)
# 计算极大似然估计
lambda_mle = 1 / np.mean(data)
print(f"真实 lambda: {lambda_true}")
print(f"样本均值: {np.mean(data):.4f}")
print(f"MLE 估计 lambda: {lambda_mle:.4f}")
八、 假设检验
通常作为数理统计部分的收尾,多为填空或选择。
核心考点解析
- 两类错误:
- 第一类错误(弃真):\(H_0\) 为真,但拒绝了 \(H_0\)。概率记为 \(\alpha\)(显著性水平)。
- 第二类错误(取伪):\(H_0\) 为假,但接受了 \(H_0\)。概率记为 \(\beta\)。
- 正态总体均值的检验:
- \(\sigma\) 已知:\(Z\) 检验。
- \(\sigma\) 未知:\(t\) 检验。
- 检验步骤:
- 提出假设 \(H_0, H_1\)。
- 选取统计量(如 \(Z, t, \chi^2\))。
- 在 \(H_0\) 成立下,确定统计量的分布。
- 拒绝域(双侧或单侧)。
九、 高效复习策略
掌握了核心考点后,如何高效复习是拿高分的关键。
1. 阶段化复习规划
- 基础阶段(7月-8月):
- 目标:理解概念,掌握公式。
- 方法:看视频课(推荐方浩、王式安等),做教材课后习题(推荐浙大版《概率论与数理统计》)。重点搞懂“分布函数”和“数字特征”的计算逻辑。
- 强化阶段(9月-10月):
- 目标:构建知识体系,攻克大题。
- 方法:使用复习全书(如李永乐、张宇)。重点练习多维分布(求边缘密度、条件密度)和参数估计(矩估计、MLE)。必须动手算,不能只看。
- 冲刺阶段(11月-12月):
- 目标:真题模拟,查漏补缺。
- 方法:做近15年真题。分析错题,特别是数理统计部分的计算细节(如 \(S^2\) 还是 \(\sigma^2\),\(n\) 还是 \(n-1\))。
2. 核心技巧与避坑指南
- 建立“分布-数字特征”双向链接:
- 看到分布要能立刻反应出期望和方差。
- 看到期望方差要能联想到可能的分布(如 \(E(X)=np, D(X)=np(1-p)\) 对应二项分布)。
- 区分“分布”与“数字特征”:
- 求分布是求 \(F(x)\) 或 \(f(x)\),这是最根本的。
- 求期望方差是求导数或积分,有时可以通过分布律直接算,有时需要利用性质简化。
- 正态总体是核心:
- 数理统计部分90%的题目都是基于正态总体的。
- 务必背熟:\(\bar{X} \sim N(\mu, \sigma^2/n)\),\(\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)\),\(\frac{\bar{X}-\mu}{S/\sqrt{n}} \sim t(n-1)\)。
- 关于“独立性”的判断:
- 在多维随机变量中,若 \(f(x,y) = g(x)h(y)\),则独立。
- 若 \(f(x,y)\) 有定义域限制(如三角形区域),通常不独立,除非定义域是矩形且 \(f(x,y)\) 可分离。
- 计算能力的训练:
- 概率论的计算往往涉及积分(二重积分)和求导。在强化阶段,要刻意训练计算复杂积分的能力,例如涉及 \(e^{-x^2}\) 的积分。
3. 错题本的使用
概率论的陷阱很多,建议按以下分类记录错题:
- 概念混淆类:例如把“不相关”当成“独立”。
- 积分计算类:二重积分积分限找错,或者换元出错。
- 公式记忆类:例如方差公式 \(D(X) = E(X^2) - [E(X)]^2\) 记反。
4. 考场时间分配建议
- 概率论大题通常出现在试卷的后半部分(第20-22题左右)。
- 分值权重:虽然内容比高数少,但分值密度高。
- 策略:
- 如果遇到求分布的题目,务必检查归一化条件(积分为1)。
- 参数估计的题目通常是“送分题”,步骤要写全:写出似然函数、取对数、求导、解方程、写出估计量。
- 如果是假设检验,步骤也是标准化的:假设、统计量、分布、拒绝域、结论。
通过以上对核心考点的深度解析和复习策略的指导,相信你对概率论与数理统计的备考有了更清晰的路线图。坚持“重基础、抓重点、练计算”,这部分的分数一定能稳稳拿到手。
