第九章统计

统计学的核心：基于样本数据推断总体特征。

一、统计学的必要性

1.1 从"全面调查"到"抽样调查"

在人类社会的早期，当人们需要了解某一群体的情况时，最直接的方法是对总体中所有个体进行调查——这就是全面调查（普查）。例如人口普查、经济普查等。

但全面调查面临三个根本性的困境：

困境	具体表现
破坏性	要检测灯泡寿命，必须把它点亮到烧毁；要检测食品质量，必须打开包装甚至品尝。检测完了，产品也就报废了。
不可行性	例如湖泊中的鱼数量、太平洋的海水总量等问题，其总体容量无法逐一清点。
不经济性	调查全国14亿人的某项指标，耗费的人力、物力、时间成本巨大，且往往没有必要。

因此，抽样调查方法被提出：从总体中抽取一部分个体进行调查，再用这部分个体的信息去推断总体的情况。 这就是抽样调查的核心思想。

核心观点：全面调查追求总体参数的精确值，而抽样调查追求在可控成本下获得总体参数的近似估计。统计学是在成本与精度之间进行权衡的科学。

1.2 "随机"二字的统计学含义

日常生活中，"随机"常被理解为"随便、任意"。但在统计学中，"随机"有极其严格的含义：

统计学中的"随机"是指：总体中每个个体被抽中的概率是明确可知且可以被控制的。

这包含两层要求：

等可能性：在简单随机抽样中，每个个体被抽中的概率相等。
独立性：每次抽取不影响其他个体被抽中的概率（有放回抽样），或者通过设计使得每个未被抽中的个体在下一步仍有公平的机会（无放回抽样，通过等概率理解）。

为什么要强调"随机"？因为只有抽样是随机的，样本才具有代表性，我们才能用概率论的工具来量化"样本估计总体"的误差大小。非随机抽样（如"街头随意采访"）往往带有隐蔽的偏向性，导致结论严重失真。

1.3 本章的知识脉络

获取数据 → 整理数据 → 分析数据 → 推断总体
   ↓          ↓          ↓           ↓
 抽样      频率分布    数字特征    统计推断
（9.1节）  （9.2节前半）（9.2节后半） （9.3节案例）

本章的底层逻辑是**"样本估计总体"**：如何科学地获取样本？如何整理样本数据？如何用样本的数字特征估计总体的数字特征？这正是统计学的基础。

二、基础精讲：随机抽样

2.1 简单随机抽样

定义

设一个总体含有 $N$ 个个体，从中逐个抽取 $n$ 个个体作为样本（ $n \leq N$ ），如果每次抽取时总体内的各个个体被抽到的机会都相等，且每次抽取后放回（或者对于不放回的情形，每个个体在整个抽样过程中被抽中的概率仍相等），就把这种抽样方法叫做简单随机抽样。

教材中的精确定义：一般地，设一个总体含有 $N$ 个个体，从中逐个不放回地抽取 $n$ 个个体作为样本（ $n \leq N$ ），如果每次抽取时总体内各个个体被抽到的机会都相等，就把这种抽样方法叫做简单随机抽样。

两种实现方法

方法一：抽签法

步骤：① 将总体的 $N$ 个个体编号；② 把号码写在号签上，放入不透明容器中搅拌均匀；③ 逐个不放回地抽取 $n$ 个号签，得到样本。

优点	缺点
操作简单直观，易于理解	总体容量 $N$ 很大时，制签、搅拌、抽取都很麻烦
不需要任何工具，现场即可完成	难以保证"搅拌均匀"，人为主观因素可能影响随机性
适合小总体（如班级抽5人）	不适合大总体

操作要点：号签必须充分搅拌均匀。若号签未充分搅匀，先制作的号签可能沉在底部，后制作的号签浮于上部，抽取时将产生系统性偏差。

方法二：随机数法

步骤：① 将总体的 $N$ 个个体编号（通常编为 $0, 1, 2, \dots, N - 1$ 或 $1, 2, \dots, N$ ）；② 在随机数表（或计算器、计算机产生的随机数）中任选一个起始位置；③ 按照一定的方向（如向右、向下）读取数字，若得到的数字在编号范围内且未被抽过，则入选样本；④ 重复直到抽满 $n$ 个。

现代实践中，更常用的是随机数生成器（计算器、Excel的RAND()函数、Python的random模块等）。

优点	缺点
适合大总体，操作便利	需要工具支持（计算器/计算机）
随机性由算法保证，不受人为干扰	伪随机数存在周期性（但周期极长，实际可忽略）
可重复验证	需要编号，对无法编号的总体不适用

两种方法的比较与选择

总体容量 N 小 → 抽签法（简便直观）
总体容量 N 大 → 随机数法（高效可靠）

考试中，重点考查随机数法的操作规则：编号几位就读几位，超出范围或重复的跳过。例如总体 $N = 500$ ，编号 $001 \sim 500$ ，则每次读三位， $000$ 、 $501 \sim 999$ 均跳过。

2.2 分层随机抽样

为什么需要分层？

简单随机抽样的一个隐含假设是：总体内部是同质的。但现实中，总体往往由差异明显的几部分组成。例如调查全校学生的身高，高一、高二、高三学生的身高分布明显不同；如果简单随机抽取，可能出现某一届学生被抽得过多或过少的情况。

分层抽样的核心思想：按照某种特征将总体分成若干层，使层内差异小、层间差异大，然后从每一层中独立地进行简单随机抽样，最后合并为样本。

定义

一般地，按一个或多个变量把总体划分成若干个子总体，每个子总体称为层，每层中独立地进行简单随机抽样，再把所有层中抽出的样本合在一起作为总样本，这样的抽样方法称为分层随机抽样。

分层标准如何选择？

这是分层抽样最关键也最困难的问题。好的分层标准应该满足：

与研究指标密切相关：分层变量应是影响研究指标的主要因素。例如调查收入，按行业/职业分层；调查成绩，按班级/层次分层。
层内同质、层间异质：同一层内的个体在研究指标上应尽量相似，不同层之间应尽量不同。这样才能保证"分层"有意义。
易于操作：分层变量必须是可以事先获知、便于分类的。例如学生事先知道年级班级，但不知道未来的考试成绩。
层数不宜过多：层数太多会使每层的样本量太小，抽样误差反而增大。

教材中的经典例子：调查高一年级学生的平均身高，按性别分为男生层和女生层。因为身高与性别高度相关，且男女生的身高分布差异明显，分层后估计更精确。

各层样本量的分配——抽样比

按比例分配（最常用的方法）：

设总体分为 $k$ 层，第 $i$ 层的个体数为 $N_{i}$ ，总体容量 $N = N_{1} + N_{2} + \dots + N_{k}$ 。

样本容量为 $n$ ，则第 $i$ 层应抽取的样本数为：

n_{i} = n \cdot \frac{N_{i}}{N} = n \cdot w_{i}

其中 $w_{i} = \frac{N_{i}}{N}$ 是第 $i$ 层在总体中的权重， $\frac{n_{i}}{N_{i}} = \frac{n}{N}$ 称为抽样比。

关键性质：按比例分配时，每一层的抽样比相同，都等于总抽样比 $\frac{n}{N}$ 。

若计算出的 $n_{i}$ 不是整数，通常四舍五入取整（也可采用其他取整方法，但需保证总和为 $n$ ）。

三、深度理解：用样本估计总体

3.1 频率分布表与频率分布直方图

为什么需要整理数据？

原始数据通常缺乏直观的结构特征，需要经过整理才能呈现分布规律。例如100个学生的成绩数据，直接观察难以把握其整体分布特征，需要按一定规则分组整理，才能揭示数据的分布形态。

频率分布表

分组	频数	频率
$[a_{1}, a_{2})$	$f_{1}$	$f_{1} / n$
$[a_{2}, a_{3})$	$f_{2}$	$f_{2} / n$
$\dots$	$\dots$	$\dots$
合计	$n$	$1$

频数：落在该组内的数据个数。
频率：频数与样本容量的比值，即 $频率 = \frac{频数}{样本容量}$ 。
各组频率之和为 $1$ 。

频率分布直方图纵坐标的推导

设样本容量为 $n$ ，数据分为 $k$ 组，第 $i$ 组的组距为 $d_{i}$ ，频数为 $f_{i}$ ，则该组频率为 $\frac{f_{i}}{n}$ 。

频率分布直方图的设计目标是：用矩形的几何面积表示该组的频率，使得不同组距的分组之间具有可比性。

设第 $i$ 个矩形的高度为 $h_{i}$ ，则其面积为 $S_{i} = d_{i} \cdot h_{i}$ 。要求 $S_{i}$ 与该组频率成正比，且满足归一化条件：

\sum_{i = 1}^{k} S_{i} = \sum_{i = 1}^{k} \frac{f_{i}}{n} = 1

取 $S_{i} = \frac{f_{i}}{n}$ ，即面积等于频率，则：

h_{i} = \frac{S_{i}}{d_{i}} = \frac{f_{i} / n}{d_{i}} = \frac{频 率_{i}}{组 距_{i}}

因此，纵坐标取 $\frac{频率}{组距}$ 时，矩形面积恰好等于该组频率，且所有矩形面积之和为 $1$ 。

数学依据：当样本容量 $n \to \infty$ 且最大组距趋于 $0$ 时，直方图趋近于概率密度曲线 $f (x)$ 。由大数定律， $\frac{f_{i}}{n} \approx P (x \in [a_{i}, a_{i + 1})) = \int_{a_{i}}^{a_{i + 1}} f (x) d x$ ，故

\frac{频 率}{组 距} = \frac{1}{d_{i}} \int_{a_{i}}^{a_{i + 1}} f (x) d x \to f (x) (d_{i} \to 0)

即纵坐标 $\frac{频率}{组距}$ 是概率密度函数的离散近似。

核心公式：
$矩形面积 = 组距 \times \frac{频率}{组距} = 频率$
$所有矩形面积之和 = 1$

由直方图估计总体数字特征

（1）众数

众数是出现次数最多的数值。在直方图中，最高矩形的中点所对应的横坐标值，作为众数的估计值。

注意：直方图只能给出众数"所在区间"，最高矩形中点只是合理的估计，并非精确的众数。

（2）中位数

中位数是将数据排序后位于中间位置的数（50%分位数）。在直方图中，中位数对应使左侧累积面积等于 $0.5$ （右侧累积面积亦等于 $0.5$ ）的横坐标值。

推导过程：设中位数落在第 $k$ 个矩形内，该矩形之前的累积面积为 $S_{k - 1}$ ，第 $k$ 个矩形的面积为 $A_{k}$ ，组距为 $d$ ，左端点为 $a$ 。

由中位数定义，左侧累积面积应等于 $0.5$ ，即：

S_{k - 1} + \frac{m - a}{d} \cdot A_{k} = 0.5

该式基于数据在第 $k$ 组内均匀分布的假设：频率在组距 $d$ 上均匀分布，故在子区间 $[a, m]$ 上的面积与区间长度 $(m - a)$ 成正比，比例为 $\frac{A_{k}}{d}$ 。

解得：

m = a + d \cdot \frac{0.5 - S_{k - 1}}{A_{k}}

该公式为线性插值公式：在数据均匀分布假设下，由面积比例确定中位数在组内的相对位置。

（3）平均数

平均数的估计采用"以组中值代表全组"的方法：

\bar{x} = \sum_{i = 1}^{k} (组 中 值_{i} \times 频 率_{i}) = \sum_{i = 1}^{k} (组 中 值_{i} \times {\frac{频 率}{组 距}}_{i} \times 组 距_{i})

注意：由于使用了组中值代替实际数据，直方图估计的平均数是近似值，精确度不如原始数据的平均数。

3.2 百分位数

引入的必要性

平均数和中位数只能反映数据的中心位置，但无法描述数据在两端的分布情况。例如，两个班级的平均分相同，但一个班级数据离散程度较大，另一个班级数据较为集中。我们需要更精细的工具来描述数据的位置特征。

百分位数应运而生：它能告诉我们"有多少比例的数据小于或等于某个值"。

定义

一般地，一组数据的第 $p$ 百分位数是这样一个值：它使得这组数据中至少有 $p %$ 的数据小于或等于这个值，且至少有 $(100 - p) %$ 的数据大于或等于这个值。

计算步骤

教材给出的计算步骤（人教A版）：

将数据按从小到大排列。
计算 $i = n \times p %$ 。
若 $i$ 不是整数，将 $i$ 向上取整，第 $i$ 项数据即为第 $p$ 百分位数。
若 $i$ 是整数，第 $p$ 百分位数为第 $i$ 项与第 $(i + 1)$ 项数据的平均数。

特别注意：这是人教A版教材的定义。不同统计软件（Excel、R、SPSS）和不同教材版本采用的插值方法可能不同。高中阶段严格按照教材定义计算。

常用百分位数

百分位数	名称	含义
25%	第一四分位数 $Q_{1}$	至少25%的数据小于等于它
50%	第二四分位数/中位数 $Q_{2}$	至少50%的数据小于等于它
75%	第三四分位数 $Q_{3}$	至少75%的数据小于等于它
90%	第90百分位数	至少90%的数据小于等于它

3.3 集中趋势的度量

平均数

\bar{x} = \frac{1}{n} (x_{1} + x_{2} + \dots + x_{n}) = \frac{1}{n} \sum_{i = 1}^{n} x_{i}

加权平均数：若数据 $x_{1}, x_{2}, \dots, x_{k}$ 出现的频率分别为 $w_{1}, w_{2}, \dots, w_{k}$ （ $\sum w_{i} = 1$ ），则

\bar{x} = \sum_{i = 1}^{k} w_{i} x_{i}

加权平均数是频率分布直方图估计平均数的理论基础——用组中值乘以频率（权重）求和。

中位数

将数据按大小顺序排列，位于中间位置的数。

$n$ 为奇数：第 $\frac{n + 1}{2}$ 个数。
$n$ 为偶数：第 $\frac{n}{2}$ 个数与第 $(\frac{n}{2} + 1)$ 个数的平均数。

众数

出现次数最多的数据值。一组数据可以有多个众数，也可以没有众数。

三者比较

特征	平均数	中位数	众数
利用所有数据	是	否（只用中间位置）	否（只用出现次数）
受极端值影响	大	小	无影响（只看频率）
唯一性	唯一	唯一	可能不唯一
适用场景	数据分布对称	存在极端值	关心"最常见"的值

实际应用：描述收入水平时，常用中位数而非平均数。因为少数高收入群体会显著拉高平均数，使平均值偏离典型水平。中位数更能反映典型水平。

3.4 离散程度的度量——方差与标准差

为什么需要度量离散程度？

两组数据可能有相同的平均数，但其离散程度可能完全不同。例如：

A班成绩：70, 70, 70, 70, 70（平均70，方差为0）
B班成绩：50, 60, 70, 80, 90（平均70，方差为200）

只看平均数无法区分这两种情况，因此需要度量"离散程度"的指标。

方差的定义

设数据 $x_{1}, x_{2}, \dots, x_{n}$ 的平均数为 $\bar{x}$ ，则方差为：

s^{2} = \frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}

标准差为方差的算术平方根：

s = \sqrt{\frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}}

人教A版高中教材中，方差分母为 $n$ （总体方差公式）。在统计学中，样本方差有时会使用 $n - 1$ 作为分母（无偏估计），但高中阶段统一使用 $n$ 。

方差公式的两种形式及其关系

形式一：定义式

s^{2} = \frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}

形式二：计算式

s^{2} = \frac{1}{n} \sum_{i = 1}^{n} x_{i}^{2} - {\bar{x}}^{2}

推导过程：

\begin{aligned} s^{2} & = \frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2} \\ = \frac{1}{n} \sum_{i = 1}^{n} (x_{i}^{2} - 2 x_{i} \bar{x} + {\bar{x}}^{2}) \\ = \frac{1}{n} \sum_{i = 1}^{n} x_{i}^{2} - \frac{2 \bar{x}}{n} \sum_{i = 1}^{n} x_{i} + \frac{1}{n} \sum_{i = 1}^{n} {\bar{x}}^{2} \\ = \frac{1}{n} \sum_{i = 1}^{n} x_{i}^{2} - 2 \bar{x} \cdot \bar{x} + {\bar{x}}^{2} \\ = \frac{1}{n} \sum_{i = 1}^{n} x_{i}^{2} - {\bar{x}}^{2} \end{aligned}

形式二的含义：方差 = 平方的均值 − 均值的平方。该形式在计算上更为便捷，特别是当数据较大时，配合新数据法可简化计算。

另一种等价写法：

s^{2} = \frac{1}{n} \sum_{i = 1}^{n} x_{i}^{2} - {(\frac{1}{n} \sum_{i = 1}^{n} x_{i})}^{2}

四、知识串联：数字特征的内在联系

4.1 平均数与方差的线性变换性质

设原数据为 $x_{1}, x_{2}, \dots, x_{n}$ ，平均数为 $\bar{x}$ ，方差为 $s_{x}^{2}$ 。

对数据进行线性变换： $y_{i} = a x_{i} + b$ （ $a, b$ 为常数）

平移不变性（ $a = 1$ 时）：

\bar{y} = \bar{x} + b, s_{y}^{2} = s_{x}^{2}

当 $a = 1, b = 10$ 时， $\bar{y} = \bar{x} + 10$ ， $s_{y}^{2} = s_{x}^{2}$ 。即数据平移不改变方差。

缩放性质（ $b = 0$ 时）：

\bar{y} = a \bar{x}, s_{y}^{2} = a^{2} s_{x}^{2}, s_{y} = | a | s_{x}

当 $a = 2, b = 0$ 时， $\bar{y} = 2 \bar{x}$ ， $s_{y}^{2} = 4 s_{x}^{2}$ 。即数据缩放使方差按平方倍变化。

一般线性变换：

\bar{y} = a \bar{x} + b, s_{y}^{2} = a^{2} s_{x}^{2}

完整推导：

\bar{y} = \frac{1}{n} \sum_{i = 1}^{n} (a x_{i} + b) = a \cdot \frac{1}{n} \sum_{i = 1}^{n} x_{i} + b = a \bar{x} + b

\begin{aligned} s_{y}^{2} & = \frac{1}{n} \sum_{i = 1}^{n} (y_{i} - \bar{y})^{2} \\ = \frac{1}{n} \sum_{i = 1}^{n} [(a x_{i} + b) - (a \bar{x} + b)]^{2} \\ = \frac{1}{n} \sum_{i = 1}^{n} [a (x_{i} - \bar{x})]^{2} \\ = a^{2} \cdot \frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2} \\ = a^{2} s_{x}^{2} \end{aligned}

这个性质在考试中极为常用。例如：已知一组数据的平均数和方差，求经过某种线性变换后的新数据的平均数和方差。

4.2 方差的简化计算——"新数据法"

当原始数据较大时，直接计算 $\bar{x}$ 和 $s^{2}$ 会很繁琐。利用线性变换性质，可以简化计算。

方法：令 $y_{i} = x_{i} - a$ （ $a$ 为接近平均数的常数，常取数据的"大概平均值"或某个中间值），先计算 $\bar{y}$ 和 $s_{y}^{2}$ ，再还原：

\bar{x} = \bar{y} + a, s_{x}^{2} = s_{y}^{2}

示例：计算 101, 102, 99, 100, 98 的平均数和方差。

令 $a = 100$ ，则 $y_{i} = x_{i} - 100$ 为：1, 2, -1, 0, -2。

\bar{y} = \frac{1 + 2 - 1 + 0 - 2}{5} = 0, s_{y}^{2} = \frac{1 + 4 + 1 + 0 + 4}{5} - 0^{2} = 2

故 $\bar{x} = 0 + 100 = 100$ ， $s_{x}^{2} = 2$ 。

这个技巧在手工计算时非常实用，也是考试中隐性考查的能力。

4.3 百分位数的实际意义

百分位数不仅是数学概念，在现实生活中有广泛应用：

收入分层：国家统计局常用"五等份分组"（20%、40%、60%、80%分位数）描述收入分配。
高考赋分：新高考改革中的"等级赋分"实质上就是按百分位数划分等级。
生长发育：儿童身高体重的"百分位曲线"，告诉家长孩子的发育水平处于同龄人的什么位置。
产品质量控制：某指标的第95百分位数作为"上限阈值"，超出即视为异常。

人教A版教材中提到的"高中低收入"划分，实质上是用分位数对社会群体进行分类，体现了统计学从数据到决策的应用价值。

4.4 分层抽样的总体均值与方差估计

当采用按比例分配的分层抽样时，可以用各层样本均值和方差来估计总体均值和方差。

设总体分为两层，第一层 $N_{1}$ 个个体，第二层 $N_{2}$ 个个体， $N = N_{1} + N_{2}$ 。样本中第一层抽 $n_{1}$ 个，第二层抽 $n_{2}$ 个。

总体均值估计：

{\bar{x}}_{总} = \frac{N_{1}}{N} {\bar{x}}_{1} + \frac{N_{2}}{N} {\bar{x}}_{2}

即各层样本均值的加权平均，权重为该层在总体中的比例。

总体方差估计（了解层次）：

s^{2} = \frac{N_{1}}{N} [s_{1}^{2} + ({\bar{x}}_{1} - {\bar{x}}_{总})^{2}] + \frac{N_{2}}{N} [s_{2}^{2} + ({\bar{x}}_{2} - {\bar{x}}_{总})^{2}]

该公式将总体方差分解为层内方差与层间差异两部分，此内容属于更高层次的统计理论，高中阶段不作深入要求。

五、重要考点与常见错误

隐性考点1：分层抽样中各层抽样比的确定

核心问题：什么时候各层抽样比相同？什么时候不同？

按比例分配：各层抽样比都等于总抽样比 $\frac{n}{N}$ 。
不按比例分配：有时根据各层的特殊情况（如方差大小、调查成本）采用不同的抽样比，但高中阶段默认按比例分配。

易错点：题目说"从男生中抽 $m$ 人，从女生中抽 $n$ 人"时，要验证是否满足 $\frac{m}{N_{男}} = \frac{n}{N_{女}}$ ，若不满足则不是按比例分配。

典型考题：某校高一、高二、高三人数比为 $3 : 2 : 1$ ，用分层抽样抽取120人，则高一应抽多少人？

n_{高 一} = 120 \times \frac{3}{3 + 2 + 1} = 120 \times \frac{1}{2} = 60

隐性考点2：由直方图求众数、中位数、平均数的方法差异

数字特征	直方图估计方法	精确计算方法
众数	最高矩形底边中点的横坐标	出现次数最多的数据值
中位数	左右面积各为0.5的位置，线性插值	排序后中间位置的数
平均数	组中值 × 频率，加权求和	原始数据求和除以 $n$

三者的计算方法完全不同。众数对应最高矩形底边中点的横坐标；中位数对应使左右面积各为0.5的位置，需通过线性插值计算；平均数为组中值与频率的加权求和。若混淆则均会产生错误。

隐性考点3：方差的简化计算（新数据法）

这是高效计算的重要方法，也是高考中节省时间的关键技巧。

公式回顾：设 $y_{i} = x_{i} - a$ ，则 $s_{x}^{2} = s_{y}^{2}$ 。

进阶技巧：设 $y_{i} = \frac{x_{i} - a}{b}$ （即先做平移再做缩放），则 $x_{i} = b y_{i} + a$ ，于是：

\bar{x} = b \bar{y} + a, s_{x}^{2} = b^{2} s_{y}^{2}

示例：计算 4012, 4008, 4015, 4005, 4010 的方差。

令 $y_{i} = \frac{x_{i} - 4010}{1} = x_{i} - 4010$ ，得：2, -2, 5, -5, 0。

\bar{y} = 0, s_{y}^{2} = \frac{4 + 4 + 25 + 25 + 0}{5} = \frac{58}{5} = 11.6

故 $s_{x}^{2} = 11.6$ ， $\bar{x} = 4010$ 。

隐性考点4：平均数与方差的线性变换公式

这是本章的高频考点，几乎每次考试都会涉及。

公式总结：若 $y_{i} = a x_{i} + b$ ，则：

$\bar{y} = a \bar{x} + b$
$s_{y}^{2} = a^{2} s_{x}^{2}$ （注意：与 $b$ 无关！）
$s_{y} = | a | s_{x}$

常见误区：

数据先扩大3倍再增加5，方差变为原来的 $3^{2} = 9$ 倍，与"+5"无关。
数据标准化： $z_{i} = \frac{x_{i} - \bar{x}}{s_{x}}$ ，则 $\bar{z} = 0$ ， $s_{z} = 1$ 。

六、易错警示：认知层面的错误根源

易错点1：混淆"频率"与"频数"

概念	定义	性质
频数	某组中数据的个数	整数，可大于1
频率	频数 / 样本容量	$[0, 1]$ 之间的实数，各组频率和为1

错误根源：两词字形相近，但含义完全不同。频数为数据个数，频率为数据个数与样本容量的比值。

典型错误：在直方图中说"矩形的高度表示频率"。正确说法：矩形的高度表示"频率/组距"，矩形的面积表示频率。

易错点2：直方图面积=频率（不是高度）

错误根源：受"条形图"的干扰。条形图的纵坐标通常就是"数量"或"频率"，高度直接代表大小。但直方图不同——

条形图：各条之间有空隙，宽度无意义，高度 = 数值大小。
直方图：各矩形紧密相连，宽度代表组距，面积 = 频率。

只有当组距相等时，矩形高度之比才等于频率之比。组距不等时，高度之比不等于频率之比！

典型错误类型：给出组距不等的直方图，问哪组频率最大。只看高度会产生误判，必须计算面积（高度×组距）。

易错点3：计算方差时分母是 $n$ 还是 $n - 1$ ？

错误根源：大学统计学与高中统计学的分歧。

高中阶段（人教A版教材）：分母用 $n$ ，即 $s^{2} = \frac{1}{n} \sum (x_{i} - \bar{x})^{2}$ 。
大学统计学：样本方差分母用 $n - 1$ （无偏估计），总体方差分母用 $N$ 。

结论：高考中严格按教材，分母是 $n$ 。

为什么是 $n - 1$ ？简要说明：样本均值 $\bar{x}$ 本身由数据估计得到，消耗了1个自由度。 $n$ 个数据受1个约束条件限制，剩余自由度为 $n - 1$ 。此内容超出高中范围，高中阶段只需按教材规定使用分母 $n$ 。

易错点4：百分位数的位置确定

错误根源：不同软件/教材采用不同定义，而高考必须严格按照人教A版教材的定义。

人教A版定义（严格遵循）：

排序： $x_{(1)} \leq x_{(2)} \leq \dots \leq x_{(n)}$
计算 $i = n \times p %$
若 $i$ 不是整数，将 $i$ 向上取整为 $[i] + 1$ ，第 $[i] + 1$ 项数据为第 $p$ 百分位数。
若 $i$ 是整数，第 $p$ 百分位数为第 $i$ 项与第 $(i + 1)$ 项数据的平均数。

示例：数据 3, 5, 7, 9, 11, 13, 15（ $n = 7$ ），求第25百分位数。

$i = 7 \times 0.25 = 1.75$ ，不是整数，向上取整为 $2$ 。第25百分位数是排序后的第2个数：5。

对比：若 $n = 8$ ，数据 3, 5, 7, 9, 11, 13, 15, 17，求第25百分位数。

$i = 8 \times 0.25 = 2$ ，是整数。第25百分位数为第2项与第3项的平均数： $\frac{5 + 7}{2} = 6$ 。

注意：不同统计软件可能采用不同的插值方法，但高考严格以教材定义为准。

易错点5：分层抽样中总体均值与样本均值的混淆

错误根源：分层抽样后，不能简单地把各层样本均值求算术平均作为总体均值估计。

正确做法：总体均值 = 各层均值的加权平均，权重是该层在总体中的比例。

错误示例：高一抽10人平均160cm，高二抽10人平均170cm，高三抽10人平均175cm。若三层人数相同，则总体均值为 $\frac{160 + 170 + 175}{3}$ ；若三层人数不同，则不能简单算术平均！

七、思想方法

7.1 样本估计总体——统计推断思想

统计学的核心任务不是描述样本本身，而是通过样本推断总体。

这一思想包含三个层次：

用样本频率分布估计总体分布：频率分布直方图的形状近似反映总体分布的形态。
用样本数字特征估计总体数字特征： $\bar{x} \approx μ$ ， $s^{2} \approx σ^{2}$ 。
量化估计的误差：虽然高中不涉及置信区间，但需明确估计存在误差，且误差大小与样本量有关。

核心思想：总体参数通常无法精确获知，但可通过科学方法在可控成本下获得满足精度要求的估计。

7.2 数据分析——从数据中提取信息

原始数据需经统计方法处理才能提取有效信息。

整理数据：分组、制表、画图，使隐藏的规律可视化。
描述数据：用数字特征刻画数据的中心位置和离散程度。
解读数据：结合实际背景，将统计结果转化为有意义的结论。

人教A版教材第9.3节的"统计案例"——公司员工肥胖情况调查分析，正是这一思想方法的具体实践：从收集数据、整理数据到分析数据、得出结论，完整展现统计在实际问题中的应用流程。

7.3 本章涉及的数学思想

思想方法	具体体现
数形结合	频率分布表 → 频率分布直方图，将数字信息转化为几何直观
转化化归	新数据法（通过线性变换将复杂计算转化为简单计算）
分类讨论	分层抽样按层分别处理；百分位数计算中 $i$ 是否为整数的不同处理
函数与方程	直方图中位数的线性插值（列方程求解）
特殊与一般	从具体样本推断抽象总体；从有限总体理解无限总体

八、本章知识网络图

                            统计（用样本估计总体）
                                   │
            ┌──────────────────────┼──────────────────────┐
            │                      │                      │
         获取数据               整理数据               分析数据
            │                      │                      │
      ┌─────┴─────┐           频率分布表           ┌─────┴─────┐
      │           │                ↓               │           │
   普查      抽样调查      频率分布直方图      集中趋势    离散程度
                  │        （面积=频率）       ┌──┬──┐     ┌──┬──┐
            ┌─────┴─────┐                     │  │  │     │  │  │
            │           │                    平均 中位 众数  方差 标准 极差
       简单随机    分层随机                     数  数  数   s²   差   R
            │           │
        ┌───┴───┐    按比例分配
      抽签法  随机数法

九、公式定理速查表

公式/定理	表达式	备注
抽样比	$\frac{n}{N}$	分层抽样中各层相同（按比例分配时）
频率	$\frac{频数}{样本容量}$	各组频率之和为1
直方图纵坐标	$\frac{频率}{组距}$	矩形面积 = 频率
平均数	$\bar{x} = \frac{1}{n} \sum x_{i}$	加权形式： $\sum w_{i} x_{i}$
方差（定义式）	$s^{2} = \frac{1}{n} \sum (x_{i} - \bar{x})^{2}$	分母为 $n$
方差（计算式）	$s^{2} = \frac{1}{n} \sum x_{i}^{2} - {\bar{x}}^{2}$	常用简化计算
标准差	$s = \sqrt{s^{2}}$	与原始数据同单位
线性变换	$\bar{y} = a \bar{x} + b, s_{y}^{2} = a^{2} s_{x}^{2}$	$y_{i} = a x_{i} + b$
分层总体均值	${\bar{x}}_{总} = \sum w_{i} {\bar{x}}_{i}$	$w_{i} = \frac{N_{i}}{N}$
中位数插值	$m = a + d \times \frac{0.5 - S_{前}}{A_{当前}}$	直方图估算公式

十、复习建议

抓核心：本章的核心是"样本估计总体"，所有知识点都围绕这一主线展开。
重理解：不应机械记忆公式，而应理解频率直方图纵坐标取值为频率/组距的原理、方差分母取 $n$ 的依据、以及中位数稳健性的原因。
勤比较：比较简单随机抽样与分层抽样的适用场景；比较众数、中位数、平均数三者的优缺点；比较条形图与直方图的区别。
多练习：重点练习"由直方图求数字特征""分层抽样的计算""线性变换后的方差计算"三类题型。
常见易错点：特别注意"频率vs频数""面积vs高度"" $n$ vs $n - 1$ ""向上取整vs插值"四个易错点。

统计学的学习不只是为了考试，更是为了培养一种数据思维——在当前信息环境下，能够理性地、批判性地看待数据，从数据中提取有效信息，做出合理决策。该能力具有长期应用价值。

第九章 统计 ​

一、统计学的必要性 ​

1.1 从"全面调查"到"抽样调查" ​

1.2 "随机"二字的统计学含义 ​

1.3 本章的知识脉络 ​

二、基础精讲：随机抽样 ​

2.1 简单随机抽样 ​

定义 ​

两种实现方法 ​

两种方法的比较与选择 ​

2.2 分层随机抽样 ​

为什么需要分层？ ​

定义 ​

分层标准如何选择？ ​

各层样本量的分配——抽样比 ​

三、深度理解：用样本估计总体 ​

3.1 频率分布表与频率分布直方图 ​

为什么需要整理数据？ ​

频率分布表 ​

频率分布直方图纵坐标的推导 ​

由直方图估计总体数字特征 ​

3.2 百分位数 ​

引入的必要性 ​

定义 ​

计算步骤 ​

常用百分位数 ​

3.3 集中趋势的度量 ​

平均数 ​

中位数 ​

众数 ​

三者比较 ​

3.4 离散程度的度量——方差与标准差 ​

为什么需要度量离散程度？ ​

方差的定义 ​

方差公式的两种形式及其关系 ​

四、知识串联：数字特征的内在联系 ​

4.1 平均数与方差的线性变换性质 ​

4.2 方差的简化计算——"新数据法" ​

4.3 百分位数的实际意义 ​

4.4 分层抽样的总体均值与方差估计 ​

五、重要考点与常见错误 ​

隐性考点1：分层抽样中各层抽样比的确定 ​

隐性考点2：由直方图求众数、中位数、平均数的方法差异 ​

隐性考点3：方差的简化计算（新数据法） ​

隐性考点4：平均数与方差的线性变换公式 ​

六、易错警示：认知层面的错误根源 ​

易错点1：混淆"频率"与"频数" ​

易错点2：直方图面积=频率（不是高度） ​

易错点3：计算方差时分母是 n 还是 n−1？ ​

易错点4：百分位数的位置确定 ​

易错点5：分层抽样中总体均值与样本均值的混淆 ​

七、思想方法 ​

7.1 样本估计总体——统计推断思想 ​

7.2 数据分析——从数据中提取信息 ​

7.3 本章涉及的数学思想 ​

八、本章知识网络图 ​

九、公式定理速查表 ​

十、复习建议 ​

第九章统计

一、统计学的必要性

1.1 从"全面调查"到"抽样调查"

1.2 "随机"二字的统计学含义

1.3 本章的知识脉络

二、基础精讲：随机抽样

2.1 简单随机抽样

定义

两种实现方法

两种方法的比较与选择

2.2 分层随机抽样

为什么需要分层？

定义

分层标准如何选择？

各层样本量的分配——抽样比

三、深度理解：用样本估计总体

3.1 频率分布表与频率分布直方图

为什么需要整理数据？

频率分布表

频率分布直方图纵坐标的推导

由直方图估计总体数字特征

3.2 百分位数

引入的必要性

定义

计算步骤

常用百分位数

3.3 集中趋势的度量

平均数

中位数

众数

三者比较

3.4 离散程度的度量——方差与标准差

为什么需要度量离散程度？

方差的定义

方差公式的两种形式及其关系

四、知识串联：数字特征的内在联系

4.1 平均数与方差的线性变换性质

4.2 方差的简化计算——"新数据法"

4.3 百分位数的实际意义

4.4 分层抽样的总体均值与方差估计

五、重要考点与常见错误

隐性考点1：分层抽样中各层抽样比的确定

隐性考点2：由直方图求众数、中位数、平均数的方法差异

隐性考点3：方差的简化计算（新数据法）

隐性考点4：平均数与方差的线性变换公式

六、易错警示：认知层面的错误根源

易错点1：混淆"频率"与"频数"

易错点2：直方图面积=频率（不是高度）

易错点3：计算方差时分母是 $n$ 还是 $n - 1$ ？

易错点4：百分位数的位置确定

易错点5：分层抽样中总体均值与样本均值的混淆

七、思想方法

7.1 样本估计总体——统计推断思想

7.2 数据分析——从数据中提取信息

7.3 本章涉及的数学思想

八、本章知识网络图

九、公式定理速查表

十、复习建议