第九章 统计
统计学的核心:基于样本数据推断总体特征。
一、统计学的必要性
1.1 从"全面调查"到"抽样调查"
在人类社会的早期,当人们需要了解某一群体的情况时,最直接的方法是对总体中所有个体进行调查——这就是全面调查(普查)。例如人口普查、经济普查等。
但全面调查面临三个根本性的困境:
| 困境 | 具体表现 |
|---|---|
| 破坏性 | 要检测灯泡寿命,必须把它点亮到烧毁;要检测食品质量,必须打开包装甚至品尝。检测完了,产品也就报废了。 |
| 不可行性 | 例如湖泊中的鱼数量、太平洋的海水总量等问题,其总体容量无法逐一清点。 |
| 不经济性 | 调查全国14亿人的某项指标,耗费的人力、物力、时间成本巨大,且往往没有必要。 |
因此,抽样调查方法被提出:从总体中抽取一部分个体进行调查,再用这部分个体的信息去推断总体的情况。 这就是抽样调查的核心思想。
核心观点:全面调查追求总体参数的精确值,而抽样调查追求在可控成本下获得总体参数的近似估计。统计学是在成本与精度之间进行权衡的科学。
1.2 "随机"二字的统计学含义
日常生活中,"随机"常被理解为"随便、任意"。但在统计学中,"随机"有极其严格的含义:
统计学中的"随机"是指:总体中每个个体被抽中的概率是明确可知且可以被控制的。
这包含两层要求:
- 等可能性:在简单随机抽样中,每个个体被抽中的概率相等。
- 独立性:每次抽取不影响其他个体被抽中的概率(有放回抽样),或者通过设计使得每个未被抽中的个体在下一步仍有公平的机会(无放回抽样,通过等概率理解)。
为什么要强调"随机"?因为只有抽样是随机的,样本才具有代表性,我们才能用概率论的工具来量化"样本估计总体"的误差大小。非随机抽样(如"街头随意采访")往往带有隐蔽的偏向性,导致结论严重失真。
1.3 本章的知识脉络
获取数据 → 整理数据 → 分析数据 → 推断总体
↓ ↓ ↓ ↓
抽样 频率分布 数字特征 统计推断
(9.1节) (9.2节前半)(9.2节后半) (9.3节案例)本章的底层逻辑是**"样本估计总体"**:如何科学地获取样本?如何整理样本数据?如何用样本的数字特征估计总体的数字特征?这正是统计学的基础。
二、基础精讲:随机抽样
2.1 简单随机抽样
定义
设一个总体含有
教材中的精确定义:一般地,设一个总体含有
个个体,从中逐个不放回地抽取 个个体作为样本( ),如果每次抽取时总体内各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样。
两种实现方法
方法一:抽签法
步骤:① 将总体的
| 优点 | 缺点 |
|---|---|
| 操作简单直观,易于理解 | 总体容量 |
| 不需要任何工具,现场即可完成 | 难以保证"搅拌均匀",人为主观因素可能影响随机性 |
| 适合小总体(如班级抽5人) | 不适合大总体 |
操作要点:号签必须充分搅拌均匀。若号签未充分搅匀,先制作的号签可能沉在底部,后制作的号签浮于上部,抽取时将产生系统性偏差。
方法二:随机数法
步骤:① 将总体的
现代实践中,更常用的是随机数生成器(计算器、Excel的
RAND()函数、Python的random模块等)。
| 优点 | 缺点 |
|---|---|
| 适合大总体,操作便利 | 需要工具支持(计算器/计算机) |
| 随机性由算法保证,不受人为干扰 | 伪随机数存在周期性(但周期极长,实际可忽略) |
| 可重复验证 | 需要编号,对无法编号的总体不适用 |
两种方法的比较与选择
总体容量 N 小 → 抽签法(简便直观)
总体容量 N 大 → 随机数法(高效可靠)考试中,重点考查随机数法的操作规则:编号几位就读几位,超出范围或重复的跳过。例如总体
,编号 ,则每次读三位, 、 均跳过。
2.2 分层随机抽样
为什么需要分层?
简单随机抽样的一个隐含假设是:总体内部是同质的。但现实中,总体往往由差异明显的几部分组成。例如调查全校学生的身高,高一、高二、高三学生的身高分布明显不同;如果简单随机抽取,可能出现某一届学生被抽得过多或过少的情况。
分层抽样的核心思想:按照某种特征将总体分成若干层,使层内差异小、层间差异大,然后从每一层中独立地进行简单随机抽样,最后合并为样本。
定义
一般地,按一个或多个变量把总体划分成若干个子总体,每个子总体称为层,每层中独立地进行简单随机抽样,再把所有层中抽出的样本合在一起作为总样本,这样的抽样方法称为分层随机抽样。
分层标准如何选择?
这是分层抽样最关键也最困难的问题。好的分层标准应该满足:
与研究指标密切相关:分层变量应是影响研究指标的主要因素。例如调查收入,按行业/职业分层;调查成绩,按班级/层次分层。
层内同质、层间异质:同一层内的个体在研究指标上应尽量相似,不同层之间应尽量不同。这样才能保证"分层"有意义。
易于操作:分层变量必须是可以事先获知、便于分类的。例如学生事先知道年级班级,但不知道未来的考试成绩。
层数不宜过多:层数太多会使每层的样本量太小,抽样误差反而增大。
教材中的经典例子:调查高一年级学生的平均身高,按性别分为男生层和女生层。因为身高与性别高度相关,且男女生的身高分布差异明显,分层后估计更精确。
各层样本量的分配——抽样比
按比例分配(最常用的方法):
设总体分为
样本容量为
其中
关键性质:按比例分配时,每一层的抽样比相同,都等于总抽样比
若计算出的
不是整数,通常四舍五入取整(也可采用其他取整方法,但需保证总和为 )。
三、深度理解:用样本估计总体
3.1 频率分布表与频率分布直方图
为什么需要整理数据?
原始数据通常缺乏直观的结构特征,需要经过整理才能呈现分布规律。例如100个学生的成绩数据,直接观察难以把握其整体分布特征,需要按一定规则分组整理,才能揭示数据的分布形态。
频率分布表
| 分组 | 频数 | 频率 |
|---|---|---|
| 合计 |
- 频数:落在该组内的数据个数。
- 频率:频数与样本容量的比值,即
。 - 各组频率之和为
。
频率分布直方图纵坐标的推导
设样本容量为
频率分布直方图的设计目标是:用矩形的几何面积表示该组的频率,使得不同组距的分组之间具有可比性。
设第
取
因此,纵坐标取
数学依据:当样本容量
即纵坐标
核心公式:
由直方图估计总体数字特征
(1)众数
众数是出现次数最多的数值。在直方图中,最高矩形的中点所对应的横坐标值,作为众数的估计值。
注意:直方图只能给出众数"所在区间",最高矩形中点只是合理的估计,并非精确的众数。
(2)中位数
中位数是将数据排序后位于中间位置的数(50%分位数)。在直方图中,中位数对应使左侧累积面积等于
推导过程:设中位数落在第
由中位数定义,左侧累积面积应等于
该式基于数据在第
解得:
该公式为线性插值公式:在数据均匀分布假设下,由面积比例确定中位数在组内的相对位置。
(3)平均数
平均数的估计采用"以组中值代表全组"的方法:
注意:由于使用了组中值代替实际数据,直方图估计的平均数是近似值,精确度不如原始数据的平均数。
3.2 百分位数
引入的必要性
平均数和中位数只能反映数据的中心位置,但无法描述数据在两端的分布情况。例如,两个班级的平均分相同,但一个班级数据离散程度较大,另一个班级数据较为集中。我们需要更精细的工具来描述数据的位置特征。
百分位数应运而生:它能告诉我们"有多少比例的数据小于或等于某个值"。
定义
一般地,一组数据的第
计算步骤
教材给出的计算步骤(人教A版):
- 将数据按从小到大排列。
- 计算
。 - 若
不是整数,将 向上取整,第 项数据即为第 百分位数。 - 若
是整数,第 百分位数为第 项与第 项数据的平均数。
特别注意:这是人教A版教材的定义。不同统计软件(Excel、R、SPSS)和不同教材版本采用的插值方法可能不同。高中阶段严格按照教材定义计算。
常用百分位数
| 百分位数 | 名称 | 含义 |
|---|---|---|
| 25% | 第一四分位数 | 至少25%的数据小于等于它 |
| 50% | 第二四分位数/中位数 | 至少50%的数据小于等于它 |
| 75% | 第三四分位数 | 至少75%的数据小于等于它 |
| 90% | 第90百分位数 | 至少90%的数据小于等于它 |
3.3 集中趋势的度量
平均数
加权平均数:若数据
加权平均数是频率分布直方图估计平均数的理论基础——用组中值乘以频率(权重)求和。
中位数
将数据按大小顺序排列,位于中间位置的数。
为奇数:第 个数。 为偶数:第 个数与第 个数的平均数。
众数
出现次数最多的数据值。一组数据可以有多个众数,也可以没有众数。
三者比较
| 特征 | 平均数 | 中位数 | 众数 |
|---|---|---|---|
| 利用所有数据 | 是 | 否(只用中间位置) | 否(只用出现次数) |
| 受极端值影响 | 大 | 小 | 无影响(只看频率) |
| 唯一性 | 唯一 | 唯一 | 可能不唯一 |
| 适用场景 | 数据分布对称 | 存在极端值 | 关心"最常见"的值 |
实际应用:描述收入水平时,常用中位数而非平均数。因为少数高收入群体会显著拉高平均数,使平均值偏离典型水平。中位数更能反映典型水平。
3.4 离散程度的度量——方差与标准差
为什么需要度量离散程度?
两组数据可能有相同的平均数,但其离散程度可能完全不同。例如:
- A班成绩:70, 70, 70, 70, 70(平均70,方差为0)
- B班成绩:50, 60, 70, 80, 90(平均70,方差为200)
只看平均数无法区分这两种情况,因此需要度量"离散程度"的指标。
方差的定义
设数据
标准差为方差的算术平方根:
人教A版高中教材中,方差分母为
(总体方差公式)。在统计学中,样本方差有时会使用 作为分母(无偏估计),但高中阶段统一使用 。
方差公式的两种形式及其关系
形式一:定义式
形式二:计算式
推导过程:
形式二的含义:方差 = 平方的均值 − 均值的平方。该形式在计算上更为便捷,特别是当数据较大时,配合新数据法可简化计算。
另一种等价写法:
四、知识串联:数字特征的内在联系
4.1 平均数与方差的线性变换性质
设原数据为
对数据进行线性变换:
平移不变性(
当
时, , 。即数据平移不改变方差。
缩放性质(
当
时, , 。即数据缩放使方差按平方倍变化。
一般线性变换:
完整推导:
这个性质在考试中极为常用。例如:已知一组数据的平均数和方差,求经过某种线性变换后的新数据的平均数和方差。
4.2 方差的简化计算——"新数据法"
当原始数据较大时,直接计算
方法:令
示例:计算 101, 102, 99, 100, 98 的平均数和方差。
令
故
这个技巧在手工计算时非常实用,也是考试中隐性考查的能力。
4.3 百分位数的实际意义
百分位数不仅是数学概念,在现实生活中有广泛应用:
- 收入分层:国家统计局常用"五等份分组"(20%、40%、60%、80%分位数)描述收入分配。
- 高考赋分:新高考改革中的"等级赋分"实质上就是按百分位数划分等级。
- 生长发育:儿童身高体重的"百分位曲线",告诉家长孩子的发育水平处于同龄人的什么位置。
- 产品质量控制:某指标的第95百分位数作为"上限阈值",超出即视为异常。
人教A版教材中提到的"高中低收入"划分,实质上是用分位数对社会群体进行分类,体现了统计学从数据到决策的应用价值。
4.4 分层抽样的总体均值与方差估计
当采用按比例分配的分层抽样时,可以用各层样本均值和方差来估计总体均值和方差。
设总体分为两层,第一层
总体均值估计:
即各层样本均值的加权平均,权重为该层在总体中的比例。
总体方差估计(了解层次):
该公式将总体方差分解为层内方差与层间差异两部分,此内容属于更高层次的统计理论,高中阶段不作深入要求。
五、重要考点与常见错误
隐性考点1:分层抽样中各层抽样比的确定
核心问题:什么时候各层抽样比相同?什么时候不同?
- 按比例分配:各层抽样比都等于总抽样比
。 - 不按比例分配:有时根据各层的特殊情况(如方差大小、调查成本)采用不同的抽样比,但高中阶段默认按比例分配。
易错点:题目说"从男生中抽
典型考题:某校高一、高二、高三人数比为
隐性考点2:由直方图求众数、中位数、平均数的方法差异
| 数字特征 | 直方图估计方法 | 精确计算方法 |
|---|---|---|
| 众数 | 最高矩形底边中点的横坐标 | 出现次数最多的数据值 |
| 中位数 | 左右面积各为0.5的位置,线性插值 | 排序后中间位置的数 |
| 平均数 | 组中值 × 频率,加权求和 | 原始数据求和除以 |
三者的计算方法完全不同。众数对应最高矩形底边中点的横坐标;中位数对应使左右面积各为0.5的位置,需通过线性插值计算;平均数为组中值与频率的加权求和。若混淆则均会产生错误。
隐性考点3:方差的简化计算(新数据法)
这是高效计算的重要方法,也是高考中节省时间的关键技巧。
公式回顾:设
进阶技巧:设
示例:计算 4012, 4008, 4015, 4005, 4010 的方差。
令
故
隐性考点4:平均数与方差的线性变换公式
这是本章的高频考点,几乎每次考试都会涉及。
公式总结:若
(注意:与 无关!)
常见误区:
- 数据先扩大3倍再增加5,方差变为原来的
倍,与"+5"无关。 - 数据标准化:
,则 , 。
六、易错警示:认知层面的错误根源
易错点1:混淆"频率"与"频数"
| 概念 | 定义 | 性质 |
|---|---|---|
| 频数 | 某组中数据的个数 | 整数,可大于1 |
| 频率 | 频数 / 样本容量 |
错误根源:两词字形相近,但含义完全不同。频数为数据个数,频率为数据个数与样本容量的比值。
典型错误:在直方图中说"矩形的高度表示频率"。正确说法:矩形的高度表示"频率/组距",矩形的面积表示频率。
易错点2:直方图面积=频率(不是高度)
错误根源:受"条形图"的干扰。条形图的纵坐标通常就是"数量"或"频率",高度直接代表大小。但直方图不同——
- 条形图:各条之间有空隙,宽度无意义,高度 = 数值大小。
- 直方图:各矩形紧密相连,宽度代表组距,面积 = 频率。
只有当组距相等时,矩形高度之比才等于频率之比。组距不等时,高度之比不等于频率之比!
典型错误类型:给出组距不等的直方图,问哪组频率最大。只看高度会产生误判,必须计算面积(高度×组距)。
易错点3:计算方差时分母是 还是 ?
错误根源:大学统计学与高中统计学的分歧。
- 高中阶段(人教A版教材):分母用
,即 。 - 大学统计学:样本方差分母用
(无偏估计),总体方差分母用 。
结论:高考中严格按教材,分母是
为什么是
?简要说明:样本均值 本身由数据估计得到,消耗了1个自由度。 个数据受1个约束条件限制,剩余自由度为 。此内容超出高中范围,高中阶段只需按教材规定使用分母 。
易错点4:百分位数的位置确定
错误根源:不同软件/教材采用不同定义,而高考必须严格按照人教A版教材的定义。
人教A版定义(严格遵循):
- 排序:
- 计算
- 若
不是整数,将 向上取整为 ,第 项数据为第 百分位数。 - 若
是整数,第 百分位数为第 项与第 项数据的平均数。
示例:数据 3, 5, 7, 9, 11, 13, 15(
对比:若
注意:不同统计软件可能采用不同的插值方法,但高考严格以教材定义为准。
易错点5:分层抽样中总体均值与样本均值的混淆
错误根源:分层抽样后,不能简单地把各层样本均值求算术平均作为总体均值估计。
正确做法:总体均值 = 各层均值的加权平均,权重是该层在总体中的比例。
错误示例:高一抽10人平均160cm,高二抽10人平均170cm,高三抽10人平均175cm。若三层人数相同,则总体均值为
七、思想方法
7.1 样本估计总体——统计推断思想
统计学的核心任务不是描述样本本身,而是通过样本推断总体。
这一思想包含三个层次:
- 用样本频率分布估计总体分布:频率分布直方图的形状近似反映总体分布的形态。
- 用样本数字特征估计总体数字特征:
, 。 - 量化估计的误差:虽然高中不涉及置信区间,但需明确估计存在误差,且误差大小与样本量有关。
核心思想:总体参数通常无法精确获知,但可通过科学方法在可控成本下获得满足精度要求的估计。
7.2 数据分析——从数据中提取信息
原始数据需经统计方法处理才能提取有效信息。
- 整理数据:分组、制表、画图,使隐藏的规律可视化。
- 描述数据:用数字特征刻画数据的中心位置和离散程度。
- 解读数据:结合实际背景,将统计结果转化为有意义的结论。
人教A版教材第9.3节的"统计案例"——公司员工肥胖情况调查分析,正是这一思想方法的具体实践:从收集数据、整理数据到分析数据、得出结论,完整展现统计在实际问题中的应用流程。
7.3 本章涉及的数学思想
| 思想方法 | 具体体现 |
|---|---|
| 数形结合 | 频率分布表 → 频率分布直方图,将数字信息转化为几何直观 |
| 转化化归 | 新数据法(通过线性变换将复杂计算转化为简单计算) |
| 分类讨论 | 分层抽样按层分别处理;百分位数计算中 |
| 函数与方程 | 直方图中位数的线性插值(列方程求解) |
| 特殊与一般 | 从具体样本推断抽象总体;从有限总体理解无限总体 |
八、本章知识网络图
统计(用样本估计总体)
│
┌──────────────────────┼──────────────────────┐
│ │ │
获取数据 整理数据 分析数据
│ │ │
┌─────┴─────┐ 频率分布表 ┌─────┴─────┐
│ │ ↓ │ │
普查 抽样调查 频率分布直方图 集中趋势 离散程度
│ (面积=频率) ┌──┬──┐ ┌──┬──┐
┌─────┴─────┐ │ │ │ │ │ │
│ │ 平均 中位 众数 方差 标准 极差
简单随机 分层随机 数 数 数 s² 差 R
│ │
┌───┴───┐ 按比例分配
抽签法 随机数法九、公式定理速查表
| 公式/定理 | 表达式 | 备注 |
|---|---|---|
| 抽样比 | 分层抽样中各层相同(按比例分配时) | |
| 频率 | 各组频率之和为1 | |
| 直方图纵坐标 | 矩形面积 = 频率 | |
| 平均数 | 加权形式: | |
| 方差(定义式) | 分母为 | |
| 方差(计算式) | 常用简化计算 | |
| 标准差 | 与原始数据同单位 | |
| 线性变换 | ||
| 分层总体均值 | ||
| 中位数插值 | 直方图估算公式 |
十、复习建议
- 抓核心:本章的核心是"样本估计总体",所有知识点都围绕这一主线展开。
- 重理解:不应机械记忆公式,而应理解频率直方图纵坐标取值为频率/组距的原理、方差分母取
的依据、以及中位数稳健性的原因。 - 勤比较:比较简单随机抽样与分层抽样的适用场景;比较众数、中位数、平均数三者的优缺点;比较条形图与直方图的区别。
- 多练习:重点练习"由直方图求数字特征""分层抽样的计算""线性变换后的方差计算"三类题型。
- 常见易错点:特别注意"频率vs频数""面积vs高度""
vs ""向上取整vs插值"四个易错点。
统计学的学习不只是为了考试,更是为了培养一种数据思维——在当前信息环境下,能够理性地、批判性地看待数据,从数据中提取有效信息,做出合理决策。该能力具有长期应用价值。