统计学
关蓉
guanrong721@qq.com
作业(学号:学号)
课本:刘扬,中国统计出版社
补充:贾俊平《统计学》6人大、戴维莱文《商务统计学》7人大、吴喜之《统计学:从数据到结论》中国统计出版社、戴维穆尔《统计学的世界》中信
平时考勤10,课程作业30,期末60
teach.xiong99.com.cn,周六早上10点
数据的收集
数据的来源
一手数据:直接获取的
统计调查的方式:普查、抽样调查、(统计报表)
- 观察法
-
调查
-
普查:(国家……为了详细了解某项国情、国力……组织的一次性、大规模的)全面调查
-
特点:规定统一的标准时点、一次性的或周期性的
- 人口:每十年,逢0
- 经济:五年,逢3、8开始
-
缺点:
- 适用性:观测值无限时、毁坏性时;成本高;精度差(调查人员素质)
-
-
抽样调查:从总体中随机抽取一部分单位作为样本进行的调查
- 特点:经济性、时效性强,适应面广
-
统计报表:按国家有关法规规定,自上而下地统一布置,自下而上地逐级提供基本统计报表的统计报告制度
- 特点:我国特有,可以全面也可以非全面
-
- 实验
二手数据:别人获得的
-
公开出版或报道的数据
- 国家统计资料(中国统计年鉴,每年10月才出前一年的,但是有最新公报)
- 行业协会信息
- 计算机网络资料
- 国际组织
- 图书资料
-
缺点:
- 时效性差:尽可能使用最早的
- 可靠性低:明确计算口径,明确标注数据来源
- 相关性差:数据收集目的和当前研究目的可能不一致
抽样调查
抽样单位:抽样的对象,可以把总体分成若干个互不重叠且穷尽的有限个部分
抽样框:抽样单位的名单
方法分类:
- 概率抽样:按照随机原则抽选样本的方式——使每个单位都有一定的机会被抽中;每个抽样单位被抽中的概率是已知的。(等概率和不等)
- 非概率抽样:不满足概率抽样要求的抽样方式的统称
概率抽样
-
简单随机抽样:直接从总体单位中抽选样本单位……概率相等
-
方法
- 签法
- 随机数法:随机数表、随机数骰子等
-
问题:
- 样本容量小时,一些比例少但是很重要的个体可能没有被抽到
- 接触到所有样本中的个体有时候很困难
-
适用于:
- 抽样单位间的差异不大
- 样本单位不是特别多,可以形成抽样框
- 其他都用不了时
-
-
系统抽样:将总体中的N个单位安某种顺序排列,按规则确定随机起点,按指定间隔逐个抽取样本单位的抽样方法
- 优点:方便快捷
- 问题:样本单位的排列顺序可能会产生影响
-
分层抽样:根据辅助信息(如性别)将总体划分为若干个子总体,分别从每个层中随机抽选样本
- 优点:辅助信息选的好则提高样本代表性,提高精度
- 适用于:分层后层间差异大、层内差异小
-
整群抽样:将总体分为N个群,再按某种方式随机抽取n个群,然后对群中所有抽样单位进行调查
- 优点:不需要所有初级抽样单位的抽样框;便于组织和管理,节约
- 缺点:抽样单位不均匀分布,则代表性差
-
多阶段抽样:先从总体中随机抽取若干初级单位,从初级中选二级……
- 优点:
非概率抽样
- 方便抽样:根据调查的方便性,以无目标、随意的方式进行的
- 雪球抽样:找到最初样本单位,根据提供的信息去获得新的样本单位
- 判断抽样:根据主观经验和判断从总体中选取有代表性的单位构成样本……精度取决于经验
- 配额抽样:根据研究人员认为较重要的一些变量把总体单位分类,根据每一类进行定额,然后在每一类中方便抽样或判断抽样
如何选择:经济省时、满足精确度和可靠性
调查误差:调查结果与真实结果之间的差异。误差越大精度越低。
-
抽样误差:样本是总体的一部分,只要是抽样就有
- 特点:概率抽样中能够计量而且控制
-
影响因素:
- 其它条件固定,样本容量越大
- 抽样方法
- 总体内部的差异程度:内部差异越大,抽样误差越大(个个都差不多,怎么抽都行)
-
非抽样误差:抽样误差以外的;调查程序执行中的错误与不足
- 特点:增加样本量也不会有改善
-
类型:
- 抽样框误差:目标总体与抽样框所覆盖的元素不一致而产生的误差(丢失目标总体单位、包含非目标总体单位等)
- 无回答误差:缺失部分指定样本单位的数据或调查问卷中的部分数据项而引起的误差(单位无回答,被调查者没有参与或拒绝;项目无回答,被调查者对部分问题没有回答)
-
计量误差:调查中获得的数据和调查项目真实值之间不一致而产生的误差
-
类型:
- 问卷设计阶段产生的误差:不同措辞、问题的顺序、问卷过长
- 调查阶段产生的误差:访问员、被调查者
- 其他误差:数据处理等
-
解决方法:科学设计调查方案;多种途径调查,减少来自被调查者的误差;加强培训,加强访问员的素质
调查方案设计
调查方案:统计调查前所制定的实施方案,全部调查过程的指导文件;直接影响调查数据的质量(非抽样误差
部分:
- 调查目的
- 调查对象
- 调查内容
- 调查方式、方法
- 调查时间
- 组织实施计划
数据收集方法
-
调查法
- 面访调查
- 邮寄调查
- 电话调查(废弃)
- 电脑辅助电话调查(电脑自动抽取号码并实现自动分配给调查员,然后显示问题,访员问然后根据回答按答案)
- 网络调查
- 座谈(焦点小组访谈)——一对多
- 深度访谈——一对一
- 观察
- 实验
问卷:用于收集被调查者的某些信息的研究工具,通常由一系列问题构成,
-
搭建框架
- 确定中心概念(如:使用情况、需求满足情况)
- 核心内容(如:使用广度、使用深度、主观满意度)
- 问项(如何确定:已有的文献研究、焦点组访谈、深度访谈、开放式问卷调查、汇总条目)
- 指标汇总合并提纯
-
确定问题形式
-
基本格式:
- 题号、题干
- 封闭式(用时短、方便、后期处理方便)、开放式(激发积极性、可以问为什么;难以编码)
- 单选题、多选题、排序题、量表
-
-
选措辞、排结构
-
原则(六个避免)
- 避免一个问句多于一个问题
- 避免含糊,追求具体
- 避免答项不完整
- 避免带有情感色彩
- 避免诱导性问题(把这个问题的两面都写)
- 避免折磨应答者能力的问题(如“最近××年和××发生××的次数”)
-
编排:
-
开头
- 开场白:标明身份、简要介绍调查目的、做调查的时间、强调不泄密、表示感谢
-
规律:
- 先易后难:先封闭后开放;先客观再主观问题(观点)
- 核心问题:按类编排
- 背景信息:针对个人的问卷把个人信息放在结尾;
-
-
-
评估、预测试
- 请专业人士对问卷进行挑刺
- 找小范围进行预测试
数据的描述
描述统计:用统计图、统计表对一些特征数值进行描述
统计图和统计表
-
单变量
- 定性变量:频数分布表、柱形图、饼图
- 定量变量:频数分布表、直方图、箱线图
-
双变量:
两个定性数据
-
列联表
- 饼图
-
环形图
- 最多四环,再多不好
-
柱形图
- 一个类别有两个柱。图例在右上角
- 堆积柱形图
- 百分比堆积柱形图
定性变量+定量变量
-
进行概要描述:根据定性变量分组,计算定量变量的某个数值特征;画表格、画图……
-
列联表:先对定量变量进行分组
-
分组箱线图:纵轴定量,横轴定性,每个箱子对应定性变量的一个类别(必要时对定性变量进行分类
- 类别之间差异大,出现很多离群值、极端值:对数变换(对纵轴)
- z-score变换:
$$ z\_i=\\frac {x\_i-\\bar x}{s} $$z=0则观测值等于均值,位于中间
z>0观测值大于均值,z<0观测值小于均值
z表示这个值在一组数据中的相对位置
## 定量+定量
- 散点图:关注两个变量之间的相关关系
参数估计与假设检验
描述统计:用表格图形和数字对数据进行描述——不区分样本和总体,掌握多少信息就描述多少
推断统计:从总体中抽取样本,用样本数据推断总体特征
参数:描述总体某个方面的特征,未知的确定值
统计量:用样本信息构造的函数,不包含任何未知的总体参数,随机变量
估计量:用来推断总体参数的统计量
点估计
用估计量的数值作为总体参数的估计值:
-
总体均值
-
总体方差
-
总体比例 $\\hat p=\\frac{1}{n}\\Sigma^n\_{i=1}X\_i$ Xi是定性数据(0-1变量)
-
总体参数的估计量不是唯一的,可以由不同的估计量估计同一个总体参数(同样是均值,可以用中位数也可以用平均数……)
抽样分布:估计量的抽样分布就是它的所有可能值的概率分布
-
样本均值:总体服从正态分布时,来自该总体容量为n的均值也服从正态分布: $E(\\overline X)=\\mu$
$$ D(\\overline X)=\\frac{\\sigma^2}{n} $$
缺点
- 绝对,死板
- 没有给出关于精确程度的信息
不唯一,需要评价准则
估计量选择
- 多次考察——估计量的抽样分布
-
评价准则:
- 无偏性:估计量的抽样分布的期望值等于被估计的总体参数
- 有效性:两个无偏估计量里的方差小的较好——越”瘦“越好
- 一致性:样本容量增大则估计量取值越来越接近被估计的总体参数
抽样分布
中心极限定理
总体服从: $E=\\mu$
当n充分大(>=30)时,样本均值的抽样分布近似服从$(\mu,\frac{\sigma^2}{n})$的正态分布。
区间估计
根据置信度$1-\alpha$给出总体参数的一个估计范围——置信区间:置信上限和置信下限之间
基本上是点估计加/减估计误差
标准误
- 统计量抽样分布的标准差
-
衡量统计量与总体参数的接近程度,描述推断的可靠程度
-
有放回简单随机抽样,样本均值的标准误$\frac{\sigma}{\sqrt n}$
-
不放回的:$\frac{\sigma}{\sqrt n}\sqrt{\frac{N-n}{N-1}}$
- 样本均值落在$\mu$的两侧的概率:
- 1倍标准误有68.2%
- 2倍有95.4%
- 3倍有99.7%
总体均值置信区间
正态总体 | 大样本 | 总体方差 | 公式 |
---|---|---|---|
Y | Y | $\overline X\pm z_\frac{\alpha}{2}\frac{\sigma}{\sqrt n}$ | |
Y | N | $\overline X \pm t_{\frac{\alpha}{2}}(n-1)\frac{s}{\sqrt n}$ | |
N | Y | Y | $\overline X\pm z_\frac{\alpha}{2}\frac{\sigma}{\sqrt n}$ |
N | Y | N | $\overline X \pm t_{\frac{\alpha}{2}}(n-1)\frac{s}{\sqrt n}$ |
置信区间宽度影响因素
- 样本均值:中心位置
- 总体标准差:总体波动越小,窄
- 样本容量:样本容量越大,越窄
- 分位数:根据置信度,越大越宽
前两个不可控
总体比例的置信区间
X是0-1变量,样本比例 $\\hat p=\\Sigma \\frac{X\_i}{n}$ 总体比例$p$的$100(1-\alpha)\%$置信区间: $\\hat p\\pm z\_\\frac{\\alpha}{2}\\sqrt{\\frac{\\hat p(1-\\hat p)}{n}}$
$n\hat p\geq 5$且$n(1-\hat p)\geq 5$
置信区间的意义
总体参数是不变的,但是置信区间是根据某次抽样构造的,所以是:
置信区间以××概率覆盖总体均值
-
是覆盖不是_落在_
-
概率是描述估计方法的可靠程度而不是描述_置信区间覆盖总体参数的概率_
抽样误差
$Z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt n}$
- 实际抽样误差:样本估计值与总体参数真值之间的离差;不可知(总体参数未知)
- 抽样平均误差:所有可能样本的估计之与相应总体参数真值的平均误差——即是标准误
-
最大允许误差:人为确定的可以容忍的最大误差水平,E
- $置信区间=点估计 \pm E$
样本容量
必要样本容量(有放回简单随机抽样) $n\_0=\\frac{Z^2\_{\\frac{\\alpha}{2}}\\sigma^2}{E^2}$
置信度、可接受抽样误差都是事先确定
总体方差或总体比例:没有辅助信息时$\pi$取0.5
n向上取整
无放回: $n=\\frac{n\_0}{1+\\frac{n\_0}{N}}$ 先从有放回里面算出n~0~,再代进第二。
假设检验
-
提假设:对总体的某种看法(对总体参数的具体数值的陈述)
- 原假设H~0~:等号只会在原假设上;不应该被轻易推翻的放在原假设
- 备择假设H~1~:原假设的对立面
- 概念
- 左侧检验:$H_0:\mu\le\mu_0 $
- 右侧:$H_0:\mu \ge \mu_0$
- 双侧:$H_0:\mu = \mu_0$
- 单测检验的t检验p值是双侧的一半
- 原则:
- 等号放在原假设
- 不容易推翻的做原假设
-
做决策
- 构造标准化检验统计量: $\\frac{点估计量-总体参数的假设值}{点估计的标准误}$
-
反映点估计量与假设的总体参数之间的距离是标准误的多少倍
-
当原假设为真时会服从于某个标准分布
-
临界值法
-
根据样本信息计算标准化检验统计量的值
-
与给定置信水平下的临界值作对比,在拒绝域中拒绝原假设
-
p值法:对比p值和$\alpha$;p值描述的是小概率事件的概率
-
根据样本信息计算标准化检验统计量的值;
- 计算p值,与给定的显著性水平$\alpha$对比,小于就拒绝原假设;
- p值的意思:统计量取值及更极端方向所对应的概率
- p值软件自动输出
-
下结论
Z检验
如果总体标准差已知,总体服从正态分布,则使用Z统计量: $Z=\\frac{\\overline X - \\mu\_0}{\\frac{\\sigma}{\\sqrt n}}$ 总体非正态,但是大样本,也可以用Z统计量
单样本t检验
总体服从正态或大样本,不知道总体标准差: $t=\\frac{\\overline X - \\mu\_0}{\\frac{s}{\\sqrt n}}\\sim t(n-1)$
两个独立样本的t检验
双侧:$H_0:\mu_1=\mu_2$,左侧右侧……
两个总体服从正态且相同方差: $T=\\frac{\\overline X-\\overline Y}{\\sqrt{\\frac{S^2\_P}{n\_1}+\\frac{S^2\_P}{n\_2}}}\\sim t(n\_1+n\_2-2)$ 两个总体服从正态但是不同方差: $T=\\frac{\\overline X-\\overline Y}{\\sqrt{\\frac{S^2\_1}{n\_1}+\\frac{S^2\_2}{n\_2}}}\\sim t(n)$
- 假设:$H_0:\mu_1=\mu_2$
-
决策:
-
看Levene检验——方差是否相同
- Levene检验的$H_0:\sigma^2_1=\sigma^2_2$
- 然后看t检验的p
-
- 下结论
两个匹配样本的t检验
匹配样本:两个样本的数据一一对应(一般是Before和After)
直接看p
两类错误
-
第一类错误-弃真:原假设是真的但是被拒绝了
-
第二类错误-取伪:原假设是假的但是被接受了
概率:
方差分析
多次两总体均值t检验会增加第一类错误的概率:
n个总体需要做$C^2_n$次,错误率是$1-(1-第一类错误概率)^{C^2_n}$
条件
- 一个定量因变量
- 一个及以上定性自变量
- 定性自变量的取值(水平)多于两个
假设
重点是: $H\_1:\\mu\_1,\\mu\_2,...,\\mu\_n不全相等$