11、抽样与估计
11.1中心极限定理&标准误差 CENTRAL LIMIT THEOREM AND STANDARD ERROR
- 简单随机抽样 Simple random sampling
- 整体中抽出任何一个到样本中的概率都相同
- 间隔n个取1个的系统抽样systematic sampling,可以形成近似随机样本
- 抽样分布 sampling distribution
- 抽样统计本身也是一个随机变量,也有概率分布
- 区分简单随机抽样 & 分层随机抽样
- 区分时序数据&截面数据
- Time-series data,例如一只股票过去3年的收盘价
- Cross-sectional data 例如今天所有大盘股的收盘价
- Longitudinal data 纵向数据
- Panel data 横向数据
- 样本误差 sampling error
- 中心极限定理
- 对于均值为μ,方差为σ^2的总体, 简单随机采样,采样大小为n,当n足够大时(通常认为n>=30时),样本均值x’的抽样分布接近均值μ和方差σ^2/n的正态分布
- 当n足够大(n>=30)时,采样样本均值的分布接近于正态分布
- 整体均值,μ = 所有的采样样本均值的平均数
- 采样样本空间的方差为σ^2/n,即总体方差除以采样大小
- 样本均值的标准误差
- 估计值的满意度属性
- 无偏性 unbiased
- 有效性 efficient
- 一致性 consistent
11.2 置信区间& T分布
- 点估计 & 置信区间估计 point estimate and confidence interval estimate
- 样本均值x’就是对整体均值 μ的点估计
- 置信区间估计,则是对于整体的参数落在某一区域范围内的估计
- t分布及自由度
- 钟形概率分布,围绕均值对称分布,适用于
- 对总体满足或接近正态分布,但方差未知的,采样数又较少的(n<30)样本构建置信区间。
- 总体方差位置,但采样数足够大,根据中心极限定理,接近正态分布的情况
- 有如下性质:
- 对称
- 单参数,defrees of freedom(df),对于样本均值而言,df=n-1
- 相比正态分布,拥有“ 低峰肥尾” flatter,thicker tails
- 当df越来越大,t分布就越接近正态分布
- 结合Table of Critical t-Values理解 df对置信区间的影响
- 置信区间&显著性水平&置信度
- 置信区间估算真实值在一个区间内的概率为1-α,这里的α被称作置信区间的显著性水平level of significance,1-α又被称作置信度degree of confidence
- 置信区间通常描述为:point estimate ± (reliability factor × standard error)
- 正态分布,方差已知的置信区间计算方法
- x’ +/- z(α/2)σ/n^(0.5)
- 其中x‘为样本均值
- z(α/2),90%的置信度时,=1.645;95%置信度时,=1.960,99%置信度时,=2.575
- σ/n^(0.5),样本均值的标准差
- 正态分布,方差未知的置信区间计算方法
- x’ +/- t(α/2)σ/n^(0.5)
- 其中x‘为对总体均值的点估计,样本均值
- t(α/2),df=n-1,查t表
- s/n^(0.5),样本均值的标准差,s为样本标准差
- 任意非正态分布,采样数足够大(n>=30)的置信区间计算方法
- 如果全局方差已知,用z分布
- 如果全局方差未知,用t分布,虽然用z分布也可接受
- 关于选择适当的采样数
- 虽然采样数n越大越好,但要注意:
- 大的样本中可能引入一些其他的数据,比如训练儿童语音识别,引入成人的语音样本数据
- 采样数的增加,对于价值的提升,与引入的成本对比,是否适合
- 关于数据挖掘偏差,样本选择偏差,幸存者偏差,前瞻性偏差,时间周期偏差
- 数据挖掘偏差,机器学习的时候遇到过,过拟合的情况overestimated,好的办法是验证数据集和训练数据集分开
- 样本选择偏差,对选择的数据符合,对无法收集的不在样本空间内的数据,可能不符合
- 幸存者偏差,样本选择偏差的一种典型案例,评估基金表现的时候,很多数据库仅有存货的基金数据,而没有那些退市的基金
- 前瞻性偏差,用已有的数据,估计未来的数据,并将之作为验证依据
- 时间周期偏差,时间周期选择太短或太长