统计模型¶
统计学概述¶
统计学是在资料分析的基础上,研究测定、收集、整理、归纳和分析反映数据资料,以便给出正确消息的科学。
统计学抽样¶
简单随机抽样:从总体中随机地抽取样本,使得每一个容量为样本都有相同的概率被抽中。每个样本单位被抽中的概率相等,样本的每个单位完全独立,彼此间无一定的关联性和排斥性。简单随机抽样是其它各种抽样形式的基础。通常只是在总体单位之间差异程度较小和数目较少时,才采用这种方法。在统计学的不同技术中需要使用随机数,比如在从统计总体中抽取有代表性的样本的时候,或者在将实验动物分配到不同的试验组的过程中,或者在进行蒙特卡罗模拟法计算的时候等等。
等距抽样(也称系统抽样):将总体中的所有单位按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位。
分层抽样:分层抽样是从统计总体抽取样本方法,将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。从而保证样本的结构与总体的结构比较相近,从而提高估计的精度。当总体内的子总体之间的差异较大,对每个子总体分别进行分层抽样调查,会令统计调查结果更为准确。子总体的分层必须为互斥,即每个总体的成员均只能属于一个分层。之后,可对每个子总体进行简单随机抽样或系统抽样。这样可令调查的代表性改善。
整群抽样(又称群集抽样):将总体中若干个单位合并为组,抽样时直接抽取群,然后对中选群中的所有单位全部实施调查。抽样时只需群的抽样框,可简化工作量,缺点是估计的精度较差。
等距抽样概述¶
假设从容量为 \(N\)(很大)的总体中抽取容量为 \(n\) 的样本,我们可以按下列步骤进行系统抽样:
-
先将总体的 \(N\) 个个体编号。
-
确定分段间隔 \(k\),对编号进行分段。
-
当 \(\dfrac{N}{n}\) 是整数时,取 \(k=\dfrac{N}{n}\)。
-
当 \(\dfrac{N}{n}\) 不是整数时,假设余数为 \(r\)(\(0<r<n\)),可随机地从 \(N\) 个个体中剔除余数 \(r\) 个个体,此时取 \(k=\dfrac{N-r}{n}\)。
-
-
在第一段用简单随机抽样确定第 \(1\) 个个体的编号 \(\ell\)(\(\ell\le k\))。
-
将编号为 \(\ell, \ell+k, \ell+2k, \dots, \ell+(n-1)k\) 的个体抽出。
我们知道 \(\ell, \ell + k, \ell + 2k, \dots, \ell + (n - 1)k\) 是以 \(\ell\) 为首项、以 \(k\) 为公差的等差数列,设第 \(n\) 段抽到的编号为 \(a_n\),则 \(a_n = \ell + (n - 1)k\)。故系统抽样也叫等距抽样。
分层抽样概述¶
当总体是由差异明显的几部分(层)构成时,如果我们用简单随机抽样或系统抽样,有可能抽取的数据全部来自同一部分(层)。为了避免这种情况发生,我们可以按各层所占的比例一层一层抽,即为分层抽样。
分层抽样的步骤:
- 分层:将总体分成互不交叉的层。
- 确定抽样比:总体 \(N\),样本容量 \(n\),则抽样比例为 \(\dfrac{n}{N}\)。
- 分层抽样:在各层中按抽样比例 \(\dfrac{n}{N}\) 独立地进行简单随机抽样。
- 汇合样本:将各层抽取的样本合并为最终样本。
例如:第一层 \(X\) 有 \(n\) 个元素,第二层 \(Y\) 有 \(m\) 个元素。
容易得出:
对于方差会麻烦一点:
本页面最近更新:正在加载中,更新历史。
编辑页面:在 GitHub 上编辑此页!
本页面贡献者:RainPPR。