统计基础 1

统计研究方法入门

建构

建构(Constructs,即抽象概念):建构是任何难以衡量的东西,因为它可以用许多不同的方式来定义和衡量。

操作定义(Operational Definition):建构的操作定义是我们用于度量建构的单位。 一旦我们在操作上定义了一些东西,它就不再是一个建构。

例:容量是一个建构。我们知道容量是某物占据的空间,但我们还没有定义如何度量这个空间(即升、加仑等)。当我们要用来度量容量的时候,它不再是一个建构,而是操作定义。

例:分钟已被操作定义了,我们正在测量的东西没有含糊之处。

总体与样本

总体(Population):一个群体中的所有个体。
样本(Sample):一个群体中的部分个体。

参数(Parameter)与统计值(Statistic):参数定义总体的特征,统计值定义样本的特征。

例:总体的平均值用符号 $\mu$ 定义,样本的平均值用 $\bar x$ 定义。

实验

治疗组(Treatment Group):接受不同程度自变量的研究小组,这些小组被用来衡量治疗的效果。

对照组(Control Group):一个没有得到任何治疗的研究小组。这个组被用作比较治疗组的基线。

安慰剂(Placebo):给对照组的受试者一些东西,让他们认为他们正在接受治疗,而实际上他们正在得到一些对他们没有任何影响的东西。(例如糖丸)

盲法(Blinding):盲法是一种用来减少偏见的技术。双盲法可确保执行治疗和接受治疗的患者不知道接受哪种治疗。


数据可视化

频率

频率(Frequency):数据集的频率是某个结果发生的次数。

histogram

这个直方图显示从 0-5 学生测试的分数。我们看到没有学生得 0 分,8 名学生得 1 分。这些数字就是学生成绩的频率。

比例(Proportion):比例是计数除以总样本的分数。比例可以通过乘以 100 来变成百分数。

例:使用上面的直方图,我们可以看出得 1 分学生的比例为 $\frac{8}{39} \approx 0.2051$ 或 $20.51\%$

直方图

直方图(Histogram):直方图是数据分布的图形表示,组距决定箱子宽度。

调整直方图的组距(bin size)大小将压缩(或展开)分布。

histogram of data set with bin size 1

组距为 1

histogram of data set with bin size 2

组距为 2

histogram of data set with bin size 5

组距为 5

偏斜分布(Skewed Distribution)

正偏斜(Positive Skew):异常值出现在分布的最右端

Positive Skew

负偏斜(Negative Skew):异常值出现在分布的最左端

Negative Skew


集中趋势

均值、中位数和众数

均值(Mean):数据集的均值是数值的平均值,可以通过将所有数据点之和除以数据点数来计算:$$\bar x = \frac{\Sigma^{n}_{i = 0}x_i}{n}$$

均值受到异常值的影响严重,因此我们说均值不是一个稳健的度量。

中位数(Median):数据集的中位数是直接位于数据集中间的数据点。如果有两个数字在中间,那么中位数就是这两者的平均数。

  1. 数据集有奇数个数据,$n / 2$ 为数据集中中位数的位置
  2. 数据集有偶数个数据,$\frac{x_k + x_{k + 1}}{n}$ 给出中间两个数据点的均值

中位数对于异常值是稳健的,因此异常值不会影响中位数的值。

众数(Mode):数据集的众数是数据集中出现频率最高的数据点。

众数对异常值也稳健。

正态分布中,均值 = 中位数 = 众数

mean median mode in normal distribution

mean median mode in positive skew


差异性

箱形图与 IQR

箱形图(boxplot)是以一种视觉上吸引人的方式展示数据集的 5 个摘要值的方法。 这 5 个值包括最小值、第一四分位数、中位数、第三四分位数和最大值

四分位间距(Interquartile range):四分位间距(IQR)是第一个四分位数与第三个四分位数之间的距离,它给出了我们数据中间 $50\%$ 的范围。$IQR = Q3 - Q1$

a simple boxplot

找出异常值

如何识别异常值:使用 IQR 识别异常值(outlier)

上界:$Q3 + 1.5 \cdot IQR$
下界:$Q1 - 1.5 \cdot IQR$

方差和标准差

方差(Variance):方差是平均差的均值。 计算方差的公式是:$$\sigma^2=\frac{\Sigma^{n}_{i=0}(x_i - \bar{x})^2}{n}$$

标准差(Standard Deviation):标准差是方差的平方根,用来衡量到均值的距离。

在正态分布中,$65\%$ 的数据与均值有 1 个标准偏差,2 个标准差内有 $95\%$,3 个标准差内有 $99.7\%$。

通常,抽样会低估了总体中差异性的数量,因为抽样往往是总体居于中间的值。特别是在正态分布中,多数值位于中间位置。因此我们从正态分布的总体中抽样时,多数值也在此处附近。因此样本的差异性将少于总体的差异性。

贝塞耳校正(Bessel’s Correction):校正对总体方差与标准差的预估。为了应用贝塞尔校正,我们用方差乘以 $\frac{n}{n - 1}$。

使用贝塞尔校正主要是为了估计总体标准差。

样本标准差

$$\mathrm s = \sqrt{\frac{\Sigma{(x_i - \bar {x})^2}}{n - 1}} \approx \sigma = \sqrt{\frac{\Sigma{(x_i - \bar {x})^2}}{n}}$$