《传播统计学》课程笔记

Abstract:传播统计学,主要教授统计学的方法以及如何将统计学的方法应用到解决社会科学问题中。参考教材是祝建华老师的同名专著。

Chapter1 初导

1.1 统计数据与统计学

统计学

  • 探索数据内在规律性
  • 搜集,整理,分析,显示,解读数据

统计研究对象的特点

  • 数量性
  • 总体性:研究总体中各单位普遍存在的事实,更关注总体的普遍特征
  • 变异性:总体各单位的特征表现存在差异,且无法提前预知差异

统计学的应用领域

  • 企业发展战略,产品质量管理,市场研究,财务分析,经济预测,人力资源管理

1.2 统计学的产生和发展

萌芽时期

  • 德国
  • 算术
  • 古典概率论

近代时期

  • 数理统计
  • 社会统计

现代时期

  • 数学关系密切
  • 与计算机结合

1.3 数据分析方法

  • 描述统计:收集、可视化描述数据(统计学的基础)
  • 推断统计:对样本进行估计、假设检验、预测或其他推断(统计学的核心),利用部分数据推断全局

课程内容

  • 传播统计学概论
  • 描述统计
  • 推断统计
  • 实践

1.4 统计学的研究分支

  • 按研究阶段
  • 按研究方向
  • 按研究环节
    • 收集数据:抽样调查,实验设计
    • 分析数据
      • 统计推断形式:参数估计,假设检验
      • 统计观点:贝叶斯统计,统计决策理论
      • 理论模型:非参数统计,多元统计分析,时间序列分析 etc
  • 按应用领域:宏观,微观

推断统计学内容体系

1.5 传播统计学

传播研究:人类传播行为

1.应用领域

  • 受众研究
  • 印刷媒体研究
  • 视听率研究
  • 传播效果研究
    • 方法:因子分析法,多元方差分析,多元回归分析,路径分析,结构方程式模型 etc.
  • 广告与公共关系研究
    • 广告文案测试:测试消费者对广告的印象、认知、感情投入、购买意图、广告效果
    • 媒体研究:传播到达率、传播频次、视听率、受众规模和构成媒体计划、竞争分析
    • 公共关系研究:监测和评估

2.什么是统计数据?

  • 对现象进行计算的结果

  • 数据集

  • 统计数据的分类

    • 按计量尺度:分类的,顺序的,数值的;定性数据(定序,定类)+ 定类数据(定比,定距)

    • 按收集方法:观察数据(直接+间接)+ 实验数据(直接数据)

      直接:直接获取的原始数据;

      间接:通过统计计算得出的数据.

    • 按时间状况:横剖面数据(静态数据)+ 纵剖面数据(动态数据)

      静态数据:在相同或近似的时间收集到的数据;

      动态数据(引入时间维度):在不同时间上收集到的数据;描述现象随时间的变化

    • 按数据的表现形式:

      • 绝对数,相对数(通过对比),平均数
      • 时期数据(现象在某一时期内的数量;eg.人口出生数),时点数据(反映现象在某一时刻的数量;eg.人口数,学生人数)

3.统计学基本概念

1.变量

  • 分类
    • 确定性变量 + 随机变量(无法确定其精准的值)
    • 定性变量 + 定量变量

2.总体、个体与样本

  • 总体与总体分布
    • 总体:研究对象的整体;同质性+大量性+差异性
    • 个体:总体中的每个成员
    • 总体量:个数
    • 有限总体 & 无限总体
    • 总体分布中的参数:总体的某种特征值
  • 样本与样本分布
    • 简单随机样本:可用与总体独立同分布的n个相互独立的随机变量$X{1}X{2},…,X_{n}$ 表示
    • 联合分布函数$F(x{1},x{2},…,x{n})=\prod$,联合概率密度函数 $f(x{1},x{2},…,x{n})=\prod$
  • 总体、样本、样本值的关系
    • 总体分布决定样本取到样本值的规律,故可用样本值推断总体

3.统计量

  • 统计量是统计理论中用来对数据进行分析、检验的变量,不含任何未知参数样本的函数(可直接有样本数据计算出来)

  • e.g.$\overline{X}=\frac{1}{n}\sum{i=1}{n}X{i}$

4.描述性统计 vs 推断性统计

描述性统计

变量观测值的分布

分布的中心趋势:平均数,众数,中位数

分布的伸展程度:极差,四分位数差,五数综合,方差和标准差

五数综合(MIn,Q1,M,Q3,Max), Q1、Q3分别为第一、三四分位数,M为平均数

分布的形状:斜度(skewed),峰度(kurtosis)

变量观测值间的相关:相关系数

公式

推断性统计

What:根据数据对总体进行估计和推断;依据概率和概概率分布理论来推断总体

1.总体与样本

2.随机变量与概率

  • 随机现象
  • 随机变量与概率
  • 总体均值与方差

4.常用概率分布

  • 二项分布
  • 正态分布

5.参数估计和假设检验

推断方法

  • 演绎论述
  • 归纳论述
    • A.参数估计
      • 点估计:直接用样本统计量的值去估计总体参数
      • 区间估计:用样本统计量构造的1个区间去估计总体参数的范围(置信区间);置信度
    • B.假设检验/显著性检验
      • 即根据样本资料所提供的信息,推断对有关总体参数的某个断言或假设的不利证据

例如,在受众研究中,研究者猜测不同性别的受众接触媒介的行为是有显著差异的:男、女电视观众所喜欢的电视节目不同每日收看的时间也不同等等。这些研究者的猜测常常构造成所谓的理论假设H1。

在统计推断的假设检验中,一般是先假设这些差异或效应不存在,即先提出一个“没有差异”或“没有效应”的所谓零假设(也叫原假设 null hypothesis)Ho例如:“不同性别的居民收看电视的平均时间长度之间没有显著的差异”。然后根据样本数据,去寻找不利于这个零假设H、即支持研究者的理论假设H1的证据,并利用概率值( probability-value)P来判定这种否定零假设的证据有多强.

概率值P(或叫P值)是在原假设H0为真的前提下计算或查表得到的,它表示:“如果Ho为真,检验统计量大到(或小到)至少和实际观测值那么大(或小)的概率”。P值越小,说明样本资料所提供的对原假设H0的支持程度越小,即所提供的否定H的证据就越强。一般是将P值和一个事先确定的称之为检验水平level of test)或显著性水平( level of sigη lificance)的固定数值a相比较,通常取a=0.05或0.01:

  • 如果P≤a,则拒绝H0,或称该样本资料在a水平下具有统计显著性 statistical significance;
  • 如果P>a,则不能拒绝H,即样本资料在a水平下不具有统计显著性

5.实验统计

实验统计

  • 包括:实验设计 + 统计方法
  • 在一受控制的环境下,使其他因素保持不变,研究所控制的变量对某些变量的影响(因果关系
  • 实验设计
    • 规定实验单位,及如何分组
    • 要控制哪些自变量、因变量
    • 如何控制外来变量
  • 重要术语
    • 实验误差:外来变量和测量误差所导致的影响
    • 内部有效性:自变量对因变量的影响的准确性
    • 外部有效性:实验结果推广到实验环境意外的可能性
  • 实验法分类
    • 按实验场所分
      • 实验室实验
      • 现场实验
    • 按是否将实验单位随机分组
      • 非随机化实验
      • 随机化实验

非随机化实验:按照是否将实验单位分成处置组和控制组,以及按照是否只做事后测量还是同时也做事前测量,可以分成四种:事后设计、有控制组的事后设计、事前事后设计有控制组的事前事后设计.

随机化实验:根据自变量(处置变量或因子)的多少,外来因素的多少,以及是否考虑因子之间的交互作用,可以分为五种:完全随机化单因子设计随机区组单因子设计拉丁方单因子设计、多因子设计、正交实验设计,等等。

Chapter2 传播研究设计中的统计方法

2.1 研究主题、模型与假设

1.研究主题与统计方案的设计

2.传播模型的表示法

What:通过模型对各种传播现象、传播理论和各种理论假设进行简洁的描述,勾画出理论框架中研究对象各要素间的联系(联系的结构,方向,强度)

类型

图示模型

1
2

数学模型

  • 包含待估计参数和误差

例如,祝建华在一项关于“项目无回答”( Item ron一 response,简称INR)的研究中(详见本书第六部分),采用了一种称之为“逻辑斯蒂回归”( logistic regression)的统计数学模型,来描述“项目无回答”NR与可能影响NR的诸因素之间的联系,并以此模型估计14种因素对INR可能影响的强度(大小)和方向(正负)

$logY=b{0}+b{1}Age+b{2}Sex+b{3} Education+…+b_{4}Setting$

式中:

log表示对Y取对数(以e为底);

Y表示发生“项目无回答”(INR=1)的概率与不发生“项目无回答”(INR=0)的概率之比,即:

$Y=Prob(INR=1)/Pob (INR=0)$

在实际分析时,分别用INR=1(被访者表示“我不知道”、“我没有什么看法”、“我不想回答”或“没有回答”等)和INR=0被访者给出了实在的回答)比例来估计这两个概率

Age为被访者年龄的标准化得分;

Sex为被访者的性别,规定男性=1、女性=0

education为被访者文化程度的标准化得分

setting表示访问的地点,规定在工作地点或公共场所=1、在家中=0。

3.理论的假设与统计的假设

2.2 分析单位的确定与设计

1.调查法与实验法中的分析单位

2.内容分析法中的分析单位

2.3 抽样设计与确定样本量的原则

1.抽样

2.简单随机抽样

3.实用抽样技术

4.确定样本量的方法

2.4 调查表设计与信度、效度分析

Chapter3 统计数据的收集、整理和显示

2.1 数据收集

1.数据搜集方法

直接观察法

报告法(通讯法)

采访法:口头问询法,自填法;电访,网络调查

登记法

实验设计调查法:如设计分组对照实验

调查数据 & 实验数据

2.统计调查的组织形式

分类(1)

  • 普查:非经常性;全面性

  • 非全面性调查:分为抽样调查、重点调查、典型调查

    • 抽样调查:简单随机抽样 + 非简单随机抽样

    • 最大抽样效果:成本min——误差min 与 精度max

      精度与成本往往相矛盾.

分类(2)

  • 连续性调查:随研究现象变化,连续不断地调查
  • 非连续性调查:有时间间隔;eg.普查

统计报表

统计调查体系

2.2 数据整理

核心工作:统计分组和统计指标

  • 审核
    • 完整性检查:资料是否齐全,答案是否完整
    • 准确性检查:逻辑性检查,计算方法等
  • 分组
    • 原则:穷尽 & 互斥
    • 分组标准

平行分组体系:使用多种平行标准对同一总体进行分组

复合分组体系:使用多种重叠标准对同一总体进行分组

2.3 频数分布

1.what:把数据按某一标志进行归类排列(v.),以反映数据的分布状况

2.步骤

  • 1.求出极差$R=Xmax-Xmin$
  • 2.确定组数$n$、组距$d$、组段
  • 3.列表划记

$n=1+3.3lg(N)$

$d=R/n=(Xmax-Xmin)/n$

N:总体单位数

3.数量分组

  • 等距分组
  • 异距分组:如标志值分布很不均匀

频率密度=频率/组距;各组频率密度与组距的乘积之和=1

4.频数分布的类型

  • 钟形
  • U形
  • J形

2.4 数据描述(数据可视化)

2.4.1 资料的初步展现

1.频数表

2.均值表

反映分布

3.饼形图和条形图

描述定性类型的变量分布

4.折线图

反映变量随时间变化

2.4.2 单一变量的分布

1.直方图

反映定量类型变量分布

2.茎叶图

数据规模较小时,可用茎叶图得到比直方图更多的信息

3

3.盒形图(boxplot)

表现数值型变量分布,利用五数综合进行作(min,Q1,M,Q3,max)

分位数是将总体的全部数据按大小顺序排列后,处于各等分位置的变量值。

四分位数间距:第三四分位数与第一四分位数的差距,反映数据分布的分散程度

  • 纵轴表示变量的取值范围,横轴无用
  • 盒子下半部比上半部短,说明分布右偏

4

播出效果:晚上、上午>中午>下午

2.4.3 两个关联变量的资料展现

1.变量的关联性和交互表

5

2.条形图

6

3.散点图(scatterplot)

定距或定比变量分析,反映两变量关联的方向和强度

4.相关系数和相关系数表

相关系数$r$: 只能反映两变量直线相关的强度;会受到少数偏离值的严重影响

7

Chapter 传播研究资料分析中的统计方法(一元和二元统计篇)

对总体的估算

统计推断的理论依据

统计推断——归纳(个别到一般)

  • 根据概率论所揭示的随机变量的一般规律性,利用抽样调查所获得的样本信息,对总体的某些性质或数值特征进行推断
  • 抽样分布是统计推断的基础

1.参数和统计量

参数:描述总体的数字,如总体总量,总体均值,总体回归系数,总体相关系数等

统计量:描述样本的数字,是样本$X{1},X{2},…,X{n}$的1个函数

抽样分布:统计量的概率分布,如均值、方差

2.样本均值的抽样分布

所有可能样本的均值构成的概率分布

参数估计

统计方法

  • 描述统计
  • 推断统计:参数估计+假设检验(用样本推断总体

估计量与估计值

  • 估计量:估计总体参数的随机变量

    样本均值(总体均值$\mu$的一个估计量),样本比例,样本方差etc

  • 估计值:计算出的估计量的值

    $\overline{x}=90$

  • 参数量:总体参数$\theta$的估计量$\hat{theta}$

参数估计

  • 对已知分布类型的总体,利用样本去估计其未知参数
  • 估计方法:点估计(矩法,极大似然) ; 区间估计

估计量是随机变量,期望是数值.

矩法

理论依据:大数定律

总体k阶原点矩:$E{X^k}$

样本k阶原点矩:$\frac{1}{n}\sumX^{k}$

总体k阶中心距:$$

样本k阶中心距:$$

矩法:用样本矩代替总体矩

  • 前提:总体各节矩存在
  • 尽量用低阶矩估计

极大似然法(Maximum Likelihood Estimate,MLE)

极大似然法:

  • 选择1个参数使实验结果具有最大概率
  • 用使$L(\theta)$达到最大值的$\theta$去估计$\theta$,$L(\theta)$是似然函数

求极大似然估计量:

1.构造$L(\theta)$

2.取对数

3.求偏导:令=0

4.求解

估计量评价方法

原则上,任何统计量都可以作为估计量;不同估计方法得出的估计量可能不同

参数估计的评价标准

1.无偏性(unnbiasedness)

  • 用样本做的估计量=实际真值

一个参数的无偏估计可以有很多,但无偏估计只能保证无系统误差,但却可能有极大的偏差。一个优良的估计量还需要有较小的方差(低偏差)。

2.有效性(efficiency)

  • 均方误差:用偏差的平方的期望来衡量估计量偏差的程度

3.一致性

  • 相合估计量:当样本逐渐增大时,估计量逐渐趋近于真值

点估计的缺陷

区间估计

抽样分布

t分布

假设检验

Chapter5 分类数据统计分析

数据

  • 数值型:离散 & 连续
  • 分类型数据:连列分析(列联表:交叉分析)

边缘分布

  • 行边缘分布:单行合计
  • 列边缘分布:单列合计

百分比分布

  • 行百分比分布:行的每一个观察频数除以行合计数
  • 列百分比分布:列的每一个观察频数除以行合计数

期望频数

  • 一个实际频数的期望频数$e_{ij}$,是总频数的个数n

$\chi^2$ 统计量

  • 用于测量两个分类变量之间的相关程度;检验列联表中变量间的拟合优度和独立性

分类数据的假设检验(对列联表的2种检验)

1.拟合优度检验($\chi^2$ 统计量)

  • 检验一个分类变量中各类别的期望频数和观察频数是否有显著差异
  • 实际为:假设检验
  • 检验步骤:确定假设——检验

2.独立性检验

  • 根据次数资料判断两类因子彼此相关或相互独立的假设检验

关联的测度

对于分类变量,常用基于卡方统计量的各种统计量来进行关联性度量

  • 一组统计量,表示交叉表中两个变量之间的关联的紧密程度和方向
  • 对于2x2的列联表:$\phi$ 相关系数;$\phi=1$ 表示完全相关
  • 对于测度大于2x2的列联表:C系数表示相关程度
  • V系数
  • 一种定序的关联测度:$\gamma$
    • 同序对Ns
    • 异序对Nd

Chapter6 方差分析

方差分析的基本原理

方差分析(ANOVA)

  • 作用:两个及两个以上样本均数有无差异的显著性检验
  • What:利用试验观测值总偏差的可分解性,将不同条件所引起的偏差与随机误差分解开,按照一定规则进行比较,以确定各自偏差的影响程度和大小(去噪:去除随机误差的影响)
  • 又称:F检验,变异数分析

几个常用术语

  • 试验指标:考察的对象的某种特征
  • 试验因素:影响试验指标的因素A,B,C,D,…
    • 单因素试验
    • 多因素试验
  • 因素水平:试验因素所处的不同水平
  • 试验处理:在试验单位上实施的具体项目
  • 试验单位:观测数据的单位
  • 重复

3.误差

  • 随机误差:在因素的同一水平(同一个总体)下,样本的各观察值之间的差异

    如同种颜色的爽肤水在不同卖场的销售量差异可看成是随机误差

  • 系统误差:在因素的不同水平下,各观察值之间的差异

    同一家卖场 ,不同颜色爽肤水的销售量差异若是由颜色差异引起,则是系统误差

4.比较

  • 比较的基础是方差比:组内方差 & 组间方差
  • 组内方差:= 随机误差
  • 组间方差:在因素的不同水平下各样本之间的方差,包括随机误差 + 系统误差

5.离均差平方和(SS):反映变异大小情况

  • 总变异:组内变异 + 组间变异
  • 总变异:所有测量值之间总的变异程度
  • 组间变异:各组均数与总均数的离均差平方和
  • 组内变异:在同一处理组内的差异(随机误差),即组内各值与该组均值的差的平方和
  • 离均差平方和的分解:$SS总=SS{组内}+SS{组间}$;$V总=V{组内}+V{组间}$

6.均方差,均方(MS,mean square)

v是自由度

7.F值与F分布

  • F值接近于1,就没有理由拒绝$H_0$ ;反之F值越大,拒绝$H_0$的理由越充分。当$H_0$成立时,服从F分布
  • 是单尾检验/右尾检验

8.方差分析的步骤

  • 1.建立假设:
    • H0:均值全相等
    • H1:均值不全相等
  • 2.计算检验统计量F
    • 计算离均差平方和
      • 总离差平方和:$SST=N\sigma{ij}^2$
      • 组间离差平方和:$SSA=N\sigma{\overline{y_i}^2}$
      • 组内差平方和:$SS_E=SS_T-SS_A$
    • 计算自由度
      • 总自由度
      • 组间自由度
      • 组内自由度
    • 计算均方(方差)
      • 组间方差
      • 组内方差
    • 计算机统计量F值
  • 3.查表求临界值:F 值表(方差分析用单侧检验);$F{\alpha}=F{\alpha}(组间自由度,组内自由度)$
  • 4.比较F值与临界值:$F>=F_{\alpha}$,则拒绝H0
  • 5.列方差分析表
    • 列:方差来源,平方和,自由度,均方,F比
    • 行:组间,组内,总和

列方差分析表:

方差来源 平方和 自由度 均方 F比
组间 $SSA$ $K-1$ $MS_A=SS_A-df_A$ $F=MS_A/MS_E$
组内 $SSE$ $N-K$ $MS_E=SS_E-df_E$
总和 $SST$ $N-1$

9.方差分析的前提条件

  • 每个总体都服从正态分布
  • 总体的方差必须相同
  • 不同水平的样本相互独立

单因素方差分析

单因素完全随机方差分析

验后多重比较

  • F检验否定H0,不表明任意两个均数间都存在显著差异
  • 功能:发现哪两个均数间存在显著差异
  • 常用方法:最小显著差数法,最小显著极差法

单因素随机区组设计方差分析

两因素方差分析

多因素实验:实验因素不止一个

数据的离差平方和分解形式:

Chapter7 简单线性回归

回归 :变量间在数量上有依存变化关系(针对连续变量)

回归方程

变量间的关系

  • 确定性关系:可用一个具体函数式表示出来
  • 非确定性关系:宏观有相关关系,但未精确到用具体函数式表示

线性回归

  • 描述两变量在数量上有非确定性的线性变化关系
  • 回归直线:

回归参数估计

  • $\widehat{Y}$是由X推算的Y的估计值(实测点到回归直线的纵向线段与直线的交点对应的纵坐标),a是截距,b是回归系数,X变动一个单位时,Y平均变动b个单位
  • 计算原理:最小二乘法,即保证各实测点到回归直线的纵向距离的平方和最小
  • $Y-\overline{Y}$ 为残差
  • \sum{(Y-\widehat{Y})}^2 残差平方和,最小二乘:残差平方和最小

总体回归系数的假设检验

  • 对样本的回归系数b进行假设检验,以判断b是否是从回归系数为零的总体中抽得的
  • key:b与0相差多少可以认为具有统计学意义
  • 步骤
    • 建立假设:H0: $\beta=0$ 回归方程无意义;H1: …
    • 选择假设检验方法:方差分析或t检验,计算统计量
    • 计算概率值P

拟合优度(绝对系数)

  • $R^2$取值0~1之间,反映回归贡献的相对程度

残差图

  • 标准残差:(残差-均值)/ 标准差
  • 残差图:以自变量或因变量为横坐标,标准残差为纵坐标

Chapter8 多元线性回归

函数关系(确定性关系)

相关关系(不确定关系)

  • 因变量与自变量可单相关也可多相关
  • 分类:线性相关(直线形式) & 非线性相关
  • 相关程度:完全相关,不完全相关,完全不相关

多元线性回归的流程:采集样本信息——散点图——回归方程——回归方程的显著性检验——对现实进行预测和控制

多元线性回归

  1. 建立模型:回归方程
  • $\beta_i$ :回归系数,m+1个待定参数
  • $x_{ij}$ :观测值
  • $\epsilon$ :随机误差,$\epsilon$ ~$N(0,\sigma^2)$,即$y$无法用$x_i$表示的其他各种随机因素造成的误差
  • X:自变量,观测值构成的$n * k$矩阵变量,注意:X矩阵前面有一列1
  • Y:$n * 1$矩阵
  • $\beta$:$k*1$
  • $\epsilon$ :$n*1$
  1. 基本假定

假定1:零均值假定

假定2和3:同方差和无自相关假定

假定4:随机扰动项与假设解释变量不相关

假定5:无多重共线性假定

假定6:正态性假定

$y_i - \hat{y}_i=…$:回归值与实际值间有误差

多元线性回归的最小二乘估计公式

省略了随机误差项。

实例:

1
2
3
4
5
6
7
8
9
10
11
12
13
import numpy as np

X = np.mat([[1,1,1,1,1,1,1,1,1,1,1,1,1,1],
[41, 45, 51, 52, 59, 62, 69,72, 78, 80, 90, 92, 98, 103],
[49, 58, 62, 71, 62, 74, 71, 74, 79, 84, 85, 94, 91, 95]])

X=X.T

Y = np.mat([28, 39, 41, 44, 43, 50, 51, 57, 63, 66, 70, 76, 80, 84]).T

B = (X.T * X).I * X.T * Y

print B
1
2
3
[[-15.93836228] # beta0
[ 0.52227044]# beta1
[ 0.47382726]] # beta2

注意:X矩阵前面有一列1,指的是与$\beta$ 相乘后需要得到的$\beta_0$

  1. 多元线性回归的拟合优度检验

多重可决系数$R^2$ :表示由多个解释变量联合解释了的Y的变差在Y的总变差中占的比重

修正的可决系数(调整后 R平方)

  1. 回归方程的显著性检验(F检验)

原假设H0:$\beta_2=\beta_3=…=\beta_k=0$

备择假设H1:不全为0

目的:推翻原假设

建立统计量

当$R^2=0$,$F=0$$ (表示以概率为0拒绝H0);当$R^2=1$,$F->无穷$(表示以概率为1拒绝H0)

若F<$F_{\alpha}$ ,接受原假设

  1. 各回归系数的显著性检验(t检验)

原假设H0:$\beta_j=0$

备择假设H1:$\beta_j !=0$

应变量的均值估计

Y均值的区间预测

应变量个别值的预测

Reference

《概率论》的读书笔记

拿钱去买猫粮和狗粮嗷 ~