我们常用的量表等级，都用对了么？

由宝珠 · 发布日期 2017-04-19 · 已更新 2022-04-08

作者：刘洁（国美互联网，用户研究工程师）

李克特量表(Likert scale)是社会调查和心理测验等领域中最常使用的一种态度量表。该量表由一组陈述组成，每一陈述有“非常同意”、“同意”、“不一定”、“不同意”、“非常不同意”五种回答，分别记为5、4、3、2、1，每个被调查者的态度总分就是他对各道题的回答所得分数的加总，这一总分可说明他的态度强弱或他在这一量表上的不同状态。由于结构简单且易于操作，这种评级量表在营销和商业市场研究中得到了广泛的应用。比如在消费者研究中，受访者可能会被问及他们对产品、品牌的态度、看法或评价等。

我们常见的Likert量表包括以5点或7点为代表的奇数等级形式，以及以4点或6点为代表的偶数等级形式。但也有将量表应答等级扩展至10级（即1-10评分）,甚至11级（即0-10评分）的形式。而在实际应用项目编制量表过程中，对量表应答等级的设置往往凭感觉、凭偏好，更多地依赖于感性的经验，带有较大的随意性。

那么，问题来了，什么等级的量表才能叫做好的量表，应用最为广泛的5点、7点等级量表是最好的么？

这时候，或许有人会有意见了，提出由于中国文化中的“中庸”思想，受访者填答量表时往往倾向于选择“一般”、“不确定”、“不一定”等中间选项，这很可能隐藏了受访者的倾向性。

而为了克服这种“趋中效应”，衍生出了4点、6点等迫选式量表选项，那么这种类型好么？一方面由于受访者对这类量表的接触较少，可能存在理解偏差，另一方面，在有的选项上，受访者本身倾向性就是中间选项，迫选容易导致反应偏差。看起来似乎各有利弊。而到底应该设置为几级才能使量表具备最佳特性，实际操作应用中似乎未有定论。

回到学术圈，尝试着从理论研究中一探究竟。发现还真有研究者对此做了深入的探索。

我们都知道数据分布的特征可以从三个方面进行测度和描述：

数据的集中趋势（如：平均值）
离散程度（如方差、标准差）
分布状态（如偏态、峰度）

很多统计分析方法都对数据的方差、偏态和峰度等数据特征非常敏感。因此，如果量表的应答等级会对量表收集的数据分布特征产生影响，那么直接会影响到统计分析结果。

一项实证研究（Dawes, 2008）为检验应答等级对量表数据分布特征的影响，随机对三组普通受访者(样本量分别为300, 250, 185)分别采用5点、7点和10点量表进行调查。并将 5点和7点量表的得分统一转换为10点计分。研究结果发现，转换后，5点和7点量表选项的平均得分相等；而与5点和7点量表的平均得分相比，10点量表选项的平均得分却低了0.3分，这种差异达到了统计学上的显著性水平。但是，在方差、偏态和峰度三种数据特征上，三种应答等级量表之间并没有表现出显著的差异。

这项研究结果对那些还在纠结改变量表应答等级是否会破坏历史数据可比性的研究者而言无疑是个莫大的“好消息”。因为研究者认为，5点和7点计分可以很容易地重新缩放，新合成的数据则是完全可以相互比较的。至于将5点或7点的数据转换成10点数据，直接进行重新计分和算术调整后便可轻松进行比较了。因此，研究者认为5点、7点和10点量表可选用相同的统计分析方法。

该研究者在2002年对比了5点和11点量表，发现5点量表与11点量表选项的平均值得分相同，在偏态和峰度指标上未表现出系统性差异，但是11点量表选项得分的变异系数更大。研究者认为，量表应答等级的选择仍应取决于研究的目的。如果研究的目的是简单地想获得平均分，那么量表应答等级数量选择上的差异并不会导致量表各选项平均得分之间的差异。如果研究者想考察的是量表各变量间的预测关系，更多的应答等级可能会更有用。

近期（Leung, 2011）一项研究对采用内容一致但应答等级不同（分别为4点、5点、6点、11点）的Likert量表对1217名中国学生进行调查，结果发现，在平均值、标准差、项目相关性、项目分与总分相关性、信度、因子载荷等统计指标上，4点、5点、6点、11点量表间并未表现出显著性差异。不过，6点和11点量表数据上遵循正态分布，而4点、5点量表数据则呈现出偏态分布，这意味着量表的等级区分越细，越接近于正态分布，数据表现越好。尤其是11点量表数据的峰度最小，是最接近正态分布的量表。由于5点和11点都具有中间点，往往被认为存在“趋中效应”的影响，研究者认为，中间点的影响在较长的应答等级中可能被相邻的等级稀释，尤其是诸如11点那么长的应答等级，这也是该研究者推荐用11点量表的另一原因。

综合上述结果看来：

不同应答等级的量表在主要的数据特征上未表现出明显的差异，它们的得分是可以相互转换的，因而是可以相互比较的；
11点量表表现更好，更受研究者青睐，但是我们也别忘了，过多的等级往往也会使受访者反应时间延长，增大疲劳效应，导致应答率下降。

所以，还是那句话，量表应答等级的选择仍应取决于研究的目的。

参考文献：

Dawes, J. (2002). Five point vs. eleven point scales: Does it make a difference to data characteristics. Australasian Journal of Market Research,10(1).
Dawes, J. G. (2008). Do data characteristics change according to the number of scale points used? An experiment using 5 point, 7 point and 10 point scales.International Journal of Market Research,50(1).
Leung, S. O. (2011). A comparison of psychometric properties and normality in 4-, 5-, 6-, and 11-point Likert scales. Journal of Social Service Research,37(4), 412-421.

周小龙说道：

2017-04-19 5:36 下午

写得真好

回复
- 匿名说道：
  
  2017-05-16 11:50 上午
  
  uWPa
  
  回复
- 匿名说道：
  
  2017-05-16 3:00 下午
  
  fBKd
  
  回复
匿名说道：

2017-04-19 5:42 下午

棒棒滴

回复
- 匿名说道：
  
  2017-05-16 11:53 上午
  
  tLyf
  
  回复
- 匿名说道：
  
  2017-05-16 1:23 下午
  
  PKHh
  
  回复
- 匿名说道：
  
  2017-05-16 2:23 下午
  
  UXwT
  
  回复
匿名说道：

2017-05-16 10:40 上午

zqlG

回复
匿名说道：

2017-05-16 11:15 上午

xJiu

回复
匿名说道：

2017-05-16 11:20 上午

hXqc

回复
匿名说道：

2017-05-16 12:05 下午

ryfC

回复
匿名说道：

2017-05-16 12:18 下午

VuJk

回复
匿名说道：

2023-06-20 2:34 下午

sada

回复

我们常用的量表等级，都用对了么？

那么，问题来了，什么等级的量表才能叫做好的量表，应用最为广泛的5点、7点等级量表是最好的么？

不同应答等级的量表在主要的数据特征上未表现出明显的差异，它们的得分是可以相互转换的，因而是可以相互比较的；

11点量表表现更好，更受研究者青睐，但是我们也别忘了，过多的等级往往也会使受访者反应时间延长，增大疲劳效应，导致应答率下降。

参考文献：

推荐阅读

中国大众品牌净推荐值NPS研究

谈谈样本量选择背后的科学道理

可用性测试不仅可以定性，更可以定量

B端创新产品探索中的关键问题总结

怎样设计一份好的调查问卷？

13 条回复

向周小龙进行回复取消回复

我们常用的量表等级，都用对了么？

那么，问题来了，什么等级的量表才能叫做好的量表，应用最为广泛的5点、7点等级量表是最好的么？

不同应答等级的量表在主要的数据特征上未表现出明显的差异，它们的得分是可以相互转换的，因而是可以相互比较的；

11点量表表现更好，更受研究者青睐，但是我们也别忘了，过多的等级往往也会使受访者反应时间延长，增大疲劳效应，导致应答率下降。

参考文献：

推荐阅读

中国大众品牌净推荐值NPS研究

谈谈样本量选择背后的科学道理

可用性测试不仅可以定性，更可以定量

B端创新产品探索中的关键问题总结

怎样设计一份好的调查问卷？

13 条回复

向周小龙进行回复 取消回复

向周小龙进行回复取消回复