请理性挑战定性研究的样本量

由宝珠 · 2023-08-18

翻译：张娜娜审校：teresa | UXRen翻译组 #419 译文
原作者： Chris Liu
原标题：《Stop asking UX researchers to defend their sample size》
副标题：《信任用户体验研究人员并让他们安心做研究的3个理由》

有很多事情让我心烦意乱。但我确信，其他用户体验研究人员（简称：用研）和我都有一个烦恼，那就是样本量总是备受质疑。

“你只和X个用户谈过？额。”

“你确定调查Y个用户就足以得到一个有代表性的样本小组吗？”

请停下来。

如果你不是一名用户研究人员，本文将告诉你，对样本量大小的问题和担忧有时很离谱的三个原因。

如果你是一名用户研究人员，本文能给你一些思路和参考，让你在下次面对样本量问题时知道该如何应对。

原因1：普遍性并非样本量的函数，而是抽样策略的函数

Generalizability is a function not of sample size, but sampling strategy

当人们询问和讨论样本的“代表性”时，通常他们潜在的担忧是普遍性（Generalizability），即给定样本的研究结果在多大程度上适用于更广泛的人群呢？

这是一个很好也很重要的问题，但要记住最重要的一点：普遍性不取决于样本中有多少人，而是如何选择样本里的人。

一个非常简单的思考练习可以很好地说明这一点。假设你委托我估算民众对贾斯汀·特鲁多（加拿大总理）的支持情况。你更信任哪种方法给出的结果：

（A）从一份包含所有加拿大成年人的名单中（如果真的有）随机选择200人
（B）在多伦多市中心的一家购物中心找到1000人

图1：多伦多市的伊顿商业中心（尽管我们多伦多人有时会认为这座城市在政治倾向上并不能代表整个加拿大）

这个例子只是个玩笑，但它说明了我的观点：如果抽样策略有缺陷，那么样本量再大，也无法让样本更具代表性。

同样，让样本更具代表性的方法不一定是招募更多的人，而是改变或调整抽样策略。

因此，如果你的顾虑是“这个样本的结果是否仍然适用于更广泛的人群”，那么请询问用研人员，他们是如何招募和做用户抽样的，而不是询问他们是否招募了足够数量的人，或者询问他们是否可以访谈更多的人。

原因2：普遍性并非定性研究的目标

这一点可能看起来有点挑衅的意味，请理解我的直言不讳：世上没有绝对完美的研究方法。不同的方法和途径各有优劣。这就是为什么我喜欢做一个多元方法（mixed-methods）的研究者。

在社会科学中，定性方法的优势在于：1）对行为背后的想法进行深刻且细致的理解；2）随着时间的推移跟踪过程；3）在第一次处理新问题时产生线索和想法。但这种“深度”的代价是无法（或者，我认为是效率低下）批量复制同样深度的细致度和丰富性。

拿望远镜打个比方。望远镜的孔径越大，能看到的距离就越远。同时，孔径越大，视野就越窄。能看到多广阔的夜空和多遥远的夜空之间有一个直接的权衡，这对业余望远镜（我最近在市场上购买过）和天体物理学家使用的专业望远镜来说都是如此。

定性方法往往有很大的研究视野。你可以深入研究，但这是以缩小视野为代价的。定量方法可以让你观察更广泛的人群，但因此你也不能像定性方法那样深入地观察样本。

（关于这一类比，我最后想说的是：没有人嘲笑詹姆斯·韦伯太空望远镜深入观察一小片太空，而不是广泛观察大片夜空。事实上，我们对此总是欢呼雀跃。那么，为什么我们要拦着定性研究人员去做到这一点呢？）

美国国家航空航天局JWST的最新佳作

(https://www.flickr.com/photos/nasawebbtelescope/53003114489/in/album-72177720305127361/ )

这并不是说定性研究人员不把普遍性作为一般因素或关注点来考虑。在设计定性研究时，研究人员正在考虑他们的抽样策略以及他们得到的样本是否与总体人群存在显着和重要的差异。但考虑普遍性和将其作为最终目标之间是有区别的。如果普遍性是研究的最重要目标，那么应该考虑定量方法。只要牢记其缺点即可。

我再重申一遍：没有绝对完美的研究方法。

原因3：在定性研究中，样本量的合理性是由饱和原则决定的

那么，如果定性样本量不是由普遍性决定的，那么定性研究人员如何预设样本量？

假设用研人员正在进行一项访谈研究，并开始与用户交谈。在某个节点，他们将达到这样一个阶段，即他们基本上从每个新增用户那里听到了相同的反馈，并且无法获得关于研究问题的新输入。这个阶段就是用研人员所说的饱和点。

使用饱和原则来确定样本量有两个重要的含义。

在你开始收集数据之前，你不可能真正知道什么时候会有足够的数据。当然，你可以做出有根据的预测，但依照饱和原则，用研人员可以通过提前分析已收集到的数据，进而随时调整他们的调研节奏。期待你的用研人员也可以像我们这样随时调整数据的收集。
需要多少用户才能达到信息收集的饱和状态，这在很大程度上取决于：1）有多少个研究问题；2）这些研究问题有多复杂或微妙；3）你的团队对问题空间的了解程度；4）这项研究有多少样本筛选变量。我只是仅举了几个例子。

以个人经验的例子来更清楚地说明一下：我发现，当测试相对简单明了的主题时，而且只需要关心较少内容时，大家经常反复听到的“你只需要五个用户进行可用性测试”的说法基本上是正确的。

我的大多数可用性研究都是5-10个用户。由于访谈研究的多样性，访谈所需用户数量可能会有所不同，但我自己的大多数访谈研究都是7-15个样本。

（我的访谈人数最高记录来自于我在一家非营利组织工作的那段时间，一项非结构化提纲的弱势群体访谈研究（emancipatory interview study）最终有27名被访者。这是一个非常特殊的案例，但我不建议大家尝试同样大的样本量）。

关于样本量的经验总结

那么，我们今天对定性研究的样本量获得了什么？

定性研究人员通过饱和原则确定他们的样本量；
如果你是出于研究结果普适性的目的而对定性研究的样本量提出质疑，可以考虑让用研人员增加定量研究强化定性结论，或者询问他们的抽样策略（而不是样本量）；
研究人员会担忧定性结论的普遍性，但这并非定性研究方法的目标或优势。

原文来源：https://uxdesign.cc/stop-asking-ux-researchers-to-defend-their-sample-size-65aa5c2305d2（2023.6.28）
版权声明：该文章在UXRen公众号（cnUXRen）首发后方可转载，转载时请注明出处及译者、审校者信息，如有违背，UXRen社区保留侵权追责的权力。