快速合意性测试:微软方法助力设计团队全面了解用户情绪反应
快速合意性测试的主要目的是让用户能够真切地表达。这样设计团队就能更全面、更真实地了解用户的情绪反应。做用户研究时,行为和态度容易测量,情绪反应难测量。我们的很多研究方法依赖用户自我报告,而人们对自己的情绪反应缺乏清晰认知。尤其对于视觉设计,若想知道某种视觉风格唤起用户的认知和情绪,直接询问用户难以得到可靠结果。
本文提供了一种微软的方法,这种方法简单且有效。它可以帮助用户进行探索和表达,还能帮助团队全面地了解某个设计方案所唤起的情绪反应。
以下是原文:
在我们公司的设计流程中,当我们为一个特定设计定义了概念方向和内容策略,且通过用户研究和迭代式可用性测试提炼出设计方向后,就会开始进行视觉设计。通常,我们会选取一个结构和功能已确定的关键页面,例如主页或者后台管理页面(page)的一种布局,接着探索三种视觉设计方案。这三种备选方案包含相同内容,它们反映出在配色和图象方面有不同选择。
这是为了向企业所有者以及关键决策者展示各种不同的视觉设计方案,以便他们进行选择。有时关键决策人会有明确的偏好,或者从品牌的角度能够选出最为合适的方案。然而,项目团队成员通常会对究竟应该选择哪个设计方向存在不同的意见。如果我们做得足够好,那么在每个不同的设计方案里,都会有关于设计决策的原理阐述。即便如此,团队成员依然有可能对哪种原理阐述是最合适的这件事产生分歧。
我们是作为以用户为中心的设计的实践者,自然希望借助用户研究来指导视觉设计过程的选择。然而,传统的可用性测试及其相关方法,看起来不太适合用于评估视觉设计,原因主要有两点:
当我们向用户寻求对视觉设计选项的反馈时,关键决策人通常会寻求较大的样本,这个样本比典型的定性可用性研究的样本要大。我们所寻求的用户反馈带有更多的情感因素,也就是说,我们不太关注用户完成任务的能力,而是更关注他们对一个给定设计的情感反应。
考虑到这些情况,我开始对近期他博客中提到的合意性测试产生了浓厚兴趣。在他的一篇文章里,他认为合意性测试是一种能够让你评估用户对于美学和视觉吸引力的态度的定性与定量相结合的方法。受他对这种方法观点的启发,我们对合意性测试进行了深入研究,并在我们的一个项目上尝试了这种方法的调整版本。
这篇文章回顾了合意性测试的变体,这些变体是经过我们仔细考虑的。同时,文章还回顾了我们在自己的项目上执行合意性测试,以评估我们的视觉设计的过程中所学到的东西。
为什么合意性很重要?
从可用性方面来看,视觉设计的重要作用在于以我们所期望的方式引导用户体验设计的各个层次。借助元素的数值对比、颜色、尺寸以及布局等,能够对产品底层的信息架构和交互设计起到支持作用。
在设计过程的早期,我们关注设计的功能层面。通过研究,我们确保整体解决方案能提供让用户感兴趣的价值主张。我们致力于优化可用性,让用户能轻易意识到方案的好处,进而最终完成他们的目标。
有价值的功能会影响产品整体的合意性,直觉化的信息架构也会影响产品整体的合意性,交互设计同样会影响产品整体的合意性。功能的易性与情感的易性不同,易性源于美学、外观和感觉。视觉元素既能支持交互设计方案,又能激发用户特定的情感反应。设计师理解并利用这些情感反应,就能够适当地影响用户。
有趣的是,其同伴发现了一个设计,这个设计能够非常快速地引发情感反应。在他们的研究报告里,他们列出了自己所做的一系列实验,这些实验是关于人们从一个视觉设计中形成观点需要多长时间的。正如从题目中能猜到的那样,他们发现设计可以非常快速地激发情感反应,这种快速程度大约相当于读一个单词所需要的时间。
这种情感反应的光晕效应很重要,它会致使用户对设计的第一印象影响到对产品的实用性、可用性和可信度的认知。通常情况下,用户主要是通过对产品的视觉美学以及图象的情感反应,而非特定功能的交互来形成对产品的第一印象。研究者把这个效应判定为积极或者消极。
如果一个用户对产品的视觉设计有良好的第一印象,那么他们会更倾向于忽略或原谅产品可用性不佳和功能有限的情况。如果对产品有不良的第一印象,用户则更有可能在交互过程中发现错误,即便产品的整体可用性良好且提供了实际价值。
这在很多领域具有特殊意义。例如,在电商环境里,用户对一个网站的信任程度,会对用户的购买决策以及用户与网站交互的意愿产生影响。对于交互式应用而言,用户对组织的感受,会影响用户所感知到的可用性,并且最终影响到用户对产品的整体满意度。
那为什么不直接问用户他们喜欢哪个设计?
在我所在的公司的设计流程里,前面提到过,我们尝试着借助用户反馈以及可用性测试,以迭代的方式提升我们的概念方向和交互设计。
一般来讲,在测试期间,我们会让用户出声思考并询问他们为何更喜欢某一种设计以及其理由。对于视觉设计方案,我们会在可用性测试结束后把视觉设计方案展示给用户,然后询问他们更喜欢哪一个。这看上去很直接,并且我们发现这通常就是关键决策人对于收集用户反馈的看法。
这个简单方法存在问题,即用户对自身喜好的解释未必会与设计的商业或品牌目标相关。例如,之前问这个问题时,会听到用户说喜欢一个设计是因为那是他们最喜欢的颜色。他们的描述或许是可信的,但这类反应无法帮助研究者评估设计所带来的情感反应,也无法帮助研究者评估设计与我们期望的品牌属性的符合程度。
https://img1.baidu.com/it/u=4240660945,3596188867&fm=253&fmt=JPEG&app=138&f=JPEG?w=461&h=340
有些用户难以清晰表达自己喜欢或不喜欢一个设计的原因。在某次访谈中,用户能选择更偏好的设计,但如果没有结构化的反馈机制,让他们描述喜欢或不喜欢的原因时,用户可能会有困难。
我们发现,在定性研究如可用性测试中询问用户对设计的偏好时,小样本不符合关键决策人对验证设计的期待。公开的网站或应用,其视觉设计是对公司品牌的重要描绘之一。关键决策人和赞助商通常希望有大量用户反馈,以确保设计方向正确。
一些潜在的研究方法
我们发现除了简单询问用户对特定设计的偏好之外,还有几种其他的结构化研究方法能够帮助进行设计选择,这些方法包括:
三角比较法
在这个问题方面,三角比较法给出了一种解决办法。因为它是一种对不同方案进行对比的具有结构化的方法。三角比较法的思路在于,以一种不会受研究者影响的方式,引导出研究参与者以及目标用户可能会用来对不同方案进行比较的一些特性。
研究员给出三个设计选项,会让用户挑选出两个自认为与第三个不同的设计,同时阐述为何不同。此过程有助于研究者知晓目标用户在比较不同设计时,哪些维度是重要的。该方法可用于从交互设计的角度,对竞争性的风景画以及不同的概念选项进行评估。这个方法用于大样本研究比较困难,同时也难以向关键决策人展示出图表化的结果,而这些关键决策人想要知道如何做出最佳设计选择。
体验问卷
另一种可能的评估设计方案的方法是借助综合的体验问卷。诸如 SUS、QUIS 和 WAMMI 这类广泛且基于体验的问卷,其中会包含关于视觉吸引力和美学方面的问题。在可用性专家协会( )2014 年的报告里,Tom 与他人共同进行了一个比较这些问卷有效性的研究。他们发现,这些问卷都能够评估不同网站之间的差别,且是可信的,只是在程度上有所不同。
问卷具有能比较不同设计方案在用户认知中差异的能力,这很令人感兴趣。这些问卷较为直接,也容易在大规模样本中实施。然而,很多问卷包含大量关于交互的问题,并且要求参与者与产品已有一定水平的交互。若要对静态的视觉方案进行快速对比,这些问题就不太适用了。我们不仅想在这些设计中找到胜出者,还想知晓每一个方案所激发的情感反应,以便继续优化好的设计。然而,这些问卷的结果无法满足这一要求。
快速曝光记忆测试
我们看到的第三种方法是快速曝光记忆测试。研究者向参与者展示一个用户界面,时间很短,之后就将其拿开。接着,他们要求参与者回忆从刚才短暂曝光中能记得的关于用户界面的信息。由于参与者与产品的交互有限,所以理论上,他们能让你窥探到他们的第一印象,即有什么东西还留在他们的记忆里。在可用性测试时,我们曾尝试用此方法来激发对主页以及其他开始页面的讨论。这种方法对评估布局考量以及信息设计很有帮助。
有一个在线服务,它能在较短时间内帮助收集反馈,且样本量不错,有 50 个参与者。我们没选这个服务作为视觉设计对比研究的首选方法,因为觉得它太注重人们对特定项目的记忆,而非情感反馈。不过,若只有少量预算和精力,在某些情况下这个方法会有用。
生理指标测量
最后,在探寻合意性测试的潜在办法时,我们对可用于评估情感反应的生理指标的大量知识进行了评估。在一篇评估网页设计多种方法的文章中,我们和其他作者总结了一些可用的方法:
在这些研究中,与眼动追踪相似,当研究者向参与者展示设计方案时,多种感应器会对生理指标进行追踪。一种指标的改变或者多种指标的改变,反映了某种特定的情绪反应。研究者通常会把这些测量和自我报告的态度问卷结合起来,从而对参与者对设计的情感反应获得多方面的了解。这种通过生理学方法对情绪反应进行定量测量的方式是非常好的。但是,由于我们很多项目存在时间和预算的限制,我们所寻找的方法是能够在实验室之外使用的,甚至是能够在互联网上使用的,只有这样,才能够获得大样本的反馈。
我们选择的评估视觉设计合意性的方法
我们考虑过的所有方法中,最适合我们目标的是微软的 Joey 和 Trish Miner 在他们的文章《测量合意性:在可用性实验室环境中评估合意性的新方法》中所描述的方法。
与一个多学科团队合作,Miner 发展出了一套形容词,参与者可以用这些形容词来描述他们对一个用户界面的情感反应。他们将所有形容词(如下图所示)放置在可与参与者交互的产品反应卡中。重要的是,他们开发了一组术语,这些术语可作为用户界面的潜在描述词,并且在他们的研究中可能较为突出。这些形容词代表了人们可能觉得是积极或者消极的描述的组合。他们会向参与者展示一个用户界面,接着要求参与者从这个列表中挑选 3 至 5 个自认为最能描述该界面的词语。
研究者通过分析参与者的结果数据,能够将特定的形容词与每个视觉设计方案相结合,同时评估哪个方案更符合企业试图唤起的情感反应和品牌属性。这个方法既可以在一对一的情境中使用,也可以在问卷调查中使用。一对一方法的好处在于,研究者可以询问用户选择特定形容词的原因,此过程可能会发现一些额外的洞见。
很明显,研究者使用问卷调查的方法会错失一对一研究中的定性层面。然而,他们能够收集到更大样本量的反馈。无论哪种方式,该研究的结构化都能让数据分析变得相对简单。此外,向关键决策人报告参与者对每个视觉设计最频繁选择的形容词,既有力又容易理解。
我们的经验
https://img1.baidu.com/it/u=312487802,2862857761&fm=253&fmt=JPEG&app=138&f=JPEG?w=500&h=656
我们在最近的一个项目里尝试用这个方法做合意性测试,想看看它能否帮我们提炼出公开网站的视觉设计方向。当我们的整体设计流程到达已经确定了内容、通知和信息架构的阶段时,就开始设计网站的多种视觉概念。
这个网站的目标是让客户注册一个折扣健康计划,该计划能在现金支付的医疗费用方面为用户提供优惠。我们设计网站以及考虑情绪影响的目标分别如下:
有了这些目标后,我们设计了两种备选视觉方案。第一种方案中,如下面的图 1 所示,我们运用干净的边缘以及大胆的颜色,目的是让网站看起来更为保守和稳定。我们的假设是,访客能够在这个网站与其他他们十分熟悉的知名品牌之间找到相似之处,而这会使他们对这个网站产生信任感。在下图 2 所显示的第二种方案里,我们挑选了更为柔和且温暖的配色。通过运用圆角以及放置欢迎图片,使得这个网站看起来更加友好。
方案1
方案2
为测试何种方案最契合我们的既定目标,我们借助产品反应卡开展了一场合意性测试。评估早期的用户研究之后,我们从完整的微软卡片列表着手,挑选出那些我们觉得对该品牌重要的形容词。我们把最终的形容词列表精简至仅 60 个,且按照与 Miner 的建议,使积极词汇和消极词汇的比例为 6:4。
我们通过问卷调查执行了这个研究,将参与者分为三组。
我们假设对第三组进行数据分析会有难度,然而委托方对询问这个简单的偏好问题极为热衷,所以我们实施了这一行为。最终,我们给予了所有参与者通过评论来给出他们所选择的形容词或者偏好理由的机会。通过我们的研究,我们在三个组中各自收集了 50 个人的反应数据。
我们预期的情况是,第三组的结果具有不确定性。这组参与者的偏好分布均匀,他们对自己选择的解释也很广泛。然而,另外两个从列表中选择词汇的组,其数据表很有用。我们找出了参与者最常选择的形容词,还计算了每个设计中积极词汇和消极词汇的总数。
参与者认为第一个设计易理解且清晰,然而他们也觉得这个设计是枯燥的、复杂的且没有人情味的,这与我们在做这个研究之前的假设相反。我们试图唤起的信任感并未在这个设计中被选择。
参与者认为第二个设计是亲切且友好的,这正如我们所预料的。然而令人惊讶的是,他们也觉得第二个设计是专业且可信赖的。很明显,这些形容词都符合我们所期待的情感反应。并且,第二个设计与第一个相比,获得了明显更多的积极评价。
我们进行了关于产品形容词的调查,这个调查比那个简单的“你更喜欢哪个设计”的问题更有助于我们对设计决策达成一致。根据我们的研究发现以及对参与者评论的总结,我们在设计师和关键决策人之间达成了一致意见,决定选择第二个方案作为设计改进的起始点。最好的是,当项目团队之外的人质疑设计元素的合理性,原因是他们喜欢其他风格时,我们能够提供一个基于研究的解释,这样可以减少个人偏好的差异,并且有助于我们更好地完成项目。
我们最终的设计
结论
测量人们对不同设计方案的情感反应并选择最佳方案的想法通常让人感到畏惧。每个人的观点各不相同,而且从大量关于简单偏好的数据中艰难前行,往往难以达到预期效果。此外,测量人们对一个设计的情感反应的研究本身就非常复杂。
人们对一个视觉设计的体验具有多面性,许多不同的设计层面会影响他们对产品的反应。通过测量人对产品的整体情感反应来测量生理反应,这种方式相对较为客观,然而并非所有人都能拥有实验室和测量设备。
我所描述的合意性研究中的设计 - 形容词方法,它执行起来比较容易,并且还能够帮助我们把视觉设计的情感反应抽离出来。我的公司到现在已经多次使用这个方法了,我们对这个方法所提供的结果所呈现出的清晰见解感到很高兴。
我们的合意性研究不仅能帮助我们选择设计方向。我们从中获得的洞见,既挑战了我们作为设计师的假设,又让我们能更好地修正所选择的设计方向。
将合意性测试添加到你的研究工具当中。接着,如果下一个项目的高级主管提出“改成紫色——我女儿最为喜爱这个颜色”这样的要求,那么合意性测试或许可以挽救你。
翻译:
页:
[1]