语音交互如何测试与评估?

网易产品发展2018-06-08 11:49


作为用户研究从业者,希望能对每一种已经应用或有待研究的交互界面进行更深入的洞察和把握。因此,译者学习行业已有经验,并将部分方法工具经过改良应用于当前从事的智能硬件产品调研中。目前,业内只在图形交互界面有相对丰富的测试方法和经验,语音界面的相对较少。下文将总结3篇文章的精华,回顾图形界面(GUI)一些借鉴意义较高的测试方法,并逐一介绍语音界面(VUI)经典测试方法。对比后可以发现两类界面的测试方法在一定程度上有些相似,可以互相借鉴。文章将结合译者在项目中遇到的实际应用案例,为语音交互界面或其他形态交互界面的评估和改进提供思路。

文章适合VUI产品的用研、设计、产品、测试同学以及任何对VUI感兴趣的同学阅读。

GUI 和 VUI 测试概况

图形交互界面(GUI,Graphical User Interface)如今几乎是所有软件产品的基础界面,已得到广泛应用。15年前,半数以上的软件已采用GUI的规则进行开发,但那时GUI测试的丰富程度不及其应用水平。近年来,随着行业的不断成熟,各种工具和经验才不断涌现和积累。当前GUI测试可以分为两个领域,可用性测试和功能稳定性测试,其中功能稳定性测试包括4类:系统测试、回归测试、输入验证测试和QA测试。

语音交互界面(VUI,Voice User Interface)类似于图形交互界面,交互的形态是用户通过声音进行输入,系统通过声音或者视觉信息输出。现有针对VUI的测试技术远少于GUI,好在已经开始有众多基于GUI和其他系统(如IVR语音应答系统)的测试方法被扩展开来,成为可用于VUI的测试工具。

VUI 测试方法介绍&应用建议


行业中通用的一些VUI测试工具包括对话遍历测试、系统质量保证测试、载荷测试、可用性测试、绿野仙踪测试、可用性走查、VUI评估测试(VRT)、问卷评估、调取录音、调取日志等。这些评估工具被应用于VUI开发生命周期的不同环节,其中大多数被应用于设计和评估阶段,而问卷评估、调取录音、调取日志则被应用于上线后的VUI评估。下图呈现了VUI的开发周期以及对应的测试工具。


绿野仙踪测试(明确需求、设计阶段)


“绿野仙踪不仅是一部经典的电影,也是一种帮助你确认产品设计的方向是否正确的工具”。 绿野仙踪测试是VUI测试工具中最常用的一个,适用于需求挖掘、设计、测试和分析阶段。经过项目的实证, 译者认为绿野仙踪测试更适合用于辅助功能策划或VUI设计的需求。

该范式起初源自人因工程领域,是1960年Nigel Cross最初模拟的一个类似实验,目的是验证CAD软件概念的可行性。这种方法的劣势在于缺乏计算机的速度和精确度,但也有明显优势:不需要投入开发资源,仅由一位“巫师”按脚本模拟系统的应答,就能够对程序的基本流程和框架进行评估,与原型测试非常类似。绿野仙踪测试在亚马逊echo的VUI设计时被引入,成为经典测试范式,成功帮助echo进行3个主要维度的设计和优化:交互形式、响应速度、VUI的语言情感倾向。

亚马逊echo的实验操作流程大致如下:用户在单向实验室中对电脑做出语音指令,单向镜后的主试(oz)人工返回相应结果;实验结束后,实验对象需要填写一份满意度问卷,并写出他们喜欢怎样的回复。组控制:大约会有50人次进行同样的测试,在测试过程中,回复方式和回复时间作为组间区分变量,直接验证用户对回复方式、回复时间及对语调的喜好倾向。

鉴于语音交互界面的不可见性,GUI的概念原型测试在VUI中行不通,把线框图替换为用可操作的原型是一个不错的选择。


事实证明,绿野仙踪测试为产品带来的好处包括但不限于以下:
1. 高效:快速验证概念可行性,保证功能策划阶段的快速迭代。

2. 仿真:尽量还原真实产品的使用场景,能够通过用户行为数据获取有生态效用的数据,而不是用户凭空想象“我喜欢它、我不喜欢它”。

3. 省力:研发资源投入低,几乎不需要研发资源的介入就可以通过产品和用研制作好概念原型。

在概念验证的过程中使用这一工具,会存在以下潜在风险,规避建议同时列出:
1. 变量控制:干扰变量不好控制。如果既想验证产品定位又想验证功能形态,则需要尽量将两者分离,否则由于VUI评价的主观性,功能形态会对产品定位的影响很大。建议的做法是增加前后测访谈和问卷。


2. 用户质量:对用户质量要求高。由于VUI评价的主观性较强,建议选择产品/功能的目标用户。


3. 概念细节:对产品/功能形态细节要求较高。VUI更近似自然状态的交互,用户行为可控性相对弱。因此建议产品/功能概念在具备较为成熟的交互形态构想、产品定位想法时,再进行测试,否则会经常出现以下场景:由于产品人员或设计师还没未考虑概念原型的细节,用户自由奔放的尝试方式会带来更多负面体验。


参数测试(设计阶段)


一种基于心理物理法演变出来的测试工具, 建议应用于精细化的体验设计过程,调研结果可以作为设计规范和体验标准。实验心理学中阈限的测量往往基于三种基本方法:极限法、恒定刺激法、平均误差法,下面从原理&操作、适合测试类型、优劣势角度对这三种方法进行比较。


以智能音箱的研究为例,在实际应用时,这个工具是为了帮助调研VUI的响应时间、音量等默认参数设计。经过验证有效的方法如下:

1. 恒定刺激法结合绿野仙踪实验,在VUI响应时间参数调研时实测并回收用户Y(接受)/N(不接受)/X(不确定)的数据,有效保证了自变量的标准化,适用于多种设计方案的选择和验证、由设备单向输出功能的研究。

2. 平均误差法,测量用户在对音量偏好的数据,可以有效回收到特定场景中音量阈限值、最适值。用一种相对轻松的方式获取了具备生态效用的体验边界数据,适用于人机双向交互功能或参数的研究。


原型测试(实现阶段)


原型测试被应用于系统原型已搭建好的“实现”阶段,这个时候绿野仙踪实验中“巫师”的角色就被编码代替了。原型测试被奉为产品可用性评估和真实数据采集的经典工具,主要针对功能原型进行测试。Kortum表达过对绿野仙踪测试的负面评价即更耗费资源,从资源投入和效果产出比角度来看,原型测试更具性价比。

项目进行到方案选择,并且几个方案实现起来开发成本不那么高,这时我们选择了用原型测试来研究“唤醒后等待时间”以及“暂停后音乐恢复策略”。出于成本节约考虑,采取半自动化的原型,自变量的控制(响应时间、重播/继续播放的恢复方式)由主试进行拉丁方设计后,配合原型产品来施测。

原型测试带来的切实好处是:
1. 精准施测:可以保证自变量标准化,保证施测的信效度。
2. 节省人力:因为是半自动化的系统,节省了人力投入。
3. 节约资源:半自动化的特性,保证了工具可以复用。


VRT(VUI Review Testing,测试阶段)


VRT测试是一种经验性的整体评估手段,可类比于GUI测试工具中的专家走查法,一般在DTT(Dialog Traversal Testing 对话遍历测试)之后、UAT(User Acceptance Testing用户接受度测试)之前实施。由于VRT可以发现潜在的可用性问题、解决性能问题,以及其他整体性的问题,可以说是可用性测试中返回的有用信息量较大的一种测试工具, 适合在已经实现了产品原型的基础上,评估产品实现情况和功能稳定性时使用。实施过程是专家扮演用户,逐条体验事前挑选出的用例场景。


需注意:由于测试的目标是评估“用户体验”的水平,施测人员必须是VUI设计师或者可用性专家(尽量规避开发人员)。


可用性测试(优化阶段)


可用性测试在VUI中依然是用户研究较常用到的测试工具,应用于产品已能够良好运行的基础上进行的上线前版本或版本迭代测试。

与GUI的可用性测试相似,任务设置是最终要的环节之一。VUI测试的信效度非常依赖范式/任务设计的生态效应,真实场景任务尤其实用,用户在这种场景下会表现的更自然,也缩小了测试结果和实际应用之间的差距,增加了范式设计的信效度。

评估VUI需要三类数据共同辅助:日志(埋点数据)、音/视频记录、问卷。一般会先从日志开始,当一个潜在风险通过日志数据被识别出来,也就锁定了问题;接下来调取事发时刻的音/视频记录,用以分析VUI在这个过程中究竟是怎么表现的,基本可以定位问题并分析原因;如果发现一些问题需要追问就可以用问卷或者访谈来补充和验证自己的假设。这种方式可以相对高效、充分地利用每一部分数据,各数据之间形成互补。


竞品测试和内测前期用到的主要是模拟真实场景的任务测试方法。以下是VUI可用性测试的实施步骤:
1. 为测试选取高频的场景和任务。
2. 用户自主体验任务,研究者观察并记录用户和VUI表现。
3. 任务后访谈+问卷。

a)观察什么
在任务体验过程中观察并记录用户的表现,需要记录的关键要素包括:
①用户如何进入一段对话(VUI引导、入口设计)
②哪些对话辅助效果突出任务流畅(VUI主动性、内容有用性)
③什么时刻用户感到迷茫或不耐烦(VUI结合反馈形式、VUI内容设计)
④任务出错时是否能即时修正(VUI防错机制)

第④点在一开始并没有被纳入,但是由于AI的发展比预想差很多,带来的结果是用户反复出现同一个错误或者体验评价急剧下降,使“是否能及时修正错误”进入译者视野从而成为当前阶段VUI优化的关注重点。

b)为什么要用埋点数据
这里强调日志数据的重要性。GUI的可用性测试一般会采用小样本实验、问卷、访谈、观察的方式回收数据,但是在VUI中用户与界面的交互更感性。并且测试期间感官的应用集中在听和说,不利于及时出声思考表达即时体验,使“回忆”带来的成本升高和数据信效度下降。此时,研究者可以转向对用户行为的直接分析,意味着提前埋点。这些埋点在后面全部调研阶段都将贡献非常好用的一手数据,使你可以从用户群体行为数据做出风险预判、结果更具有生态效应,任何人都不会忽视用户最诚实的“心声”。

c)如何设计测后问卷
尽管VUI测试中用到的问卷基本采取小样本填写,问卷设计周期却比GUI产品要更长。VUI的评价会掺杂更多用户的主观情感,而且用户体验的成本更高。为了能够有效的剥离无关变量,同时保证数据更具可落地性&时效性&充足,这一阶段的问卷设计需要依赖充分的前期调研。经过智能语音产品的多个阶段调研经验,逐渐清晰了VUI测试问卷的大致框架(需要依据前期调研到的产品和功能的具体情况做针对性的问题设置):
• 总体满意度
• 客观评价(总体:操作成功率)
• 主观评价(可用性:VUI内容的有用性、VUI信息量、其他界面的配合度;易用性:VUI内容丰富度、VUI引导的主动性)


GUI 测试 Vs. VUI 测试

界面自身差异会带来一些界面测试上的差异。GUI和VUI差异存在但不限于以下方面:

另外当前比较多的VUI测试方法基于IVR系统(如电话拨号系统)衍生,IVR使用语音输入,输入形态自然且不固定;而GUI是靠鼠标或键盘来输入,输入形态固定。

两类界面测试最主要的差异在于测试的主要关注点,GUI更关注界面本身因为有经验可参照评估时更客观,VUI更关注用户感受因为界面评估更依赖用户主观喜好。

如果VUI的测试能融入更多关注界面本身设计的测试环节,测试方法将更完整。具体做法可以借鉴GUI的功能稳定性测试中已经在用的自动化测试套件,这些套件会对VUI产品的稳定性和操作成功率角度提供参考结果,自动化而非仅依靠主观评估。

VUI 测试方法总结


当你想了解自己产品语音部分的表现,就非常有必要做绿野仙踪测试(Wizard of Oz Experiment)和原型测试(Prototype Testing);总体上,原型测试更优,但是绿野仙踪测试可以在设计阶段就评估语句措辞。VRT和可用性走查法可以评估VUI整体水平,并且是专家从用户角度来评估,如果说前一阶段的测试是为了验证流程是否走得通,那这个阶段的测试结果要求更精确以发现更多可用性问题,让声音交互界面变得好用。另外在预发布阶段可以使用对话遍历测试、识别测试、负载测试;上线后的效果评估可以应用数据回收工具进行以下分析:任务完成率、流失率、VUI使用时长、语音打断、与GUI的转换、bug(无应答、无匹配内容、延时)、导航、完整呼叫记录等。

除了评估语音界面的表现,在一些产品的预研阶段(比如产品前景预研、需求挖掘、功能概念策划等)依然可以灵活应用这些工具。稍作变形,并适当结合其他工具,就可以有更高的应用价值,获得丰富的调研数据来为你的研究贡献可靠依据。

感想&讨论


VUI真的是个宝藏,它不仅延展了当前可交互的界面边界,也因为其更接近自然交互形态的特性解决了部分GUI时期被花尽心思设计的交互难题,但是随之而来的问题就是如何对这样一个灵动、自然到难以描述的界面形态进行评估。译者曾经在所在项目验收VUI的过程中,苦于如何帮助界定框架和验证信息架构,想看到当前产品VUI的全貌。目前探索到的一个答案是:越是自然的交互性态,越是边界模糊无需架构的。


调研人员需要做的是:保证设计者清楚用户的使用场景,使用户在这些场景中能够被VUI正确的引领-得到答案-遇到问题不慌忙-去做下一次有效的尝试。下一次界面形态的升级,我们也许又要重新遍历如今的探索了。

原文
1. Amber Wagner, "A Comparison of GUI and VUI Testing", Computer Science Department University
2. Goss, K. & Gilbert, J. "A multiple approach is best", Speech Techology, July 2007, retrieved from http://www.speechtechmag.com/Articles/Archives/Talking-Tech/A-Multiple- Approach-Is-Best-36885.aspx
3. Jun Okamoto, Tomoyuki Kato, Makoto Shozakai, "Usability Study of VUI consistent with GUI Focusing on Age-Groups",Information Technology Laboratory, interspeech 2009 BRIGHTON


分享者介绍

于爽,杭研产品发展部戏精。做过理财金融,做过硬件家电,现在踏入AI领域暂时不想回头,因为埋头于跟多界面交互产品共同成长。