Pesquisa: métricas em teste de usabilidade

Em um teste de usabilidade geralmente definimos algumas métricas para avaliar a experiência do usuário em nosso site, aplicativo, produto ou serviço. E isso vale mesmo para testes com um olhar mais qualitativo, em que você quer apenas levantar os principais problemas ou ter insights. Podem ser métricas simples como a taxa de sucesso nas tarefas ou uma escala de satisfação ao final do teste ou métricas mais específicas, como o System Usability Scale (SUS).

Inspirados por uma pesquisa que Jeff Sauro fez para o Measuring U há um tempo atrás, resolvemos pesquisar mais sobre o assunto e perguntar às pessoas que fazem teste de usabilidade que métricas elas utilizam. Para isso, montamos um questionário online que divulgamos de dezembro de 2018 a janeiro de 2019. Tivemos 113 respondentes, entre os quais 97 haviam feito testes de usabilidade no último ano.

Entre os respondentes, o tipo de teste de usabilidade mais comum era o presencial, agendado, mais tradicional ou “formal”. 69% haviam feito testes de usabilidade desta forma em 2018. Mas isso não quer dizer que seja o mais popular entre todas as pessoas de UX – a nossa amostra foi reduzida e, como tratamos de métricas, é bem provável termos atingido principalmente pessoas com um certo grau de experiência na área. Quem só faz teste de guerrilha de forma menos estruturada, por exemplo, pode sentir que uma pesquisa sobre métricas não é para ele responder. Ressalva feita, vamos aos resultados. 🙂



Gráfico mostrando os tipos de teste de usabilidade realizados
Resultados em porcentagem do total de 97 respostas. Perguntamos para quem fez teste de usabilidade em 2018 e os participantes podiam selecionar mais de uma opção. Total de 97 respostas. Pesquisa realizada por TESTR no período de dezembro de 2018 a janeiro de 2019.



Quais são as métricas mais comuns em teste de usabilidade?

Perguntamos que dados as pessoas coletaram em testes de usabilidade em 2018. De propósito, misturamos na lista métricas propriamente ditas (como taxa de sucesso nas tarefas), aspectos mais subjetivos (como expressões faciais) e aspectos mais técnicos (como gravação da tela). A intenção foi juntar diversas formas de medir ou registrar a experiência do usuário para analisar depois.

O resultado? Mais de 80% lista ocorrências / problemas observados. É uma das formas mais simples e diretas de obter resultados de um teste: anotar os problemas observados e classificá-los por severidade. Você pode fazer isso durantes o testes, em sessões de debriefing ao final do dia e organizar tudo em tabelas para facilitar a descoberta de padrões. Já escrevemos sobre isso aqui, com um modelo de tabulação para baixar.

A popularidade da lista de ocorrências ou problemas observados pode indicar que as pessoas fazem mais testes formativos do que somativos (mesmo sem pensar muito sobre isso). Em testes formativos, a intenção é descobrir os problemas e como melhorar o produto testado. Nos somativos, a ideia é medir a performance e comparar com outros produtos similares ou com o mesmo produto ao longo do tempo. Testes somativos tipicamente usam mais métricas como tempo de tarefa e taxa de sucesso, mas elas também pode ser aplicadas – e bem úteis – em testes formativos, como argumenta o Jeff Sauro.



Métricas / dados que utilizaram em 2018
Resultados em porcentagem do total de 97 respostas. Perguntamos para quem fez teste de usabilidade em 2018 e os participantes podiam selecionar mais de uma opção. Total de 97 respostas. Pesquisa realizada por TESTR no período de dezembro de 2018 a janeiro de 2019.

Entre as métricas propriamente ditas, muita gente costuma utilizar a taxa de sucesso na tarefa. É um cálculo bem simples: do total de participantes, quantos conseguiram realizar a tarefa sem dificuldades? E quantos não conseguiram? Para chegar a esta taxa é importante definir bem o que será considerado sucesso e fracasso em cada tarefa. Já falamos sobre isso em outro post, sobre tarefas em teste de usabilidade.

Quase metade das pessoas que responderam mede o tempo que os participantes levam para fazer a tarefa. É um dado que pode ser bem interessante para comparar com métricas quantitativas do Google Analytics, por exemplo. Mas fica a dica: em um teste de usabilidade, principalmente se é moderado, o tempo pode ser pouco confiável. Afinal, você está ali do lado e a pessoa conversa contigo o tempo todo – e isso pode fazer com que ela gaste mais tempo do que gastaria de verdade. Se medir o tempo é importante pra você, pode ser melhor fazer um teste remoto não moderado (como fazemos aqui no TESTR) ou deixar a pessoa sozinha realizando a tarefa.

A gravação do teste é bastante comum; afinal, nem tudo dá para ver / anotar na hora. 71% dos respondentes gravam a tela, mas apenas 47% conseguiu registrar o rosto da pessoa. 64% fica apenas com o áudio. Bom, faz sentido – afinal nem sempre você consegue gravar tudo ao mesmo tempo. Aqui no TESTR nós defendemos que a expressões faciais são bem importantes e enriquecedoras. E podem fazer a diferença em seu projeto.

Em uma segunda pergunta, exploramos mais as métricas utilizadas em questionários após a tarefa ou questionário após o teste. Pedimos para as pessoas classificarem a lista de métricas em “Nunca ouvi falar”, “conheço, mas nunca usei” e “já usei em teste de usabilidade”. O resultado completo foi o seguinte:



Métricas que já utilizaram em teste de usabilidade
Resultados em porcentagem do total de 97 respostas. Perguntamos para quem fez teste de usabilidade em 2018 e os participantes podiam selecionar mais de uma opção. Total de 97 respostas. Pesquisa realizada por TESTR no período de dezembro de 2018 a janeiro de 2019.

A escala de satisfação é a mais utilizada, seguida de perto pela escala de dificuldade de cada tarefa. Curioso que uma métrica que não é relacionada a usabilidade seja a terceira usada: o Net Promoter Score (NPS). Pra quem não conhece, o NPS é uma métrica de satisfação de clientes baseadas em uma pergunta: “Em uma escala de 0 a 10, o quanto você indicaria nossa empresa / site / produto para um amigo?”. Você já deve ter respondido essa pergunta pelo menos uma vez. 😉


E qual a métrica mais importante para teste de usabilidade?

Ao final da pesquisa deixamos um campo aberto para cada um indicar o que acha mais útil em um teste de usabilidade.



Métricas de usabilidade mais úteis segundo os participantes da pesquisa
Pergunta aberta ao final da pesquisa, resultados em números absolutos. 41 pessoas responderam, algumas citando mais de uma métrica. Consideramos as respostas que citaram até 2 métricas.
Pesquisa realizada por TESTR no período de dezembro de 2018 a janeiro de 2019.


A seguir detalhamos as 3 métricas mais citadas como úteis por quem respondeu a nossa pesquisa.


Escala de dificuldade da tarefa

Esta é bem direta e fácil de entender: você pede para o participante informar como foi a realizar a tarefa, em uma escala que pode ir de “muito difícil” a “muito fácil”.

Uma das opções mais formais da escala é conhecida como “Single Ease Question (SEQ)“. Ela tem ter 7 pontos, apenas com o começo e o fim definidos nominalmente.



Escala Single Ease Question - SEQ

Mas você também pode utilizar uma escala de cinco ou quatro pontos. E pode atribuir valores nominais a todos os pontos (em vez de deixar números, por exemplo). Se for uma escala com um número ímpar, tem um “meio” que é neutro. Com um número par de opções você “força” o participante a sair de cima do muro. As duas são corretas – só depende do seu objetivo.



Escala de dificuldade com cinco pontos
Escala de dificuldade com quatro pontos

De um jeito ou de outro, saiba de uma coisa importante: usando uma escala horizontal, as pessoas tendem a escolher as opções da esquerda (pelo menos em países ocidentais em que a leitura é da esquerda para a direita). Mas se você colocar as opções negativas mais à esquerda, consegue evitar um pouco deste viés (não por acaso, a escala SEQ começa com “muito difícil”.


Expectativa x Realidade

Também conhecido como “Expected Usability Magnitude Estimation”, é uma sequência de perguntas com o objetivo de avaliar a dificuldade estimada antes e depois de realizar uma tarefa. Comparando os resultados, é possível identificar pontos de melhoria e oportunidades no produto ou serviço testado.


Gráfico que pode ser utilizado com a escala de expectativa e realidade



O SUS (System Usability Scale)

O SUS é um questionário que deve ser utilizado após o teste de usabilidade e que se propõe a avaliar qualquer tipo de interface, considerando eficácia (os usuários conseguem completar seus objetivos?), eficiência (quanto esforço e recursos são necessários para isso?) e satisfação (a experiência foi satisfatória?) São 10 afirmativas e para cada uma, o participante diz o quanto concorda ou discorda, em uma escala likert de cinco pontos (similar à escala de dificuldade, mas em vez de “muito difícil” e “muito fácil”, você tem “discordo totalmente” e “concordo totalmente”).

  1. Eu acho que gostaria de usar esse sistema com frequência.
  2. Eu acho o sistema desnecessariamente complexo.
  3. Eu achei o sistema fácil de usar.
  4. Eu acho que precisaria de ajuda de uma pessoa com conhecimentos técnicos para usar o sistema.
  5. Eu acho que as várias funções do sistema estão muito bem integradas.
  6. Eu acho que o sistema apresenta muita inconsistência.
  7. Eu imagino que as pessoas aprenderão como usar esse sistema rapidamente.
  8. Eu achei o sistema atrapalhado de usar.
  9. Eu me senti confiante ao usar o sistema.
  10. Eu precisei aprender várias coisas novas antes de conseguir usar o sistema.

Como há afirmativas positivas e negativas, para chegar em uma métrica você precisa fazer uma conta rápida:

  • Para as respostas ímpares, subtraia 1 da pontuação que o usuário respondeu.
  • Para as respostas pares, subtraia a resposta de 5.
  • Some os valores das dez afirmativas, e multiplique por 2.5. Essa é sua pontuação final, que pode ir de 0 a 100. 68 é uma boa nota.





O SUS é interessante porque se propõe a fazer uma avaliação bem objetiva da usabilidade percebida. E permite comparar a usabilidade do seu produto com a de outros produtos. Mas há quem considere as questões um pouco difíceis de aplicar para todos os participantes de teste – afinal, não é todo mundo que fala sobre inconsistências de sistemas, certo? E um ponto importante: se você quiser comparar os seus resultados com outros sites, não pode mudar a forma como as perguntas estão formuladas, OK?

E como é no TESTR? 

O TESTR é uma plataforma de teste de usabilidade remoto. Os participantes realizam tarefas gravando a tela, a câmera frontal (ou webcam) e o áudio. Ao final de cada tarefa, respondem uma pergunta padrão. Durante um bom tempo utilizamos uma escala de dificuldade de muito difícil a muito fácil. Recentemente trocamos por uma escala diferente - e estamos acompanhando os resultados. 

Ao final das tarefas, os participantes respondem perguntas por escrito. E estamos neste momento trabalhando em melhorias para permitir aos clientes incluir escalas novas, como o SUS. Aguarde novidades em breve. 🙂 

Ufa, falamos um pouco de cada coisa. E você? Se sentiu representado pelos resultados? Sentiu falta de saber mais sobre uma métrica específica? Conta pra gente. :]


Para saber mais

“What metrics are collected in usability tests?” Jeff Sauro – Measuring U
“Usability Metrics” Jakob Nielsen – NNGroup
“Beyond the NPS: Measuring Perceived Usability with the SUS, NASA-TLX, and the Single Ease Question After Tasks and Usability Tests” Page Laubheimer – NNGroup
“Usability Metrics – A Guide To Quantify The Usability Of Any System” Justin Mifsud – Usability Geek

NNGroup, sobre a diferença entre teste formativo e somativo (vídeo em inglês)
“Are the terms formative and summative helpful or harmful?” Jeff Sauro – Measuring U

“O que é o SUS (System Usability Scale) e como usá-lo em seu site” Fabricio Teixeira – UX Collective
“Survey respondents prefer the left site of a rating scale” Jeff Sauro – Measuring U


Also published on Medium.