O Erro Secreto: O Erro Tipo M em Testes A/B

Matheus Buniotto
7 min readJun 18, 2024

--

Introdução

Se você trabalha com marketing digital, produto ou dados, é provável que esteja familiarizado ou ao menos esbarrado com testes A/B na sua jornada de trabalho ou estudo. Eles são parte fundamental da tomada de decisão baseada em dados, permitindo que possamos testar hipóteses sobre melhoria de produtos e/ou campanhas. Quando realizamos um testes A/B ou algum experimento controlado online, pretendemos detectar diferenças significativas entre variações implementas (A ou B). Nesse contexto, geralmente são destacados dois tipos de erros que podemos cometer:

  • Falso positivo (também chamado de erro Tipo I)
  • Falso negativo (também chamado de erro Tipo II)

Embora os erros do Tipo I (falsos positivos) e do Tipo II (falsos negativos) sejam normalmente discutidos, há outro erro crucial que muitas vezes passa despercebido: o erro do Tipo M, ou erro de Magnitude.

O que é o Erro Tipo M?

O erro Tipo M (erro de magnitude) ocorre quando a magnitude (ou tamanho) do efeito é estimada incorretamente. Em outras palavras, mesmo que um teste A/B indique que há uma diferença estatisticamente significativa (geralmente definida por p < 0.05) entre as duas versões testadas, a magnitude dessa diferença pode ser exagerada. Isso acontece, especialmente, quando a amostra é pequena ou os efeitos reais são mínimos.

Definição:

Erro do tipo M: É a razão entre o valor absoluto esperado do tamanho do efeito estimado e o tamanho do efeito real, quando a hipótese nula é rejeitada.

A importância dos erros do tipo M

A compreensão dos erros do tipo M é fundamental por várias razões:

  • Tomada de decisão: superestimar o tamanho do efeito pode levar a decisões de negócios incorretas, como investir demais em uma mudança que não tem o impacto esperado.
  • Alocação de recursos: Os recursos podem ser desviados para buscar mudanças com benefícios exagerados, negligenciando potencialmente outras oportunidades que seriam mais importantes para o negócio, mas foram despriorizadas pelo ganho encontrado teste.
  • Problemas replicação: Tamanhos de efeito exagerados contribuem para a crise de replicação, onde testes ou estudos subsequentes não conseguem replicar os grandes efeitos observados de ínicio.

Como o Erro Tipo M Acontece?

Imagine que você está testando duas versões de um CTA em uma página de produto: o Botão A e o Botão B. Após realizar o teste, você encontra que o Botão B tem uma taxa de conversão significativamente maior que o Botão A. Ótimo, certo? Talvez não!

Suponha que você esteja executando um teste A/B para determinar se uma nova versão de uma página de produto aumenta as vendas. Após rodar o teste por uma semana com um número pequeno de visitantes, você descobre que a nova versão aumentou as vendas em 40%. Animado com os resultados, você logo decide implementar a nova versão em todo o site.

Sem considerar o erro Tipo M, você ignora o fato de que a amostra pequena pode ter superestimado o impacto da nova versão. Na realidade, o aumento real pode ser de apenas 4%. Quando implementamos essa mudança e criamos nossa expectativa de ganho com base em uma magnitude inflada pode levar a uma frustração quando os resultados esperados não se concretizam!

Em resumo, os erros do tipo M normalmente ocorrem em experimentos com baixo poder estatístico.

A relação entre Poder Estatístico (power) , Erro Tipo M e o Fator de Exagero

O poder estatístico de um teste é a probabilidade de detectar um efeito verdadeiro quando ele realmente existe. Quando o poder estatístico é baixo, há uma maior chance de cometer o erro Tipo M. Hã, como assim?

Com um poder estatístico insuficiente, não apenas você pode falhar em detectar um efeito real (o famoso erro Tipo II), mas também, se detectar um efeito, a magnitude desse efeito provavelmente vai ser inflada.

O fator de exagero de poder é a razão pela qual a magnitude do efeito pode parecer maior do que realmente é em testes com baixo poder estatístico. Ele nos ajuda a medir o quanto a estimativa do efeito pode ser inflada devido ao baixo poder do teste.

erro do tipo M — fator de exageiro e power
Figura 1: Fator de exagero em função do power (Gelman e Carlin 2014)

O fator de exagero aumenta na medida em que o poder do teste diminui. Por exemplo, se um experimento tiver um poder de 20%, a taxa de exagero pode chegar a 2,5, o que significa que o tamanho do efeito observado pode ser 2,5 vezes maior que o tamanho do efeito real.

Quando o poder é baixo, a probabilidade de detetar um efeito verdadeiro
é pequena, mas outra consequência do baixo poder estatístico, que muitas vezes não é reconhecida, é que uma descoberta estatisticamente significativa com baixo poder estatístico é suscetível de exagerar muito o tamanho do efeito.

A maldição do vencedor diz que o “sortudo” que encontra um efeito num cenário de baixo poder estatístico, ou através de testes repetidos, é amaldiçoado
ao encontrar um efeito exagerado.

Para estudos em neurociências, onde a potência geralmente está na faixa de 8% a 31%, estima-se que os efeitos encontrados sejam inflacionados em 25% a 50% (Button et al., 2013)

KOHAVI; DENG; VERMEER, 2022.

A Maldição do vencedor (ou Winner’s Curse)

A “maldição do vencedor” é um fenômeno que ocorre quando a versão “vencedora” de um teste A/B é selecionada com base em um efeito inflacionado devido ao erro Tipo M. Em resumo, a versão que parece ser a melhor (com o maior aumento nas métricas) é frequentemente aquela cuja magnitude do efeito foi superestimada, especialmente em testes com amostras pequenas ou efeitos reais pequenos.

Exemplo em Python

Abaixo está um exemplo simples de como podemos simular um(n) teste A/B em Python e visualizar a relação entre o poder estatístico, o erro Tipo M e o fator de exagero:

Figura 2. Simulação do efeito real vs obersvado com amostra = 100

Fator de exagero da simulação ≃ 4.9

Neste exemplo, estamos simulando um (1000 simulações) teste A/B com um tamanho de efeito pequeno (0.10) e uma amostra de 50 indivíduos por grupo. A distribuição das estimativas do efeito mostra como a magnitude pode ser inflada. O fator de exagero de poder demonstra quanto a magnitude do efeito pode ser superestimada devido ao baixo poder do teste. Nesse exemplo, algumas simulações atingem um ganho de mais que 0.8 (ou 80%), mesmo quando sabemos que o efeito real é de 0.10 (10%).

Quando calculamos antecipadamente o tamanho da amostra necessário e analisamos o teste de acordo com a amostra necessária o fator de exagero cai de 4.9x para 1.15x, vale ressaltar que mesmo em um poder estatístico de 80% provavelmente ainda vamos observar alguma inflação na nosso efeito real.

Figura 3. Fator de exagero com amostra adequada

Como Mitigar o Erro Tipo M?

Para reduzir a ocorrência e o impacto dos erros do Tipo M, podemos considerar as seguintes estratégias:

  1. Tamanhos de amostra adequados (o mais importante): certifique-se de que seu experimento tenha amostras suficientes para detectar o tamanho do efeito esperado (MDE) de maneira confiável e com um poder estatístico adequado (geralmente 80%). Para isso, defina no planejamento o tamanho de amostra necessário para detectar o efeito mínimo que você deseja.
  2. Estimativas mais precisas de variação: use dados históricos para estimar a variação de sua métrica com precisão.
  3. Testes de replicação: conduza testes de replicação para verificar as descobertas iniciais. Isso ajuda a confirmar o verdadeiro tamanho do efeito e a reduzir o impacto dos erros do Tipo M.
  4. Defina o plano de análise antes: Defina suas hipóteses e planos de análise antes de iniciar o teste para evitar viéses de análise e p-hacking.
  5. Conhecimento: Entender sobre erros do Tipo M para promover uma interpretação mais cautelosa de descobertas significativas.

Resumindo

Os erros do tipo M são um aspecto crítico, mas muitas vezes esquecido, dos experimentos . Superestimar os tamanhos dos efeitos pode levar a decisões equivocadas, enfatizando a necessidade de um planejamento e análise experimental robustos. Ao compreender e abordar os erros do Tipo M, os podemos melhorar a confiabilidade e a validade dos resultados obtidos nos testes que executamos, levando a decisões mais bem informadas e a intervenções mais eficazes no produto.

Compreender os erros do Tipo M e suas implicações é essencial para qualquer pessoa envolvida na execução e interpretação de testes A/B. Ao aumentar o poder estatístico, conduzir estudos de replicação e adotar práticas de análise rigorosas, podemos mitigar o impacto dos erros do Tipo M e garantir insights mais precisos e acionáveis ​​a partir de nossos experimentos. Além de não nos arriscar a afirmar que iremos ter ganhos surreais que não irão se refletir na realidade, causando desgastes para todos os lados envolvidos.

Referências

KOHAVI, R.; DENG, A.; VERMEER, L. A/B Testing Intuition Busters: Common Misunderstandings in Online Controlled Experiments. (2022)

Kohavi, R., Tang, D., & Xu, Y. Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing. Cambridge University Press.

Button, K. S., Ioannidis, J. P. A., Mokrysz, C., Nosek, B. A., Flint, J., Robinson, E. S. J., & Munafò, M. R. (2013).

Gelman, A., & Carlin, J. (2014). “Beyond power calculations: Assessing Type S (Sign) and Type M (Magnitude) errors.” Perspectives on Psychological Science, 9(6), p641–651.

Kohavi, R., Deng, A., Frasca, B., Walker, T., & Xu, Y. (2013). “Online Controlled Experiments at Large Scale.” Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 1168–1176.

--

--

Matheus Buniotto

Compartilho um pouco dos meus estudos e projetos com dados! Atualmente trabalho como analista de Dados e BI com foco em marketing e produto.