Los Test A/B son un mito (para la mayoría)

14 Marzo, 2013

Análisis, Publi/Marketing

Todos los días vas al trabajo andando por la misma calle, ves los mismos árboles, los mismos edificios, los mismos niños que llegan tarde al colegio mientras que su madre les riñe para que no se distraigan. Es una zona residencial y los coches aparcados mas o menos son los mismos; ahí está la Chrysler Voyager que tanto te gusta, por el tamaño y por Voyager, que eres un friki de Star Trek y es lo más cercano que vas a estar a una nave de la federación.

Pero un día, se cruza contigo una rubia despampanante en un ceñido vestido rojo. Dentro del conjunto, de las casas, los coches, los árboles, la gente, es un cambio mínimo, insignificante, pero ese día te paras, te das la vuelta, le echas una foto y la subes al Twitter junto con unas palabras no aptas para algunos lectores, con tan mala suerte, que esa rubia es la responsable de recursos humanos que esa misma tarde va a revisar tu perfil en las redes sociales antes de hacerte la entrevista para una nueva StartUp en la que querías trabajar.

Alguien que no sepa de estadística podría afirmar que “Hay que evitar cruzarse con rubias antes de una entrevista de trabajo” confundiendo “casualidad” y “causalidad”. Pero un buen estadista, sabe que no hay suficientes datos para hacer una afirmación de confianza, y un buen analista  podría inferir en  “Publicar fotos de rubias con palabras malsonantes en Twitter puede afectar a una futura entrevista de trabajo”. Pero esto último no es estadística, no es un Test A/B entre peatones que se cruzan con rubias y otros que no, esto último es utilizar la cabeza.

Los Test A/B no valen para la mayoría de las webs

Hay varias formulas matemáticas para calcular el nivel de confianza de un Test A/B, el más usado es el Test de Chi. Si profundizamos un poco en la teoría veremos que es necesario una muestra de datos tan grande (y en las mismas condiciones), que cualquier web con 100.000 visitas/mes, necesitaría meses para obtener unos resultados fiables de un Test A/B. Os dejo una calculadora para que hagáis la prueba en casa.

Calculadora duración Test A/B

Para entenderlo mejor; para que un Test A/B sea válido, tendríamos que tener unos 100 pedidos en las mismas condiciones, entendiendo por condiciones variables como: Día de la semana, hora, clima, situación económica/política, etc…. Por que esas variables forman parte de la ecuación.

Un Test A/B sólo tiene sentido para una gran empresa, con miles de visitas a la hora, en la que podemos suponer que las condiciones más o menos no cambian.

Cuando vale un Test A/B

Al igual que en mi ejemplo de la Rubia, un analista puede obtener un conclusión lógica. Los Test A/B son útiles para sacar conclusiones lógicas o cuando la diferencia de los resultados es realmente abismal.

Hace dos años lanzamos una web en Portugal y durante la primera semana no entró ningún pedido, todos los clientes se quedaban en el carrito de compra, pero ninguno llegaba a cerrar el pedido.

Hicimos una prueba, algo totalmente ridículo, pusimos el botón de Check Out 10 veces más grande y en rojo, a ver que pasaba. Los pedidos pasaron de 0 a la semana a 20 a la semana. Era un incremento de infinito. La razón era relativamente sencilla, el botón anterior era demasiado pequeño y en un color que pasaba desapercibido y el nuevo botón era una “Rubia de Rojo”, y los 20 pedidos confirmaban que en algo había influído.

En otra de las pruebas, cambiamos la cabecera de una sección y el % de rebote se redujo en un 20% durante la primera semana, pero a la segunda aumentó un 15% y a la siguiente bajó un 8%. Concluimos en que la cabecera no era la responsable del incremento/decremento del rebote y abandonamos la prueba.

Para pequeñas empresas, los Test A/B sólo nos valen para sacar análisis, sacar conclusiones lógicas, hipótesis que son difíciles de demostrar.

Los Test A/B en las grandes empresas

Para webs con mucho tráfico, los Test A/B tienen un impacto enorme, os recomiendo el artículo The $300 million Button para que veáis de que hablo.

Pero no obstante, diseñar un Test A/B no es tan sencillo como parece. Por ejemplo, si lanzáramos un Test A/B en la web de El Corte Inglés, tendríamos que probar sólo en uno de los departamentos, un día en el que el catálogo no se moviera y no se lanzaran campañas de marketing en la web, ni en los centros físicos, ni en ningún afiliado. Tendríamos que aislar las condiciones del experimento, lo cual no es nada sencillo.

En resumen

Para nosotros los mortales, los Test A/B no tienen mucho sentido fuera de simple lógica y observación. Os recomiendo entrenar nuestras capacidades de análisis con la página Which Test Won.

19 Responses to “Los Test A/B son un mito (para la mayoría)”

  1. Jesus Says:

    Aquí el problema es si se tienen los conocimientos sobre estadística necesarios o si se sabe mucho de analytics.

  2. Echaleku Says:

    Vamos a ver. Estoy de acuerdo con que, a más datos más fiabilidad. Pero en una web con pocos datos, si no haces un test A/B, tomarás decisiones en base a algo con mucho más riesgo, la intuición, algo que además no permite que se midan objetivamente los resultados.
    ¿No crees?
    Yo pienso que está bien hacerlos, intentando que el volumen de datos sea lo más grande posible, pero tampoco hay que tomar los resultados como verdades absolutas si no como información complementaria a la intuición y a la experiencia.

    • JuanMacias Says:

      Todo depende del % de mejora que se espera y del punto de partida. Si la diferencia entre los dos Test es demasiado grande, si vale el Test A/B, es el ejemplo que he puesto.

      Si por el contrario, el % de cambios es mínimo, el test será inconcluyente, a no ser que dejemos el test durante mucho tiempo

  3. Diego Martínez Says:

    Estoy de acuerdo con Javier.
    ¿Qué es mejor un test basado en datos (aunque no alcancen un intervalo de confianza del 95%) o una decisión completamente subjetiva?

    Prefiero basarla en datos aunque éstos no sean los completos que uno querría.

    • JuanMacias Says:

      ¿Y que nivel de confianza crees que es el bueno? un 50%? te sorprenderá también ver que necesitarás semanas de pruebas para tener ese nivel de confianza.

  4. Ander Says:

    Sin tomar en cuenta las patas de captación…Esta es exactamente la visión inexperta de qué montar, cómo montar y en qué momento lanzar un test… la cultura data driven obliga a tomar decisiones basadas en datos(objetividad, que hablamos de un negocio), o por lo menos fundamentar o validar las “corazonadas”…

  5. Natzir Says:

    Cito: “para que un Test A/B sea válido, tendríamos que tener unos 100 pedidos en las mismas condiciones”.
    Partes de la base de que las webs tienen un único objetivo, que se realice un pedido. Independientemente de esto, es cierto que hacen falta datos para tomar conclusiones, pero con webs con pocas visitas se puede mejorar la conversión de un checkout sin necesidad de tener 100 pedidos. Puede que no tengas 100 pedidos (es decir, 100 personas que lleguen a la página de gracias durante el test), pero si puedes tener 100 personas que lleguen al paso anterior, y si no las tienes es más probable todavía que tengas a 100 personas en el paso anterior del anterior.
    Con esto quiero decir que una conversión también puede ser el pasar de un paso a otro dentro de un embudo. Y esta es una estrategia que se sigue en webs transaccionales con poco tráfico con la que puedes tener significancia (si haces las cosas bien), puedes sacar buenas conclusiones y acabas mejorando el paso final. Si consigues que más personas vayan de un paso a otro más personas acabarán comprando.
    Ni mucho menos hacen falta 100.000 visitas/mes para que un test tenga sentido.
    El testing es difícil, es cierto, y en la web hay muchísimas variables que no puedes controlar. Por eso se recomienda que duren varios días y dependiendo del algoritmo que use la herramienta de testing (muti-armed bandit, full-factorial, full-fractorial…) hay que tener en cuenta unas cosas u otras. Pero que el testing solo es una pequeña parte del CRO, y si no sabes CRO el testing no te va a salir (quizás de casualidad) y esto no quiere decir que sea una mierda, es precisamente lo que lo hace grande.

    • JuanMacias Says:

      No estoy de acuerdo. Lo siento.
      Tener 100 personas que llega al embudo sólo tendría sentido con el mismo carrito y la misma hora del día. No tiene nada que ver la intención de compra de una cesta de 1.000€ a otra de 100€.
      No….

  6. Echaleku Says:

    Juan, ¿y qué porcentaje de fiabilidad tienen los cambios basados en la intuición? No se, entiendo tu reflexión pero teniendo en cuenta que la mera intuición es aún menos fiable prefiero seguir haciendo tests 🙂

    • JuanMacias Says:

      Es mas peligroso un mal consejo que la ignorancia, y más peligroso aún ignorar un buen consejo.

      Es decir, un Test A/B mal hecho puede hacer mucho daño y entre mis lectores hay uno que perdió el 30% de tráfico…

  7. @analisisweb Says:

    La muestra no tiene qué ser grande, sólo representativa… Es muy diferente. A partir de ahí ya sé puede inferir, es una cuestión de teoría de probabilidad,…

  8. David Viñuales Says:

    No creo que sea para tanto. Los test ab tampoco son una mierda, pero tampoco van a misa.

    Hace algun tiempo, sacando la release de un nuevo diseño, precisamente un día de mucho tráfico por un estreno importante, la web cayó. Después de solucionar el problema unas horas más tarde, todo volvió a la normalidad, y las métricas reflejaron el mejor ratio de conversión que había tenido la web (logico), en lugar del fracaso que posteriormente fue.

    Al final todas estas herramientas y datos sirven para apoyar las decisiones a tomar, no son la decisión en sí, y de la misma forma que a veces los datos son erroneos por un contexto no adecuado, las interpretaciones también lo pueden ser.

    Lo importante siempre es saber rectificar a tiempo 🙂

  9. Adam Barnes Says:

    Es interesante la idea, pero ¿no es esto un punto de vista extremamente reduccionista y binario, conformando con una visión de las cosas en blanco y negro y nada más? Decir que un lector perdió un 30% de su tráfico a causa de un AB test quizá dice más de la capacidad de esta persona de interpretar datos y entender contexto que no el AB test en sí. René Dechamps escribió un blog interesante sobre el futuro de la analítica web hace medio año (http://rene.mindyourgroup.com/2012/09/24/el-homo-datus-el-futuro-de-la-analitica-y-el-business-intelligence/) y uno de los temas que destacó era la capacidad del analista web de interpretar datos incompletos – más importa una tendencia y una capacidad de leer entre las líneas que no tener datos 100% limpios y perfectos. Si uno sube un cambio a producción que le hace perder el 30% del tráfico, ¿lo normal sería no hacer un roll-back rápido y aprender de lo ocurrido? O igual pasar más tiempo analizando y buscando explicaciones, que no ciegamente conformarse con perder el 30% de su tráfico. ¿El/La analista web que aporta valor a su empresa no está más preocupad@ con entender el contexto, los datos, el modelo de negocio, tendencias y nuevas oportunidades para hacer mejoras y no en si un test está fiable hasta la enésima potencia? Que sea 2013 y aún se está preguntando si un AB test vale la pena por ser fiable o no, ¿no estamos en peligro de perder el tren aquí? En un blog sobre e-commerce de Chris Dixon, (http://cdixon.org/2012/08/15/e-commerce-startups/) Jasob Goldberg (CEO de FAB) hizo un comentario BTL hablando del crecimiento de su empresa y cómo lo han escalado en los últimos 18 meses. Personalmente, perdiéndose en cuestiones tan binarias como si vale un test o no en función del tráfico que recibe, no creo que uno llegue a escalar su negocio así, sino proactivamente buscando mejoras de forma continua, y más bien llevándoles al mercado. Escribir que AB tests son una mierda va bien para el tráfico de un blog (evidentemente si en mi primera visita estoy escribiendo un comentario), pero ¿qué más? ¿La lección aquí es no hagas tests?

    • JuanMacias Says:

      Adam, la persona que perdió el 30% de ventas con el test A/B lo hizo a través de una consultora especializada (de las más
      importantes de España) que le cobró 10.000€

      No estoy diciendo que no hagan Test, claro que hay que hacerlos, pero para una Pymes rara vez, tendrá las condiciones adecuadas para hacerlo.

  10. kproductivity Says:

    Haced la prueba a la inversa: con los datos de que dispongais en una web con poco trafico calculad la confianza.

  11. Fer Says:

    Lo siento, pero no estoy para nada de acuerdo con tu artículo (que no quite que te respete mucho como profesional :-)).

    En primer lugar, ¿que A/B test vas a llevar a cabo en una web pequeña?, por supuesto es mucho mas difícil tener un test valido probando a mejorar algunos tipos de micro conversión, como el color de un botón, que un proceso completo.

    Te pongo un ejemplo, y que conste que trabajo en esto. ¿De verdad crees que no es útil un AB test cambiando todo el check out? porque yo he hecho varios y he conseguido mejorar funneles de un 25% a un 40%….y eso es una mejora importante, aunque sea para pymes.

    Bueno, no me quiero liar con mas ejemplos, pero lo que vengo a decir es que si tienes poco tráfico, habrá que hacer test mas radicales para notar mejoras y cambios en tus ingresos….pero se pueden hacer y son muy útiles.

    Un abrazo

    • JuanMacias Says:

      No estoy de acuerdo. No me creo que en una web con poco tráfico hagas un test A/B con dos checkout diferentes.. Sobre todo el coste que tiene montar eso en cualquier plataforma.

      Los que si puedes hacer es cambiarlo a algo más lógico siguiendo buenas prácticas y comprobar una mejora. Pero un Test A/B no tiene mucho sentido.

      Cuando el cambio radical es muy grande, normalmente es por antes estaba muy mal….

Trackbacks/Pingbacks

  1. El primer test A / B de una web debes hacerselo al propietario. | www.soypedro.esSoy Pedro - 29 Enero, 2014

    […] vez leas que es y cómo hacer un test A/B, os recomiendo leer el post de Juan Macías, donde se plantea cuando es necesario y cuando no hacer un […]

  2. Todo lo que Debes Saber para Iniciarte en el Método Lean Startup (I) - 11 Febrero, 2014

    […] La fiabilidad de estos test depende en gran medida de que se realicen bajos condiciones idénticas si no los resultados pueden ser poco fiables. Puedes leer más sobre esto en este artículo de Juan Macias sobre Los Test A/B son un mito (para la mayoría) […]

Uso de cookies

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies, pinche el enlace para mayor información.plugin cookies

ACEPTAR
Aviso de cookies