Booking.com ejecuta más de 1,000 pruebas rigurosas simultáneamente y, según mis estimaciones, más de 25,000 pruebas al año. En un momento dado, billones (millones de miles de millones) de permutaciones de página de destino están en vivo, lo que significa que es poco probable que dos clientes en la misma ubicación vean la misma versión. Toda esta experimentación ha ayudado a transformar la empresa de una pequeña empresa holandesa a la plataforma de alojamiento en línea más grande del mundo en menos de dos décadas.

Booking.com no es la única empresa que ha descubierto el poder de los experimentos online. Gigantes digitales como Amazon, Facebook, Google y Microsoft han descubierto que son un cambio de juego cuando se trata de marketing e innovación. Han ayudado a la unidad Bing de Microsoft, por ejemplo, a realizar decenas de mejoras mensuales, que en conjunto han aumentado los ingresos por búsqueda entre un 10% y un 25% anual. Las empresas sin raíces digitales, incluidas FedEx, State Farm y H&M, también han adoptado las pruebas en línea, utilizándolas para identificar los mejores puntos de contacto digitales y opciones de diseño. , descuentos y recomendaciones de productos.

«En un mundo cada vez más digital, si no haces experimentación a gran escala, a largo plazo, y en muchas industrias a corto plazo, estás muerto», me dijo Mark Okerstrom, director ejecutivo de Expedia Group. “En un momento dado, estamos ejecutando cientos, si no miles, de experimentos simultáneos que involucran a millones de visitantes. Debido a esto, no tenemos que adivinar qué quieren los clientes; tenemos la capacidad de ejecutar las ‘encuestas de clientes’ más masivas que existen, una y otra vez, para que nos digan lo que quieren «.

Pero al estudiar más de una docena de organizaciones y analizar datos anónimos sobre experimentos de más de 1000, he visto que Booking.com, Expedia y los de su tipo son la excepción. En lugar de ejecutar cientos o miles de pruebas en línea al año, muchas empresas no realizan más de unas pocas docenas que tienen poco impacto.

Si las pruebas son tan valiosas, ¿por qué las empresas no las hacen más? Después de examinar esta cuestión durante varios años, puedo decirles que la razón central es la cultura. A medida que las empresas intentan aumentar su capacidad de experimentación en línea, a menudo encuentran que los obstáculos no son herramientas y tecnología, sino comportamientos, creencias y valores compartidos. Por cada experimento que tiene éxito, casi 10 no lo hacen, y a los ojos de muchas organizaciones que enfatizan la eficiencia, la previsibilidad y el «triunfo», esos fracasos son un desperdicio.

Para innovar con éxito, las empresas deben hacer de la experimentación una parte integral de la vida cotidiana, incluso cuando los presupuestos son ajustados. Eso significa crear un entorno en el que se nutra la curiosidad de los empleados, los datos triunfen sobre la opinión, cualquiera (no solo las personas en I + D) puede realizar o encargar una prueba, todos los experimentos se realizan de forma ética y los gerentes adoptan un nuevo modelo de liderazgo. En este artículo, analizaré varias empresas que han logrado hacer esas cosas bien, centrándome en particular en Booking.com, que tiene una de las culturas de experimentación más sólidas que he encontrado.

Cultivar la curiosidad

Todos en la organización, desde el liderazgo hacia abajo, deben valorar las sorpresas, a pesar de la dificultad de asignarles una cifra en dólares y la imposibilidad de predecir cuándo y con qué frecuencia ocurrirán. Cuando las empresas adopten esta mentalidad, prevalecerá la curiosidad y la gente verá los fracasos no como errores costosos, sino como oportunidades de aprendizaje.

En las culturas experimentales, los empleados no se intimidan ante la posibilidad de fracasar. “Las personas que prosperan aquí son curiosas, de mente abierta, ansiosas por aprender y resolver las cosas, y están de acuerdo con que se demuestre que están equivocadas”, dijo Vermeer, quien ahora supervisa todas las pruebas en Booking.com. Los reclutadores de la empresa buscan a esas personas y, para asegurarse de que estén capacitados para seguir sus instintos, la empresa somete a los nuevos empleados a un riguroso proceso de incorporación, que incluye capacitación en experimentación, y luego les da acceso a todas las herramientas de prueba.

Que los datos triunfen sobre las opiniones

Los resultados empíricos de los experimentos en línea deben prevalecer cuando chocan con opiniones fuertes, sin importar de quién sean las opiniones. Esta es la actitud de Booking.com, pero es poco común entre la mayoría de las empresas por una razón comprensible: la naturaleza humana. Tendemos a aceptar felizmente resultados «buenos» que confirman nuestros prejuicios, pero desafiamos e investigamos a fondo los resultados «malos» que van en contra de nuestras suposiciones.

El remedio es implementar los cambios que los experimentos validan con pocas excepciones. Como me dijo un director de Booking.com: “Si la prueba te dice que el encabezado del sitio web debería ser rosa, entonces debería ser rosa. Siempre sigues la prueba «.

Conseguir que los ejecutivos de las categorías superiores cumplan con esta regla no es fácil. (Como bromeó una vez el escritor estadounidense Upton Sinclair: «¡Es difícil lograr que un hombre entienda algo, cuando su salario depende de que no lo entienda!»). HiPPO: la opinión de la persona mejor pagada.

Tenga en cuenta que no estoy diciendo que todas las decisiones administrativas puedan o deban basarse en experimentos en línea. Algunas cosas son muy difíciles, si no imposibles, de realizar pruebas, por ejemplo, llamadas estratégicas sobre la adquisición de una empresa.

Pero si todo lo que se puede probar en línea se prueba, los experimentos pueden ser fundamentales para las decisiones de gestión y alimentar debates saludables. A veces, esas discusiones pueden resultar en una elección consciente de invalidar los datos. Eso es lo que sucedió con una decisión relacionada con una serie de comedia en Netflix, que ha creado una infraestructura sofisticada para la experimentación a gran escala.

Acorde a un artículo del Wall Street Journal publicado en 2018, los ejecutivos de la compañía se desgarraron cuando las pruebas mostraron que una promoción con una imagen de solo Lily Tomlin, una de las estrellas de Grace y Frankie, resultó en más clics por parte de los espectadores potenciales que las promociones con ambos. Tomlin y su coprotagonista, Jane Fonda. Al equipo de contenido le preocupaba que excluir a Fonda alienaría a la actriz y posiblemente violaría su contrato. Después de acalorados debates que enfrentaron evidencia empírica con «consideraciones estratégicas», Netflix eligió usar imágenes que incluían a ambas actrices, aunque los datos de los clientes no respaldaban la decisión. Sin embargo, la evidencia experimental hizo que las compensaciones fueran más transparentes.

Democratizar la experimentación

Como he señalado, cualquier empleado de Booking.com puede lanzar un experimento con millones de clientes sin el permiso de la dirección. Aproximadamente el 75% de sus 1.800 empleados de tecnología y productos utilizan activamente la plataforma de experimentación de la empresa. Las plantillas estándar les permiten configurar pruebas con un esfuerzo mínimo, y los procesos como el reclutamiento de usuarios, la aleatorización, el registro del comportamiento de los visitantes y los informes están automatizados. Un equipo de experimentación central y cinco equipos satélites solían brindar capacitación y apoyo a toda la organización, pero debido a que las necesidades de la empresa evolucionaron, esa estructura se cambió recientemente a cuatro equipos centrales que reportan a Vermeer y a los especialistas («embajadores») que se ubican en equipos de producto.

Para que las cosas funcionen, las personas o equipos completan un formulario electrónico, que es visible para todos e incluye el nombre del experimento, su propósito, los principales beneficiarios (clientes o proveedores), experimentos anteriores relacionados y el número de modificaciones que se realizarán. probado en pruebas A / B, A / B / C o A / B / n. Una vez que un experimento está en marcha, el equipo lo observa de cerca durante las primeras horas; si sus métricas primarias o secundarias se estancan rápidamente, el equipo puede detener la prueba. Después de ese período inicial, la plataforma continúa ejecutando automáticamente controles de calidad de los datos y envía mensajes de advertencia si algo es extraño. Para fomentar la apertura, Booking.com mantiene un repositorio central de búsqueda de experimentos pasados, con descripciones completas de éxitos, fracasos, iteraciones y decisiones finales. Y todos pueden ver la información en tiempo real generada por los experimentos en curso.

“Irónicamente, la centralización de nuestra infraestructura de experimentación es lo que hace posible nuestra descentralización organizacional”, me explicó Vermeer. “Todos usan las mismas herramientas. Esto fomenta la confianza en los datos de los demás y permite el debate y la responsabilidad. Si bien algunas empresas, como Microsoft, Facebook y Google, pueden ser más avanzadas técnicamente en áreas como el aprendizaje automático, nuestro uso de pruebas A / B simples nos hace más exitosos en involucrar a todas las personas; hemos democratizado las pruebas en toda la organización «.

La democratización, por supuesto, tiene sus desafíos. Uno es el riesgo de que los equipos o las personas rompan algo en el sitio web de alto tráfico de Booking.com, provocando que se bloquee. Otra es que cada equipo tiene que establecer su propia dirección y averiguar qué problemas de usuario quiere resolver. Eso requiere una amplia capacitación y discusiones continuas entre los miembros del equipo sobre cuáles son los problemas correctos. Se fomentan los debates y las personas se acercan a sus colegas si ven algo que les parezca cuestionable. Así como cualquiera puede lanzar un experimento, cualquiera puede detenerlo. Sin embargo, esto ocurre solo en las raras ocasiones en que un experimento ha salido catastróficamente mal, por ejemplo, si alguien está solo en la oficina por la noche y ve que un experimento está provocando que una métrica clave como la tasa de conversión del cliente caiga y le costará el empresa millones de dólares en ingresos si continúa.

Este sistema brinda a los equipos la autonomía que necesitan para probar nuevos enfoques que creen que son valiosos y permite a las personas de toda la empresa monitorear los experimentos y proporcionar retroalimentación en tiempo real. Realmente libera a todos para probar cualquier idea sobre cómo mejorar el negocio de Booking.com.

Experimentar éticamente

Al contemplar nuevos experimentos, las empresas deben pensar detenidamente si los usuarios considerarían que las pruebas no son éticas. Si bien la respuesta no siempre es clara, las organizaciones que no examinen esta pregunta corren el riesgo de provocar una reacción violenta. Tome el experimento de una semana que realizó Facebook en 2012 para saber si los estados emocionales eran contagiosos en su plataforma. Facebook reajustó su fuente de noticias, una lista de publicaciones, historias y actividades seleccionadas algorítmicamente, para ver si ver menos historias de noticias positivas llevó a las personas a reducir su número de publicaciones positivas. La red también evaluó si sucedió lo contrario cuando las personas estuvieron expuestas a menos noticias negativas.

Cuando investigadores de Facebook y la Universidad de Cornell publicaron los resultados en una revista académica, estalló la indignación pública. El equipo de ciencia de datos de Facebook había estado realizando experimentos con usuarios desprevenidos durante años sin controversia, pero la manipulación emocional tocó un nervio. Los críticos expresaron su preocupación sobre si el consentimiento de los participantes a la política general de uso de datos de Facebook era suficiente; consideraron que la empresa debería haber dejado más claro que los usuarios podían optar por no participar en las pruebas y que los datos se recopilaban para la investigación. Desde una perspectiva de aprendizaje, el experimento fue un éxito: descubrió que el contagio emocional existía en línea, aunque el efecto fue muy pequeño. Pero algunos usuarios sintieron que Facebook los había explotado en nombre de la ciencia.

La investigación sugiere que las empresas que prueban nuevas ideas primero se enfrentan a un mayor escrutinio de los clientes que los competidores que implementan nuevas prácticas sin realizar ningún experimento. En un análisis publicado de 16 estudios en dominios como el cuidado de la salud, el diseño de vehículos y la pobreza global, la bioética Michelle Meyer y sus colaboradores concluyeron que los participantes consideraban que las pruebas A / B eran más cuestionables moralmente que la implementación universal de una práctica no probada (A o B) en toda la población, incluso cuando ambos tratamientos fueron inobjetables.

Claramente, se necesita capacitación en ética y algún tipo de supervisión. El desafío es llevar a cabo este último de manera que no haga que las personas sean demasiado cautelosas ni las enreden en la burocracia. Por esas razones precisas, Booking.com ha evitado imponer reglas desde arriba sobre qué tipo de pruebas se pueden ejecutar. En cambio, alienta a los empleados a preguntarse si un experimento o una práctica propuesta ayudaría o perjudicaría a los clientes. «Prefiero alejarme de las juntas policiales o de revisión ética», me dijo David Vismans, director de producto de Booking.com. “Esa no es una solución escalable. Crearías un cuello de botella y poner a prueba a la policía no hace que las personas se sientan empoderadas «. En cambio, la empresa fomenta los debates en foros internos en línea que están abiertos a todos los empleados. Los debates pueden ser vigorosos y han abordado cuestiones como el uso de técnicas para persuadir a los clientes de que completen transacciones (por ejemplo, mensajes como “Por favor reserve ahora o perderá esta reserva” o “Solo quedan tres habitaciones”). “Preferiría tener una comunidad que se corrija a sí misma”, explicó Vismans.

Con ese fin, el proceso de incorporación de Booking.com también incluye capacitación en ética. LinkedIn, otra empresa con un gran programa de experimentación, adopta un enfoque ligeramente diferente. Ha creado pautas internas que establecen que la empresa no realizará experimentos «destinados a ofrecer una experiencia negativa a los miembros, que tengan el objetivo de alterar el estado de ánimo o las emociones de los miembros, o anular la configuración o las opciones de los miembros existentes».

Un modelo de liderazgo diferente

Al democratizar la experimentación y seguir los resultados de las pruebas allí donde conducen, las empresas pueden permitir a los empleados tomar buenas decisiones por sí mismos y acelerar la innovación y las mejoras. Pero si la mayoría de las decisiones se toman de esta manera, ¿qué les queda por hacer a los líderes senior, más allá de desarrollar la dirección estratégica de la empresa y abordar grandes decisiones como qué adquisiciones realizar? Hay al menos cuatro cosas:

Establezca un gran desafío que se puede dividir en hipótesis comprobables y métricas clave de rendimiento.
Los empleados necesitan ver cómo sus experimentos apoyan un objetivo estratégico general. Digamos que los líderes senior de Booking.com desafiaron a los empleados a diseñar la mejor experiencia en línea de la industria. Pueden esperar que una experiencia superior genere más tráfico de clientes, lo que atraerá a más proveedores a la plataforma de Booking.com, lo que ayudaría a expandir aún más la base de clientes y la actividad. Para descubrir formas de alcanzar ese objetivo, los empleados pueden idear hipótesis y métricas relacionadas, por ejemplo, que subrayar un texto importante aumentaría las tasas de conversión al facilitar la búsqueda de información crítica, y que una opción de cancelación de «un clic, sin costo» impulsaría al usuario tasas de retorno sin que disminuyan las reservas netas de hoteles.

Implementar sistemas, recursos y diseños organizativos que permitan la experimentación a gran escala.
Probar científicamente casi todas las ideas requiere infraestructura: instrumentación, canalizaciones de datos y científicos de datos. Varias herramientas y servicios de terceros facilitan la realización de experimentos, pero para ampliar las cosas, los líderes senior deben integrar estrechamente la capacidad de prueba en los procesos de la empresa. Hacerlo requiere encontrar el equilibrio adecuado entre centralización y descentralización.

En grupos centralizados, especialistas dedicados como desarrolladores, diseñadores de interfaces de usuario y analistas de datos pueden ejecutar experimentos para toda la empresa y centrarse en introducir métodos y herramientas de vanguardia. Pero si las pruebas se limitan a un pequeño grupo de especialistas, será difícil ampliar la experimentación y cambiar la cultura de una empresa. En pruebas descentralizadas, las empresas distribuyen equipos de especialistas en diferentes unidades de negocio. Si bien este enfoque expande la experimentación a más partes de la organización, puede obstaculizar el intercambio de conocimientos y conducir a objetivos conflictivos y una coordinación deficiente entre los especialistas. La descentralización puede ser necesaria para involucrar a la organización en general al principio, pero después de eso, las empresas deben dedicarse a mejorar sus capacidades de experimentación. Eso es lo que hizo Booking.com. Inicialmente utilizó equipos satélites para difundir la experimentación en toda la empresa, pero descubrió que estaban demasiado ocupados apoyando a los usuarios como para centrarse en desarrollar capacidades en toda la empresa. Para abordar ese problema y alinear mejor a los equipos, Booking.com cambió recientemente a un modelo de centro de excelencia que respalda las unidades comerciales, estandariza el enfoque de la empresa para la experimentación y se asegura de que se adopten y sigan las mejores prácticas.

Se un ejemplo a seguir.
Los líderes deben regirse por las mismas reglas que todos los demás y someter sus propias ideas a pruebas. «No puedes tener ego, pensando que siempre sabes lo que es mejor», me dijo Tans. “Si yo, como director ejecutivo, le digo a alguien: ‘Esto es lo que quiero que hagas porque creo que es bueno para nuestro negocio’, los empleados literalmente me mirarían y dirían: ‘Está bien, está bien, vamos a pruébelo y vea si tiene razón ‘”. Los jefes deben mostrar humildad intelectual y no tener miedo de admitir:“ No sé ”. Deberían prestar atención al consejo de Francis Bacon, el padre del método científico: “Si un hombre comienza con certezas, terminará en dudas; pero si se contenta con comenzar con dudas, terminará en certezas ”.

Reconozca que las palabras por sí solas no cambiarán el comportamiento.
En última instancia, ser un líder en una organización impulsada por experimentos significa dejar ir y empoderar a los empleados para que realicen sus propias pruebas, lo que no sucede simplemente diciéndoles a las personas que pueden hacerlo. Requiere un esfuerzo concertado como el de IBM.

Takeaways: Darse cuenta del poder transformador de la experimentación requiere un compromiso sostenido. Con el tiempo, los experimentos darán como resultado miles de cambios pequeños y no tan pequeños que, en conjunto, generarán enormes beneficios. Proporcionar las herramientas adecuadas, aunque esencial, es la parte fácil y no es suficiente para hacer de la experimentación una forma de vida.

Artículo original de HBR.