Test & Roll : Pourquoi Des Tests A/B Plus Petits Peuvent Rapporter Plus D'argent

[This article was first published on Florian Teschner, and kindly contributed to R-bloggers]. (Vous pouvez signaler un problème concernant le contenu de cette page ici)

Vous souhaitez partager votre contenu sur R-bloggers ? cliquez ici si vous avez un blog, ou ici si vous n’en avez pas.

Petits conseils pratiques sur les tests A/B :

Arrêtez les tests de dimensionnement uniquement pour la signification statistique – Dans les campagnes finies, votre objectif est le profit, pas une inférence parfaite.
Considérez les tests comme un compromis – Chaque exposition supplémentaire à un test permet d’acquérir de l’apprentissage, mais brûle également des revenus si cette exposition bénéficie d’un traitement plus faible.
Utilisez des tests plus petits lorsque les résultats sont bruyants – Cet article montre que la taille des tests visant à maximiser les profits augmente beaucoup plus lentement que les tailles classiques basées sur la puissance.
Augmenter la taille des tests avec une audience accessible – Si votre population est limitée, la taille du test doit refléter directement cette contrainte.
Autoriser les répartitions inégales lorsque les priorités diffèrent – Si un traitement est probablement meilleur a priori (par exemple, traitement ou maintien), des cellules de test asymétriques peuvent être optimales.

Shiny App pour tester les implications :

Testez et lancez l’application Shiny

Version longue

je viens de lire Test & Roll : tests A/B pour maximiser les profits par Elea McDonnell Feit et Ron Berman (2019), et il remet en question l’une des habitudes par défaut de l’expérimentation marketing : planifier les tests comme si l’objectif principal était la signification statistique.

Leur point est simple : dans la plupart des expériences marketing réelles, vous disposez d’une population limitée (liste de diffusion, budget de campagne, fenêtre de trafic limitée). Dans ce contexte, le bon objectif est bénéfice total attendu pendant le test et le déploiementpas les valeurs p.

L’idée centrale

Une configuration A/B classique comporte deux étapes :

Étape de test: exposer n1 utilisateurs au traitement A et n2 utilisateurs au traitement B.
Étape de roulage: déployer le gagnant vers le reste N - n1 - n2 utilisateurs.

Des tests plus importants améliorent la certitude, mais ils créent également un coût d’opportunité : plus d’utilisateurs participant au test signifie que davantage d’utilisateurs voient potentiellement le traitement le plus faible avant le déploiement.

L’article formalise cela comme un problème de décision et en déduit tailles d’échantillon visant à maximiser les profits. Sous Priors normaux et Résultats normaux, ils obtiennent des solutions de forme fermée.

Pourquoi c’est important dans la pratique

Si vous utilisez le dimensionnement classique des tests d’hypothèses, il est recommandé n peut être énorme, surtout lorsque la taille des effets est petite et que la réponse est bruyante (ce qui est exactement ce que nous voyons dans la publicité).

Leur cadre produit des tests de taille beaucoup plus petite, car il optimise les résultats commerciaux, et non le contrôle des erreurs de type I/II.

Deux points à retenir :

Les tailles de test optimales augmentent de manière sublinéaire avec le bruit de réponsealors que les règles classiques de taille d’échantillon croissent beaucoup plus rapidement.
La taille optimale des tests est basée sur la racine carrée de la taille de la population Nce qui les rend utilisables pour des marchés plus petits et des campagnes limitées.

Comparaison avec les bandits

Les auteurs se comparent à l’échantillonnage de Thompson (bandit multi-armé). Les bandits gagnent généralement grâce à l’optimisation pure, mais l’écart est souvent modeste dans leurs exemples.

C’est utile sur le plan opérationnel : un processus en deux étapes « tester puis lancer » est bien plus facile à mettre en œuvre, à expliquer et à gouverner qu’un bandit qui s’adapte en permanence, en particulier dans les organisations soumises à des contraintes d’approbation et de reporting.

Les applications sont la meilleure partie

Ils testent l’approche dans trois contextes :

Expériences de conception de sites Web
Décisions en matière de publicité display
Tests de résistance au catalogue

Dans tous les cas, les conceptions visant à maximiser les profits utilisent cellules de test nettement plus petites que les calculs de puissance classiques et produisent un profit attendu plus élevé.

Un résultat particulièrement pratique : les petits groupes d’exclusion (courants dans la pratique des catalogues et du CRM) peuvent être tout à fait rationnels lorsque les priorités sont asymétriques. En d’autres termes, les « répartitions inégales » ne sont pas toujours une mauvaise conception ; ils peuvent être la conception optimale.

Ce que j’ai changé dans ma propre pensée

Avant cela, je considérais le terme « sous-alimenté » principalement comme un signal d’alarme. Après cet article, je pense qu’une meilleure question est :

Sous-alimenté pour quel objectif ?

Si l’objectif est une inférence de qualité publication, la logique de puissance classique est correcte. Si l’objectif est le profit d’une campagne sur un horizon fini, un test plus petit peut s’avérer la meilleure décision commerciale.

Liste de contrôle de mise en œuvre pratique

Si vous effectuez des tests tactiques (e-mail, médias payants, pages de destination), cet article suggère un meilleur flux de travail :

Définir la population totale accessible N pour l’horizon de décision.
Définir des priorités pour les moyens de traitement issus d’expériences similaires passées.
Estimez la variance des réponses à partir des données historiques.
Calculer la maximisation des profits n1, n2.
Pré-valider la règle de décision de déploiement (bénéfice attendu postérieurement gagnant).
Signalez le regret attendu ainsi que la hausse attendue.

Ce dernier point est sous-estimé : les décideurs comprennent généralement mieux les « dollars attendus à risque » que les valeurs p.

Conclusion

Pour de nombreux tests marketing réels, « plus petit qu’un manuel » n’est pas une mauvaise science. C’est une meilleure conception de décision.

Si votre expérience existe pour piloter une action commerciale sur une audience limitée, Testez et roulez donne une manière rigoureuse de choisir des tailles d’échantillon qui maximisent le profit plutôt que la pureté statistique.

Article : Feit, EM et Berman, R. (2019). Test & Roll : tests A/B pour maximiser les profits. SSRN :

En rapport

PakarPBN

A Private Blog Network (PBN) is a collection of websites that are controlled by a single individual or organization and used primarily to build backlinks to a “money site” in order to influence its ranking in search engines such as Google. The core idea behind a PBN is based on the importance of backlinks in Google’s ranking algorithm. Since Google views backlinks as signals of authority and trust, some website owners attempt to artificially create these signals through a controlled network of sites.

In a typical PBN setup, the owner acquires expired or aged domains that already have existing authority, backlinks, and history. These domains are rebuilt with new content and hosted separately, often using different IP addresses, hosting providers, themes, and ownership details to make them appear unrelated. Within the content published on these sites, links are strategically placed that point to the main website the owner wants to rank higher. By doing this, the owner attempts to pass link equity (also known as “link juice”) from the PBN sites to the target website.

The purpose of a PBN is to give the impression that the target website is naturally earning links from multiple independent sources. If done effectively, this can temporarily improve keyword rankings, increase organic visibility, and drive more traffic from search results.

Jasa Backlink

Download Anime Batch

Promo Ganteng