Recommandations de produits par IA qui convertissent réellement : aller au-delà du filtrage collaboratif
Un détaillant de mode a remplacé son moteur de recommandation basé sur le filtrage collaboratif par un modèle de deep learning intégrant le contexte de navigation, la similarité visuelle et le comportement en temps réel de la session. Les taux de clics sur les recommandations de produits sont passés de 2,8 % à 7,1 %, et le taux de conversion sur les produits recommandés a bondi de 1,2 % à 3,4 %. Le chiffre d'affaires attribué aux recommandations est passé de 11 % à 24 % des ventes en ligne totales.
Le filtrage collaboratif, l'approche qui alimente la plupart des moteurs de recommandation e-commerce avec la logique « les clients qui ont acheté X ont aussi acheté Y », est la norme depuis plus de deux décennies. Il fonctionne assez bien pour les catalogues volumineux avec des données d'achat denses (Amazon a construit son premier système de recommandation dessus). Mais pour la plupart des détaillants de taille intermédiaire, il présente des limitations significatives que les approches plus récentes permettent de résoudre.
Là où le filtrage collaboratif atteint ses limites
Le problème du démarrage à froid est la limitation la plus évidente. Le filtrage collaboratif a besoin d'un historique d'achats pour formuler des recommandations. Pour les nouveaux produits sans aucun achat, le système n'a rien sur quoi s'appuyer. Pour les nouveaux clients sans historique d'achat, il ne peut proposer que des listes génériques de meilleures ventes. En e-commerce, où de nouveaux produits sont lancés chaque semaine et où les nouveaux visiteurs représentent 40 à 60 % du trafic, cette lacune est considérable.
Le filtrage collaboratif souffre également du biais de popularité. Il tend à recommander les produits populaires car ceux-ci apparaissent dans davantage d'historiques d'achat. Cela crée une boucle de rétroaction : les produits populaires sont davantage recommandés, ce qui génère plus d'achats, ce qui les fait apparaître dans encore plus de recommandations. Les produits de longue traîne qui pourraient être parfaits pour un client spécifique remontent rarement à la surface car ils manquent de données de co-achat suffisantes.
Le problème de la parcimonie des données amplifie ces deux problèmes. Même sur un site avec des milliers de produits et des centaines de milliers de clients, la matrice d'achats est extrêmement creuse. La plupart des clients n'ont acheté qu'une infime fraction du catalogue, de sorte que le chevauchement entre deux clients quelconques est minimal. Cela rend difficile l'identification de schémas de co-achat fiables pour autre chose que les articles les plus populaires.
Enfin, le filtrage collaboratif ignore le contexte. Il ne prend pas en compte ce que le client fait en ce moment dans sa session. Un client qui parcourt des chaussures de course depuis 20 minutes devrait voir des recommandations différentes de celles du même client parcourant des chaussures habillées, même si leur historique d'achat est identique. Le filtrage collaboratif ne voit que l'historique d'achat statique, pas le comportement dynamique de la session.
L'approche moderne : les modèles hybrides de deep learning
Les systèmes de recommandation de pointe actuels combinent plusieurs types de signaux à travers une architecture de deep learning. Les entrées incluent généralement les séquences d'interactions (pas seulement les achats, mais aussi les consultations, les ajouts au panier, les requêtes de recherche et le temps passé sur les pages produits), les embeddings de produits qui capturent les attributs des articles (catégorie, marque, prix, caractéristiques visuelles extraites des images produits, caractéristiques textuelles des descriptions), les embeddings utilisateurs qui capturent les attributs des clients et leurs schémas comportementaux, ainsi que les signaux contextuels comme l'heure de la journée, le type d'appareil, la source de trafic et l'activité de la session en cours.
Le modèle apprend à prédire la probabilité qu'un client donné interagisse avec un produit donné, en tenant compte de toutes ces entrées. Lors de l'inférence (quand il génère des recommandations pour une session en direct), le modèle évalue tous les produits candidats et fait remonter les N premiers par probabilité d'engagement prédite.
La similarité visuelle est l'un des ajouts les plus impactants pour les catégories mode, décoration intérieure et lifestyle. Un réseau de neurones convolutif extrait les caractéristiques visuelles des images produits, et ces caractéristiques sont utilisées pour identifier des produits qui se ressemblent en termes de style, de couleur ou d'esthétique. Lorsqu'un client parcourt une table basse en noyer de style mid-century modern, le modèle de similarité visuelle peut recommander d'autres meubles mid-century modern même si les données d'achat ne les relient pas (car peu de clients achètent plusieurs tables basses).
Personnalisation en temps réel de la session
Le gain de performance le plus important provient de l'intégration du comportement en temps réel de la session. Un modèle séquentiel (basé sur un transformer ou un réseau de neurones récurrent) traite la session en cours du client comme un flux d'événements : pages consultées, requêtes de recherche, navigation par catégorie, sélection de filtres et temps passé sur chaque produit. Cette séquence de session est encodée en un embedding de session qui capture l'intention actuelle du client.
L'embedding de session se met à jour à chaque action du client. Après avoir consulté trois robes bleues dans la gamme de 50 à 80 $, le modèle de session apprend que le client s'intéresse aux robes bleues dans cette gamme de prix, et les recommandations s'ajustent en conséquence. Cela se produit au sein de la session en cours, sans attendre les données d'achat que le filtrage collaboratif nécessiterait.
Un détaillant de produits de beauté ayant implémenté des recommandations basées sur la session a constaté que la pertinence des recommandations (mesurée par le taux de clics) augmentait progressivement au cours d'une session. Après 1 page consultée, les recommandations performaient de manière similaire à l'ancien système de filtrage collaboratif. Après 5 pages consultées, les taux de clics étaient 2,1 fois plus élevés. Après 10 pages consultées, ils étaient 3,4 fois plus élevés. Plus le modèle apprenait de la session en cours, meilleures devenaient ses recommandations.
Gérer le démarrage à froid
Pour les nouveaux produits, le modèle hybride utilise des caractéristiques basées sur le contenu (attributs du produit, images, descriptions) pour générer des recommandations initiales sans aucune donnée d'achat. Une nouvelle robe peut être recommandée aux clients ayant montré de l'intérêt pour des robes similaires par style, couleur, prix et marque, même si personne ne l'a encore achetée. À mesure que les données d'achat s'accumulent, le modèle combine les signaux collaboratifs avec les signaux de contenu, déplaçant progressivement la pondération à mesure que les données mûrissent.
Pour les nouveaux visiteurs sans historique, le modèle de session en temps réel entre en action après seulement quelques interactions. Même sans savoir qui est le client, le modèle adapte les recommandations en fonction de ce qu'il fait en ce moment. La première page produit visitée fournit un signal faible. La deuxième et la troisième fournissent des signaux beaucoup plus forts. Au moment où le visiteur a parcouru cinq ou six produits, les recommandations sont significativement personnalisées même pour un visiteur complètement anonyme.
Mesurer la qualité des recommandations
Le taux de clics sur les recommandations est la métrique la plus couramment suivie, mais elle peut être trompeuse. Une recommandation qui génère des clics mais pas de conversions dirige le trafic vers des pages qui ne convertissent pas, ce qui est un gaspillage d'espace précieux. Les métriques qui comptent sont le revenu par impression de recommandation (revenu total des produits recommandés divisé par le nombre total d'impressions de recommandations affichées), le taux de conversion sur les produits recommandés par rapport au taux de conversion global du site, la diversité des produits recommandés (montrez-vous les mêmes meilleures ventes à tout le monde, ou personnalisez-vous réellement ?) et la couverture du catalogue (quel pourcentage de votre catalogue apparaît dans les recommandations sur une période de 30 jours).
Le test A/B des algorithmes de recommandation est essentiel car les métriques hors ligne (précision, rappel, nDCG) ne corrèlent pas toujours avec les résultats commerciaux. Un modèle légèrement moins précis dans la prédiction des clics mais qui affiche des produits plus diversifiés pourrait générer davantage de revenus incrémentaux car il aide les clients à découvrir des produits qu'ils n'auraient pas trouvés autrement.
Pour les détaillants e-commerce qui utilisent encore un filtrage collaboratif basique ou des recommandations basées sur des règles, l'écart de performance par rapport aux approches modernes de deep learning se creuse. L'infrastructure pour déployer ces modèles a considérablement mûri au cours des deux dernières années, avec des plateformes comme Algolia Recommend, Amazon Personalize et Dynamic Yield offrant des services de recommandation gérés qui prennent en charge la complexité de l'entraînement et du déploiement des modèles. L'investissement se mesure en mois de mise en place, pas en années, et l'impact sur le chiffre d'affaires est mesurable dès le premier trimestre de déploiement.