La publicité
fiabilité et validité des mesures du souvenir publicitaire
PANORAMA ET CLASSIFICATION
Pour évaluer l'efficacité publicitaire, la mesure de loin la plus employée est celle du souvenir, voire l'étalon. La couverture mémorielle des plans médias est une préoccupation majeure, puisque l'on cherche à optimiser le pourcentage de personnes de la cible qui se souviendront de la campagne.
 
La méthode de mesure repose sur le souvenir. Ces méthodes, nombreuses, reposent tout de même sur une définition assez proche : ''trace du stimulus publicitaire restitué par les interviewés ayant été en contact avec ce stimulus''.
 
On peut classer ces mesures selon l'aide apportée à la personne interrogée dans l'évocation des traces mémorielles. Par exemple, en présentant une partie du message, on stimule de nombreuses chaînes associatives reliant à l'autre partie du message. Il suffit que l'une d'entre elles ait eu le temps d'être formée lors des contacts pour qu'elle ait de fortes chances d'être réactivée par la présentation d'un des bouts de cette chaîne. Dans d'autres protocoles, l'aide est quasi-nulle, la question posée étant ''quelles sont les campagnes publicitaires dont vous vous souvenez ?''.
 
En fait, il existe 2 familles de mesure du souvenir :
  • l'une fondée sur la reconnaissance du stimulus
  • l'autre sur le rappel
On peut également les classer selon le continu du souvenir publicitaire. Le souvenir peut être le fait de ''déclarer avoir vu / entendu une publicité pour la marque'' ou bien la capacité à ''restituer au moins un élément précis du message'' (slogan, marque, la promesse, ...). Cette classification donne naissance à différentes appellations de scores.
 
 
 
METHODE D'EVALUATION DES MESURES
Comme tout instrument de mesure, les tests du souvenir publicitaire devraient satisfaire aux critères de fiabilité et de validité.
 
En matière de fiabilité (stabilité), on utilise le test-retest. Par exemple, dans un pur souci méthodologique, on peut procéder à 2 tests d'impact des annonces du même numéro du même magazine sur des échantillons appariés.
 
La notion de validité est multidimensionnelle. Entre la validité conceptuelle, la validité prédictive ou la validité ''faciale'', nous nous intéresserons, sur la première, à savoir ce que mesurent les méthodologies proposées aux annonceurs et aux agences. L'instrument de mesure mesure t-il ce qu'il est censé mesurer ?
 
En France, il existe très peu de données publiées sur la fiabilité et la validité des instruments en vente sur le marché des études publicitaires. Pour certains, la France est adepte de la ''face validity'' : dès qu'une technique a l'air de mesurer du souvenir, c'est qu'elle mesure le souvenir. Ainsi, chaque institut crée sa méthode ou sa variante, oubliant le souci fondamental de connaître la nature même de ce qui est mesuré. La majorité des études sur le sujet sont américaines. Compte tenu de l'ample profusion des mesures de souvenir, il n'existe pas de fiabilité et validité sur chacune d'elles. En revanche, certaines vérités sont connues depuis longtemps et il est possible de contraster les 2 familles que sont la reconnaissance (défendue par Starch) et l'impact (défendue par Gallup-Robinson). Ci-dessous le résultat de quelques études célèbres.
 
 
FIABILITE DES MESURES
Sont présentées quelques études dont les résultats sont d'importance.
 
En 1955, l'Advertising Research Foundation (équivalent US de l'IREP), compara les résultats des méthodes de souvenir des annonces presse fondées sur la reconnaissance ou sur le rappel. L'ARF demanda aux sociétés Starch et Gallup-Robinson de former une équipe indépendante d'interviewers aux moindres détails de leurs procédures respectives. Elle décida de faire post-tester les 95 annonces parues dans le numéro de Life du 16 mai 1955. 2 échantillons appariés de 6.000 personnes chacun furent interviewés selon les 2 méthodologies. Parallèlement à ces 2 échantillons énormes, les 2 instituts procédèrent, avec leurs propres enquêteurs, à leurs mesures habituelles, sur les 200 ou 600 personnes lectrces prises dans l'échantillon initial de 6.000 personnes.
  • pour Starch, et dans sa procédure de reconnaissance, on présenta la couverture de Life. Si la personne déclare avoir lu le magazine, on la laisse feuilleter quelques pages. Si elle maintient sa déclaration, elle est considérée comme lecteur. On lui présente alors les 95 annonces et on enregistre pour chacune si elle reconnaissait l'avoir lue (reconnaissance brute) et si elle avait lu ou regardé en particulier les aspects relatifs au produit ou à la marque (scores vu et associé)
  • pour Gallup-Robinson, après avoir montré la couverture aux 6.000 personnes, on demande à ceux qui déclarennt avoir lu le magazine de citer, ne serait-ce que de mémoire, certains éléments d'articles qui s'y trouvaient. Ayant identifié les lecteurs, on leur présenta la série des 95 marques en leur demandant s'ils se souvenaient avoir vu de la publicité pour ces marques. Dans l'affirmative, on leur demandait d'en restituer un élément (score d'impact prouvé)
La corrélation des scores d'impact et de reconnaissance obtenus par toutes les annonces selon les 2 échantillons fournit une mesure de la fabilité (test-retest). Les résultats furent les suivants :
 
 
On en déduisit que les scores de reconnaissance des annonces magazine sont plus fiables.
 
 
Aux Etats-Unis, l'agence BBDO a procédé à une évaluation des scores d'impact télé de type day after recall (DAR). L'agence fit systématiquement procéder à 2 DAR simultanés sur 106 spots télé, selon les procédures habituelles, c'est à dire sur des échantillons de téléspectateurs prouvés allant de 120 à 200 personnes. La corrélation des scores moyens obtenus par les 106 spots d'un échantillon à l'autre fut en moyenne de 45% : quand un film avait un score élevé dans un test, il tendait aussi à avoir un score élevé dans l'autre test. L'écart moyen était de 6.5%. Ainsi, selon le test, un un même film pouvait avoir un score de DAR allant de 16 à 22.5% ... ce qui ne conduit pas aux mêmes conclusions opérationnelles.
 
Le R^2 de 45% (corrélation de 67%) est cependant trompeur, sur la base de 2 fois 106 scores d'impact. Certains films sont naturellement portés à être en haut ou en bas en termes d'impact, selon s'il s'agit de produits à forte ou basse implication. L'analyse par catégorie de produits donne des corrélations plus basses, en moyenne de 29%.
 
 
De plus, certains corrélations négatives signifient que les films les plus élevés en score d'impact dans un test se retrouvaient les moins élevés dans une autre DAR. D'autres études corroborent ce fait.
 
 
L'agence Grey aboutit à la même conclusion sur le caractère peu fiable du DAR. Le tableau ci-dessous présente les scores d'impact obtenu par 10 spots sur lesquels Grey avait demandé 2 DAR simultanés mais indépendants.
 
 
Une nouvelle fois, selon le test, on aurait été amené à retenir ou rejeter le film.
 
 
Si l'on constate la moindre fiabilité des mesures fondées sur le rappel, l'analyse des sources de variance (sur 2 échantillons appariés) amène 3 puissantes sources (extérieures au film) :
  • le taux d'usage et le degré d'implication des personnes interrogées
  • l'environnement lors du passage du film : ce dernier passe t-il dans le programme favori des téléspectateurs ou dans un programme mons aimé ? Les résultats d'un test BDDO :
  • la qualité des interviewers. Selon une étude ARF :
 
 
 
VALIDITE DES MESURES
Si les mesures de reconnaissance sont plus fiables, en revanche leur validité est plus douteuse. Les mesures de reconnaissance mesurent bien autre chose que le souvenir issu d'un ou plusieurs contacts publicitaires.
 
Dans le cadre d'un post-test magazine, Yankelovith demanda à 1.053 personnes si elles se souvenaient avoir vu 8 annonces, 4 ayant été fabriquées de toutes pièces et ne pouvant être vues. Les personnes étaient averties que certaines annonces pouvaient ne pas avoir été présentes dans le magazine.
 
Dans une expérience de post-tests d'annonces magazine menée par Appel et Blum, les interviewés étaient interrogés sur la reconnaissance de 68 annonces, dont 16 étaient absentes. La mesure de reconnaissance eut lieu 2 fois, avant et après parution. Même avant la parution, les scores de reconnaissance moyens des annonces sont élevés.
 
 
Ces résultats conduisent à se demander si l'on peut prédire le score de reconnaissance d'une annonce après sa parution à partir de son score de reconnaissance mesuré avant parution ! Cette question suppose le schéma causal : le score de reconnaissance mesuré après parution découle certes pour partie d'une trace mémorielle issue de la parution et du contact, mais elle tient aussi à des facteurs non liés à la rencontre avec l'annonce, facteurs que l'on pourrait donc tout aussi bien mesurer avant la parution. Sur l'étude précédente, la corrélation des notes de reconnaissance avant / après est très élevée (72%, soit R^2 de 0.52) : plus de la moitié de la variance des scores de reconnaissance après parution est expliquée par les scores avant parution.
 
L'agence Kenyon-Eckardt se livra à une expérimentation pour évaluer la validité des scores de reconnaissance de certaines parties du message. 3 échantillons appariés, de 402 personnes chacun, furent créés. Le premier reçut un magazine comprenant le visuel, l'accroche, le dessin et la body copy. Le second reçut la même annonce, mais sans accroche, le troisième sans le dessin. Lors de l'interview, la même annonce complète fut présentée aux 3 échantillons. Les résultats furent les suivants :
 
 
35% de l'échantillon 2 reconnut l'accroche qui n'avait pu être vue. 26% de l'échantillon 3 reconnut le dessin, qui n'avait pu être vu.
 
En conclusion, le score de reconnaissance résulte en partie des traces mémorielles laissées par un contact, mais il est aussi largement l'expression d'une probabilité subjective d'avoir vu ce type de message.
 
La part importante des facteurs non mémoriels dans les scores de reconnaissance explique en partie l'évolution de ce score dans le temps. Alors que les mesures de rappel décroissent dans le temps, celles de reconnaissance restent stables pendant plusieurs semaines après la parution. Certaines mesures ont relevé une non-décroissance pendant 6 semaines. Morgensztern donne un exemple avec Esso et Libby's (reconnaissance d'annonce selon les semaines depuis la dernière parution.
 
 
CONCLUSIONS ET IMPLICATIONS
Les mesures de reconnaissance sont plus fiables mais moins valides que les mesures de rappel. Si l'on ajoute que les mesures de reconnaissance sont plus sensibles aux basses répétitions et aux médias fugaces ainsi qu'aux messages non verbaux, non rationnels, purement image, nous constatons que les instruments de mesure doivent être encore améliorés.
 
A titre d'exemple, puisque les bétas de mémorisation (Morgensztern) habituellement donnés ne sont pas mesurés par la même méthode, il convient de prendre garde sur ses valeurs (Kapferer, 1988).
 
 
Les techniques de reconnaissance donne des chiffres plus élevés que les techniques de rappel (combien se souviennent après 1 contact ?). L'homogénéité et la comparabilité entre les 2 techniques ne sont pas assurées. D'où l'importance et l'intérêt méthodologique du suivi des résultats au cours du temps (tracking) par une seule technique, plutôt que des relevés ponctuels n'assurant pas l'interprétabilité des résultats.
 
 
RETOUR SOMMAIRE