La publicité
fiabilité et validité des mesures du
souvenir publicitaire
PANORAMA ET
CLASSIFICATION
Pour évaluer l'efficacité publicitaire, la mesure de loin la
plus employée est celle du souvenir, voire l'étalon. La couverture mémorielle
des plans médias est une préoccupation majeure, puisque l'on cherche à optimiser
le pourcentage de personnes de la cible qui se souviendront de la
campagne.
La méthode de mesure repose sur le souvenir. Ces méthodes,
nombreuses, reposent tout de même sur une définition assez proche : ''trace du
stimulus publicitaire restitué par les interviewés ayant été en contact avec ce
stimulus''.
On peut classer ces mesures selon l'aide apportée à la
personne interrogée dans l'évocation des traces mémorielles. Par exemple, en
présentant une partie du message, on stimule de nombreuses chaînes associatives
reliant à l'autre partie du message. Il suffit que l'une d'entre elles ait eu le
temps d'être formée lors des contacts pour qu'elle ait de fortes chances d'être
réactivée par la présentation d'un des bouts de cette chaîne. Dans d'autres
protocoles, l'aide est quasi-nulle, la question posée étant ''quelles sont les
campagnes publicitaires dont vous vous souvenez ?''.
En fait, il existe 2 familles de mesure du souvenir :
On peut également les classer selon le continu du souvenir
publicitaire. Le souvenir peut être le fait de ''déclarer avoir vu / entendu une
publicité pour la marque'' ou bien la capacité à ''restituer au moins un élément
précis du message'' (slogan, marque, la promesse, ...). Cette classification
donne naissance à différentes appellations de scores.
METHODE D'EVALUATION DES
MESURES
Comme tout instrument de mesure, les tests du souvenir
publicitaire devraient satisfaire aux critères de fiabilité et de
validité.
En matière de fiabilité (stabilité), on utilise le
test-retest. Par exemple, dans un pur souci méthodologique, on peut procéder à 2
tests d'impact des annonces du même numéro du même magazine sur des échantillons
appariés.
La notion de validité est multidimensionnelle. Entre la
validité conceptuelle, la validité prédictive ou la validité ''faciale'', nous
nous intéresserons, sur la première, à savoir ce que mesurent les méthodologies
proposées aux annonceurs et aux agences. L'instrument de mesure mesure t-il ce
qu'il est censé mesurer ?
En France, il existe très peu de données publiées sur la
fiabilité et la validité des instruments en vente sur le marché des études
publicitaires. Pour certains, la France est adepte de la ''face validity'' : dès
qu'une technique a l'air de mesurer du souvenir, c'est qu'elle mesure le
souvenir. Ainsi, chaque institut crée sa méthode ou sa variante, oubliant le
souci fondamental de connaître la nature même de ce qui est mesuré. La majorité
des études sur le sujet sont américaines. Compte tenu de l'ample profusion des
mesures de souvenir, il n'existe pas de fiabilité et validité sur chacune
d'elles. En revanche, certaines vérités sont connues depuis longtemps et il est
possible de contraster les 2 familles que sont la reconnaissance (défendue par
Starch) et l'impact (défendue par Gallup-Robinson). Ci-dessous le résultat de
quelques études célèbres.
FIABILITE DES
MESURES
Sont présentées quelques études dont les résultats sont
d'importance.
En 1955, l'Advertising Research Foundation (équivalent US de
l'IREP), compara les résultats des méthodes de souvenir des annonces presse
fondées sur la reconnaissance ou sur le rappel. L'ARF demanda aux sociétés
Starch et Gallup-Robinson de former une équipe indépendante d'interviewers aux
moindres détails de leurs procédures respectives. Elle décida de faire
post-tester les 95 annonces parues dans le numéro de Life du 16 mai 1955. 2
échantillons appariés de 6.000 personnes chacun furent interviewés selon les 2
méthodologies. Parallèlement à ces 2 échantillons énormes, les 2 instituts
procédèrent, avec leurs propres enquêteurs, à leurs mesures habituelles, sur les
200 ou 600 personnes lectrces prises dans l'échantillon initial de 6.000
personnes.
-
pour Starch, et dans sa procédure de reconnaissance, on
présenta la couverture de Life. Si la personne déclare avoir lu le magazine,
on la laisse feuilleter quelques pages. Si elle maintient sa déclaration, elle
est considérée comme lecteur. On lui présente alors les 95 annonces et on
enregistre pour chacune si elle reconnaissait l'avoir lue (reconnaissance
brute) et si elle avait lu ou regardé en particulier les aspects relatifs au
produit ou à la marque (scores vu et associé)
-
pour Gallup-Robinson, après avoir montré la couverture aux
6.000 personnes, on demande à ceux qui déclarennt avoir lu le magazine de
citer, ne serait-ce que de mémoire, certains éléments d'articles qui s'y
trouvaient. Ayant identifié les lecteurs, on leur présenta la série des 95
marques en leur demandant s'ils se souvenaient avoir vu de la publicité pour
ces marques. Dans l'affirmative, on leur demandait d'en restituer un élément
(score d'impact prouvé)
La corrélation des scores d'impact et de reconnaissance
obtenus par toutes les annonces selon les 2 échantillons fournit une mesure de
la fabilité (test-retest). Les résultats furent les suivants :
On en déduisit que les scores de reconnaissance des annonces
magazine sont plus fiables.
Aux Etats-Unis, l'agence BBDO a procédé à une évaluation des
scores d'impact télé de type day after recall (DAR). L'agence fit
systématiquement procéder à 2 DAR simultanés sur 106 spots télé, selon les
procédures habituelles, c'est à dire sur des échantillons de téléspectateurs
prouvés allant de 120 à 200 personnes. La corrélation des scores moyens obtenus
par les 106 spots d'un échantillon à l'autre fut en moyenne de 45% : quand un
film avait un score élevé dans un test, il tendait aussi à avoir un score élevé
dans l'autre test. L'écart moyen était de 6.5%. Ainsi, selon le test, un un même
film pouvait avoir un score de DAR allant de 16 à 22.5% ... ce qui ne
conduit pas aux mêmes conclusions opérationnelles.
Le R^2 de 45% (corrélation de 67%) est cependant trompeur,
sur la base de 2 fois 106 scores d'impact. Certains films sont naturellement
portés à être en haut ou en bas en termes d'impact, selon s'il s'agit de
produits à forte ou basse implication. L'analyse par catégorie de produits donne
des corrélations plus basses, en moyenne de 29%.
De plus, certains corrélations négatives signifient que les
films les plus élevés en score d'impact dans un test se retrouvaient les moins
élevés dans une autre DAR. D'autres études corroborent ce fait.
L'agence Grey aboutit à la même conclusion sur le caractère
peu fiable du DAR. Le tableau ci-dessous présente les scores d'impact obtenu par
10 spots sur lesquels Grey avait demandé 2 DAR simultanés mais
indépendants.
Une nouvelle fois, selon le test, on aurait été amené à
retenir ou rejeter le film.
Si l'on constate la moindre fiabilité des mesures fondées sur
le rappel, l'analyse des sources de variance (sur 2 échantillons appariés) amène
3 puissantes sources (extérieures au film) :
-
le taux d'usage et le degré d'implication des personnes
interrogées
-
l'environnement lors du passage du film : ce dernier passe
t-il dans le programme favori des téléspectateurs ou dans un programme mons
aimé ? Les résultats d'un test BDDO :
VALIDITE DES
MESURES
Si les mesures de reconnaissance sont plus fiables, en
revanche leur validité est plus douteuse. Les mesures de reconnaissance mesurent
bien autre chose que le souvenir issu d'un ou plusieurs contacts
publicitaires.
Dans le cadre d'un post-test magazine, Yankelovith demanda à
1.053 personnes si elles se souvenaient avoir vu 8 annonces, 4 ayant été
fabriquées de toutes pièces et ne pouvant être vues. Les personnes étaient
averties que certaines annonces pouvaient ne pas avoir été présentes dans le
magazine.
Dans une expérience de post-tests d'annonces magazine menée
par Appel et Blum, les interviewés étaient interrogés sur la reconnaissance de
68 annonces, dont 16 étaient absentes. La mesure de reconnaissance eut lieu 2
fois, avant et après parution. Même avant la parution, les scores de
reconnaissance moyens des annonces sont élevés.

Ces résultats conduisent à se demander si l'on peut prédire
le score de reconnaissance d'une annonce après sa parution à partir de son score
de reconnaissance mesuré avant parution ! Cette question suppose le schéma
causal : le score de reconnaissance mesuré après parution découle certes pour
partie d'une trace mémorielle issue de la parution et du contact, mais elle
tient aussi à des facteurs non liés à la rencontre avec l'annonce, facteurs que
l'on pourrait donc tout aussi bien mesurer avant la parution. Sur l'étude
précédente, la corrélation des notes de reconnaissance avant / après est très
élevée (72%, soit R^2 de 0.52) : plus de la moitié de la variance des scores de
reconnaissance après parution est expliquée par les scores avant parution.
L'agence Kenyon-Eckardt se livra à une expérimentation pour
évaluer la validité des scores de reconnaissance de certaines parties du
message. 3 échantillons appariés, de 402 personnes chacun, furent créés. Le
premier reçut un magazine comprenant le visuel, l'accroche, le dessin et la body
copy. Le second reçut la même annonce, mais sans accroche, le troisième sans le
dessin. Lors de l'interview, la même annonce complète fut présentée aux 3
échantillons. Les résultats furent les suivants :
35% de l'échantillon 2 reconnut l'accroche qui n'avait pu
être vue. 26% de l'échantillon 3 reconnut le dessin, qui n'avait pu être
vu.
En conclusion, le score de reconnaissance résulte en partie
des traces mémorielles laissées par un contact, mais il est aussi largement
l'expression d'une probabilité subjective d'avoir vu ce type de message.
La part importante des facteurs non mémoriels dans les scores
de reconnaissance explique en partie l'évolution de ce score dans le temps.
Alors que les mesures de rappel décroissent dans le temps, celles de
reconnaissance restent stables pendant plusieurs semaines après la parution.
Certaines mesures ont relevé une non-décroissance pendant 6 semaines.
Morgensztern donne un exemple avec Esso et Libby's (reconnaissance d'annonce
selon les semaines depuis la dernière parution.
CONCLUSIONS ET
IMPLICATIONS
Les mesures de reconnaissance sont plus fiables mais moins
valides que les mesures de rappel. Si l'on ajoute que les mesures de
reconnaissance sont plus sensibles aux basses répétitions et aux médias fugaces
ainsi qu'aux messages non verbaux, non rationnels, purement image, nous
constatons que les instruments de mesure doivent être encore améliorés.
A titre d'exemple, puisque les bétas de mémorisation
(Morgensztern) habituellement donnés ne sont pas mesurés par la même méthode, il
convient de prendre garde sur ses valeurs (Kapferer, 1988).
Les techniques de reconnaissance donne des chiffres plus
élevés que les techniques de rappel (combien se souviennent après 1 contact ?).
L'homogénéité et la comparabilité entre les 2 techniques ne sont pas assurées.
D'où l'importance et l'intérêt méthodologique du suivi des résultats au cours du
temps (tracking) par une seule technique, plutôt que des relevés ponctuels
n'assurant pas l'interprétabilité des résultats.