Recherche en psychanalyse : IPA 2000. Section D

Sous l'égide de l'IPA (2000) : Une revue ouverte des études de résultat en psychanalyse
"An Open Door Review of Outcome Studies in Psychoanalysis" : rapport préparé par le comité recherche de l'IPA à la demande du Président

’

Translated from the original English language version with permission of the International Psychoanalytical Association. For details of how to purchase the printed, English language edition of An Open Door Review of Outcome Studies in Psychoanalysis please visit the IPA’s website http://www.ipa.org.uk or email: Publications@ipa.org.uk"

Traduit à partir de la version originale en langue anglaise avec l'autorisation de l'Association Internationale de Psychanalyse. Pour obtenir des détails sur les modalités d'achat de l'édition en langue anglaise de "An Open Door Review of Outcome Studies in Psychoanalysis" veuillez visiter le site Internet de l'API http://www.ipa.org.uk ou adresser un email à : Publications@ipa.org.uk

(P. Fonagy : traduction de JM Thurin, Monique Thurin et B Lapeyronnie ©)

Section D : Considérations méthodologiques de l’évaluation des résultats de la psychanalyse

Problèmes méthodologiques inhérents à la recherche évaluative de psychanalyse

La recherche en psychanalyse est inévitablement un compromis entre les procédures cliniques habituelles et les exigences de l'influence scientifique.
Penser clairement les conditions d'application des résultats de recherches repose sur une compréhension de la nature de ces compromis. Dans cette section nous énumérerons brièvement certaines des questions qui doivent être prises en compte dans l'interprétation et l'évaluation de la preuve de l'efficacité de la psychanalyse. Alors que ces questions sont bien connues et évidentes à certains, elles peuvent l'être moins pour d'autres. Plus important, nous les énumérons ici en partie pour montrer que les chercheurs sont bien avertis de ces problèmes sans être pour autant nécessairement capables de les résoudre, du moins il devrait être clair qu'ils travaillent à cet objectif.

Efficacité potentielle versus efficacité réelle

Le terme d’efficacité potentielle se rapporte aux résultats qu'un traitement obtient dans le cadre d'une recherche planifiée, alors que l'efficacité clinique réelle (effectiveness) est le résultat de la thérapie dans la pratique courante. L'anomalie surgit parce qu’il est exigé des études qu’elles montrent une « validité interne » (Cooke et Campbell, 1979) ; c'est-à-dire, qu’elles permettent que des inférences causales puissent être faites sur la base de la relation observée entre les variables. Dans ce contexte, l'absence d'une relation doit impliquer l'absence d'une cause.

L'obtention d'une validité interne exige normalement des modifications des procédures cliniques, qui sont rarement rencontrées dans la pratique journalière. Les plus communes de ces dernières sont : (a) la sélection de groupes patients de diagnostic homogène, (b) le randomisation de ces patients dans des traitements, (c) l'emploi d’un suivi étendu de la progression des patients, (d) le cahier des charges soigneux des procédures thérapeutiques à utiliser et (e) la surveillance de leur mise en oeuvre. Ces conditions constituent clairement une menace à la « validité externe », à propos du degré suivant lequel le rapport causal impliqué entre les variables peut être généralisé. Ainsi les démonstrations d'efficacité potentielle ne constituent pas nécessairement des démonstrations d'efficacité réelle. Le fait qu'un traitement soit très efficace dans des conditions strictement contrôlées ne veut en aucun cas dire qu'il aura la même valeur dans le contexte de la pratique clinique ordinaire.

Ce problème n’est nullement réservé à la recherche sur le traitement psychodynamique. Pour prendre un exemple simple, un agent pharmacologique présentant distinctement des effets secondaires désagréables mais inoffensifs peut être considéré comme ayant une efficacité potentielle considérable dans un essai contrôlé en double aveugle.Personne ne sera surpris s'ils s'avère inefficace dans la pratique clinique à partir du moment où des patients vont fréquemment et commodément « oublier » de prendre cette pilule. Dans l’essai, les niveaux sériques (de ce médicament) étaient soigneusement surveillés et les sujets dont les niveaux sanguins indiquaient qu'ils n'avaient pas pris leur médicament étaient exclus de l'analyse. La même chose s'applique aux essais concernant le traitement psychologique. Fréquemment la psychothérapie n'est pas délivrée en pratique comme elle l’est dans le contexte d'un essai soigneusement surveillé. En revanche les essais peuvent sous-estimer les effets d'une thérapie en affectant aléatoirement des patients à des traitements qu'elles ne souhaitent pas avoir, tandis que dans la pratique clinique leur préférence serait soigneusement notée par leur médecin traitant.

Rémission spontanée

Comme relativement peu d’individus qui souffrent d’une morbidité psychiatrique significative bénéficient d’une quelconque aide professionnelle, il doit être évident qu'il y existe beaucoup de voies de retour à la normale qui n'impliquent ni la psychanalyse, ni la psychothérapie ou toute sorte d'intervention systématique. Ce que n'importe quel traitement doit dès lors démontrer, c’est qu'il est plus pertinent que les processus curatifs naturels que fournit la société humaine (noter à ce sujet par exemple les fameux commentaires de Freud à propos du potentiel thérapeutique de Lourdes (Freud, 1933)). D'un point de vue historique, Hans Eysenck (1952) a été le premier à soulever cette question en relation avec la thérapie psychanalytique. Il a soutenu, tant sur la base des statistiques d'assurance que de l’étude de Fenichel Berlin I concernant les résultats de l'Institut Psychanalytique de Berlin, que davantage d'individus avaient récupéré durant une période de deux ans où ils n’étaient pas traités que quand ils avaient été traités par la psychanalyse. Plus récemment, il a été démontré que, même en utilisant les données d'Eysenck, une analyse plus sophistiquée révèle qu'alors que la moitié des patients traités s'étaient améliorés en deux mois, seuls 2% de ceux qui n’étaient pas traités s’étaient améliorés durant la même période de temps (McNeilly et Howard,1991).

Quel que soit le statut des chiffres personnels d'Eysenck, il n'y a aucun doute que les taux d'améliorations spontanées sont importants pour la plupart des désordres psychologiques (Bergin, 1971 ; Lambert, 1976 ; Subotnik, 1975). Par exemple, à partir d’études naturalistes de suivi nous savons que les individus présentant un trouble de personnalité borderline tendent à faire un « burn out » à l'âge moyen (Stone, 1990). Ainsi les affirmations portant sur l'efficacité réelle de la psychanalyse ne peuvent pas être faites sur la base des rapports cliniques de cas individuels, quel que soit leur succès - sans qu’il existe une connaissance claire concernant l'évolution du trouble. Dans le meilleur des cas, l’évolution d’individus non traités devrait être comparée à celle de ceux qui reçoivent le traitement. Il n’est pas réalisable et il n’est pas éthique de différer le traitement d’une personne pendant la durée d'un traitement à long terme tel que la psychanalyse et cela a posé des problèmes majeurs pour ceux qui entendent effectuer des études de résultats. Comme la psychanalyse n'est généralement pas accessible, il semble concevable de comparer son efficacité réelle au meilleur traitement alternatif disponible ou à ce que l’on range sous le terme de « traitement habituel ». Le premier a l'avantage d'offrir une comparaison apparemment significative du point de vue d'un référent ou d’une organisation de référence, mais il a également le potentiel de produire des comparaisons sans signification où les objectifs du traitement ne sont pas comparables et où "des pommes sont comparées à des oranges". De telles comparaisons exigent également que le chercheur ait une expertise comparable avec les deux méthodes de traitement, ainsi que de grandes dimensions d’échantillons quand la différence entre les deux méthodes est susceptible d'être petite. L’autre comparaison, avec un groupe bénéficiant d’un traitement considéré comme "habituel", a l'avantage de nous dire à quel niveau de différence un traitement pourrait conduire s’il devait être adjoint au soin courant, mais il a l'inconvénient d’une hétérogénéité potentiellement importante dans le groupe de contrôle et d’une information insatisfaisante au sujet du traitement reçu par le groupe de contrôle (Roth et Fonagy, 1996).

Stratégies de recherche en psychothérapie

Le choix d'une méthodologie particulière de recherche sera toujours un compromis, reflétant les intentions, intérêts (et ressources) des investigateurs. Nous considérerons certaines des stratégies principales utilisées dans la recherche psychanalytique, avec leurs forces et leurs faiblesses. On peut trouver dans Kazdin (1994) un exposé complet de ces questions concernant la recherche sur la psychothérapie.

Les études de cas unique

La croyance que la connaissance basée sur des groupes d'individus a plus de probabilité d’être généralisable - c'est-à-dire, applicable au delà de l’espace spécifique de sa découverte – que ne peut l’être la connaissance basée sur des cas individuels, est fatalement biaisée (Fonagy et Moran, 1993). Dans des conceptions de cas unique, l’axe se situe sur le patient individuel plutôt que sur un groupe moyen, même quand c’est un groupe de patients qui est étudié. Les études de cas uniques peuvent être descriptives ou quantitatives. Le premier groupe est bien représenté dans les histoires de cas psychanalytiques traditionnelles. La méthode a beaucoup d’atouts, y compris sa valeur communicative élevée, et sa richesse de description des processus interactifs inconscients particulièrement complexes entre l'analyste et le patient. Il n'existe pas de format général accepté pour ces rapports et l'information incluse tend à être tout à fait variable (par exemple Spence, 1994) , ce qui mine la généralisation. Des tentatives ont été faites de systématiser de tels états qualitatifs (par exemple Klumpner et Frank, 1991) mais elles n'ont pas reçu d'approbation générale.

Par rapport aux comptes-rendus descriptifs des traitements simples, les états quantitatifs manquent assurément de richesse et de profondeur mais ils sont généralement mieux reçus en raison de la facilité plus grande avec laquelle la fiabilité de l'observation peut être évaluée. Dans ce dernier groupe, certains sont des rapports naturalistes de résultats ou des quasi-expériences (Cooke et Campbell, 1979), tandis que d'autres sont des rapports de la manipulation expérimentale d’interventions. Dans les cas où des mesures appropriées de la ligne de base sont effectuées, ou où des traitements sont appliqués et interrompus de façon contrôlée, le patient fonctionne en tant que son propre contrôle. Cette méthodologie a été largement répandue par les chercheurs comportementalistes et cognitivo-comportementalistes (Morley, 1987 ; 1989), mais elle est également applicable aux investigateurs psychodynamiques (par exemple Fonagy et Moran, 1993) et à l’investigation des facteurs de processus dans la thérapie (par exemple Parry, 1986).

Les études de cas uniques ont un certain nombre de dispositifs attrayants. Elles peuvent être combinées avec la pratique clinique courante des praticiens privés, elles n’exigent pas (nécessairement) l'appareillage et le personnel de recherche normalement liés à la recherche basée sur le groupe et elles peuvent être conduites assez rapidement. Bien que de grande importance dans la démonstration ou l'amélioration de la technique clinique et particulièrement dans l'innovation de traitement, il peut être difficile de généraliser les résultats des études de cas uniques à une population clinique plus large (en effet la conception n'est pas destinée à un tel but). Les patients sont souvent soigneusement sélectionnés (nécessairement lorsque les études visent à montrer l'efficacité réelle d'une technique pour des clients particuliers).

De façon plus fondamentale, cependant, la traduction des résultats est limitée par le fait que (comme cela deviendra évident dans le corps de ce rapport) les interventions thérapeutiques ont des impacts généraux et spécifiques sur le bien-être des patients. Une intervention distincte est exigée afin de vérifier que tous les bénéfices démontrés sont attribuables à des interventions techniques thérapeutiques spécifiques - une stratégie adoptée dans l’essai contrôlé randomisé.

Les essais contrôlés randomisés ("randomised controlled trials" (RCTs))

Contrairement à l'étude de cas unique, les RCTs posent explicitement des questions sur les avantages comparatifs de deux traitements ou plus. Des patients sont aléatoirement assignés à différentes conditions de traitement, habituellement avec une certaine tentative de contrôler (ou examiner au moins) des facteurs tels que les variables démographiques, la sévérité des symptômes et les niveaux de fonctionnement. Des tentatives sont faites de mettre en application des thérapies dans les conditions qui réduisent l'influence des variables susceptibles d'influencer le résultat - par exemple en standardisant des facteurs tels que l'expérience et les capacités du thérapeute, et la longueur des traitements. La conception de l’étude permet de comparer des traitements actifs entre eux, ou de comparer leur effet à une absence de traitement, une liste d'attente ou une intervention « placebo ». De plus en plus, les études s'assurent également que les traitements sont mis en oeuvre conformément à leur description théorique - par exemple, en s'assurant que les traitements psychanalytiques n'incluent pas des éléments cognitivo comportementaux ou de soutien. À cette fin beaucoup de traitements ont fait l'objet d'un « manuel» (un processus qui indique de manière programmée les techniques de la thérapie), et l’adhésion du thérapeute à la technique est suivie comme un des aspects de l’essai. Il y a évidemment des problèmes majeurs dans la référence à un manuel pour un traitement psychanalytique (Clarkin, 1998), mais certains progrès ont déjà été accomplis sur ce plan (par exemple Clarkin et coll., 1999 ; Fonagy, Edgcumbe, Target, Moran, et Miller, en cours d'impression ; Kernberg et coll., 1989 ; Luborsky, 1984). Bien que cette conception d’étude ait le potentiel de distinguer l'impact des traitements (et de fournir un contrôle pour les effets de rémission spontanée), il existe des limitations inhérentes à cette approche.

Problèmes des groupes contrôles

Bien que suivant la conception idéale de l'étude devrait être de différencier le traitement du non traitement, cette option est rarement moralement ou pratiquement possible. L'alternative, offrir un traitement placebo - un traitement qui est considéré inactif, au moins du point de vue des traitements actifs offerts – se heurte à la difficulté de trouver une activité pour laquelle on pourrait garantir qu’elle n’a aucun élément thérapeutique, que l’on contrôle l'effet de l'attention et qui soit également perçue par les patients comme étant aussi crédible qu'une intervention psychiatrique. Beaucoup d'études récentes se limitent à la comparaison des traitements actifs ; pendant que les prevues se sont accumulées en faveur de l'efficacitépotentielle générale de la thérapie, les comités d'examen institutionnels (comités d’éthique) sont devenus peu disposés à sanctionner les essais qui pourraient être considérés comme privant des patients de l'aide qu’ils requièrent (voir par exemple Elkin, 1994).

Longueur de la thérapie

Mettre en place un RCT est une entreprise importante, et par conséquent occasionne de grandes dépenses. Bien qu'il y ait des exceptions, la plupart des épreuves limitent la quantité d’intervention offerte (fréquemment à environ 16 semaines). Alors que cela peut être approprié à quelques thérapies (principalement aux approches comportementales ou cognitivo-comportementales), les thérapeutes psychodynamiciens (par exemple Fonagy et Higgitt, 1989) pourraient – et ils le font - arguer du fait que les techniques qu'ils utilisent n'ont jamais été conçues pour être dispensées dans un cadre de temps si court. La psychanalyse est dans la plupart des pays un traitement de durée indéterminée et il est difficile d'imaginer de le contraindre dans un cadre où le nombre de séances est déterminé indépendamment du processus individuel de traitement.

Généralisation

Peu de RCTs réalisent la mise en place de thérapies psychologiques dans des conditions qui pourraient être obtenues en pratique courante. Comme cela a été noté ci-dessus, parce qu'ils sont caractérisés par le souci de maintenir la validité interne, leur validité d'application pourrait être perçue comme limitée. Par exemple :

(a) les patients auront été choisis pour se conformer à des catégories diagnostiques précises
(b) auront été exposés à des évaluations multiples
(c) les thérapies seront appliquées avec une certaine précision, souvent sous supervision
(d) les chercheurs sont souvent particulièrement enthousiastes et particulièrement experts en ce qui concerne la techniques qu’ils utilisent.

Préférence des patients et répartition aléatoire dans un traitement

Les patients ne sont pas des destinataires passifs du traitement, et leurs préférences pour les formes différentes du traitement peuvent être décisives pour leur participation à des essais cliniques (Brewin et Bradley, 1989). Le biais introduit par une usure conséquente du traitement est invisible dans des études, mais peut être particulièrement significative en ce qui concerne la pratique clinique.

Les essais ouverts

Cette méthodologie est intermédiaire entre celle du cas unique et celle de l’essai contrôlé randomisé. Bien que l'entrée dans le traitement puisse être régie par des critères stricts, il n'y a aucun groupe de contrôle. De telles conceptions d’étude reflètent souvent un protocole de traitement plus naturaliste que c’est le cas avec les RCTs. Au niveau le plus simple, de telles études offrent une information importante concernant :

(a) l'avantage probable que le patient moyen pourrait tirer du traitement
(b) les dispositifs susceptibles d’être associés à de relativement bons résultats
(c) le niveau d’efficacité auquel se situe un service particulier en terme de résultats
(d) les aspects des problèmes d’un patient susceptibles d'être améliorés par un traitement
(e) compte tenu d'une certaine variabilité normale dans la délivrance du traitement, les aspects de ce traitement qui sont associés à de bonnes conséquences et lesquels ils sont accompagnés de résultats équivoques.

Fréquemment deux traitements ou plus, pratiqués dans différentes configurations, sont mis en comparaison pour le même trouble. En principe, une telle conception pourrait répondre à la question "quel est le type de patients qui bénéficie le plus d'avantages issus d’un protocole particulier de traitement ". En réalité les différences issues du mélange de cas et l’échec du contrôle d’éléments spécifiques du traitement imposent habituellement des limitations drastiques aux implications qui peuvent être tirées de telles études. Si l’ensemble des données est suffisamment important, il peut être possible de tirer des conclusions au sujet de la valeur relative des traitements, même en l'absence d’une affectation aléatoire. Cependant, les études sur une si grande échelle sont rarement possibles.

Résolution des conflits entre validité interne et validité externe dans les conceptions de recherche

Nous avons déjà noté qu'un problème important pour les études de résultats en psychanalyse se situe au niveau de la tension entre la satisfaction des exigences de la validité interne et de la validité externe quand on développe des stratégies de recherches. Les conceptions doivent atteindre un compromis entre ces facteurs ; réduire l'écart entre elles exige des tentatives innovantes d’intégrer une incompatibilité apparente entre la rigueur scientifique d'une part et la possibilité de généralisation d’autre part. Les conceptions de recherche de cas unique peuvent arriver à jouer un rôle important à cet égard, puisque la validité externe n'est pas un problème inhérent aux conceptions de ce type (Kazdin, 1994).

Une fois répliquées à partir de cas répartis de façon aléatoire, elles ont une capacité de généralisation considérable. Elles peuvent être utilisées pour répondre à la plupart des questions qui concernent les chercheurs, tels que la convenance d'une forme particulière de traitement, la longueur du traitement requise pour obtenir de bons résultats, l'impact relatif du traitement sur des aspects particuliers du problème ou la pertinence de composants particuliers du traitement. Cependant, il y a une exception critique : dans cette stratégie de recherches il est difficile d’étudier les facteurs impliquant le patient et l'analyste. S'il n'y a pas de réplication parmi les sujets (patients et analystes), cette conception d’étude n’apportera aucune information concernant leur influence sur les résultats.

Ainsi, la méthodologie qui est vraiment adéquate à la tâche d'assurer simultanément la validité interne et la validité externe dans la recherche psychanalytique a probablement déjà à être développée. En attendant, la meilleure réponse – bien que potentiellement inadéquate - se situe dans les revues (telles que celle-ci), qui incluent l'évaluation critique des menaces probables à la validité externe posée par al recherche actuelle.

Techniques de mesure

Eléments requis de mesure

Il existe un certain consensus dans la recherche en psychothérapie (Kazdin, 1994) que les mesures uniques de résultats sont insuffisantes, que les mesures ne devraient pas être réactives à la demande de l’expérimentateur et qu’elles devraient être tirées de :

(a) perspectives différentes (telles que le patient, les parents ou les amis proches du patient, le thérapeute ou des observateurs indépendants)
(b) domaines différents de symptômes (comme l’affect, la cognition et le comportement)
(c) espaces différents de fonctionnement (tels que le travail, le social et le matrimonial).

Une approche relativement complète, qui a été mise en application à la clinique de Menninger, est l'analyse fonctionnelle des environnements de soin (FACE) (Clifford, 1998). Dans la psychothérapie de l'enfant, Fonagy (1997a) a recommandé qu'au moins les domaines suivants puissent être suivis :

(a) les mesures psychiatriques de symptôme et les critères diagnostiques
(b) l’adaptation aux exigences développementales et sociales
(c) les aspects transactionnels tels que les relations familiales et la mesure de l'impact de la pathologie de l’enfant sur les fonctions de la famille et de ses membres
(d) les mécanismes sous-tendant les symptômes de l’enfant et les problèmes d'adaptation au niveau physiologique ou psychologique (par exemple, la régulation de l’affect sur les représentations d’attachement)
(e) la satisfaction par rapport au service et l'utilisation alternative de service.

Il y a cependant peu de consensus sur les mesures précises susceptibles d'être utilisées. Cela introduit une certaine difficulté de comparaison entre études et, occasionnellement, des problèmes d’interprétation dans les essais où des mesures, considérées comme convergentes sur des aires cibles semblables, donnent des résultats différents.

Pour beaucoup d'analystes, cette réduction des résultats à une série de scores est insatisfaisante parce qu'elle ne parvient clairement pas à saisir la complexité de leur travail. Cette objection doit assurément être prise en compte, puisque la majorité des mesures actuelles n’abordent pas les subtilités des présentations individuelles ou la signification de changements particuliers chez des patients particuliers. Il n'y a aucun ensemble convenu de capacités et d’attributs qui permettraient à un analyste de défendre qu’ils peuvent refléter le changement chez un groupe de patients. Beaucoup de cliniciens psychanalystes sont impressionnés d'ailleurs par le fait que, chez quelques patients, la thérapie favorise le déploiement de processus développementaux, pas à pas, sous une forme organisée et progressive. Cela suggérerait une mesure développementale construite sur cette base. Cependant, la convenance de la métaphore développementale n’est nullement universellement acceptée par les psychanalystes (Mayes et Spence, 1994). En outre, les psychanalystes ont noté qu'une focalisation sur le changement symptomatique est inappropriée lorsque le changement de la personnalité – qui peut être difficile à mesurer - est l'objet de la thérapie. Des techniques considérées comme mesurant cette dimension ont été développées (par exemple Malan et Osimo, 1992 ; Malan, 1976 ; Wallerstein, 1988) bien que le degré auquel elles sont vraiment indépendantes du changement symptomatique soit moins clair (Mintz, 1981). L'impossiblité d'établir des mesures fiables et validées par la communauté psychanalytique est un fait regrettable, qui ne sera corrigé que par un effort concerté de la part des thérapeutes psychodynamiciens avec l’objectif d’identifier, d'une façon consensuelle et mesurable, les résultats que le traitement vise à provoquer, et de valider ces derniers par rapport aux critères que d'autres partenaires (tels que les patients, les bailleurs de fonds et d'autres praticiens) considèrent comme importants.

Il existe des objections générales à la quantification des résultats thérapeutiques. L'utilisation non critique de la quantification est dominante en science sociale (Frosch, 1997). On peut penser que la quantification n’est pas appropriée pour appréhender des significations qui sont variables et renégociables par rapport au contexte dans lequel elles sont appliquées. Le caractère unique des expériences humaines particulières est nié si nous recouvrons des subjectivités intérieurement structurées par des systèmes "objectifs" de significations extérieurement imposés. Il peut être avancé que la complexité et la variabilité des significations humaines est perdue si nous présumons (par l'utilisation de la quantification) qu’il existe une signification universelle "vraie" du comportement et de l'expérience humains. Les données psychologiques (qu’elles soient quantitatives ou qualitatives) issues des humains exigent d’être interprétées comme inévitablement basées sur des processus interactifs et discursifs. Assurément, l’exigence d’une pleine connaissance d'une réalité objective et fixe est spécieuse. Cela, cependant, n'est pas une critique de la quantification mais plutôt de sa réification inadéquate, un problème qui a déjà a été abordé.

En conclusion, il peut y avoir un souci légitime que certaines techniques de mesure parviennent à appréhender des domaines de changement proches de ceux visés par une thérapie particulière, et puissent ainsi indiquer de plus grands degrés de changement que ceux qui seraient appréhendés à partir d’instruments plus grossiers. Par exemple, l’Inventaire de dépression de Beck (BDI) évalue le niveau de la dépression en grande partie à partir des représentations plus cognitives de ce trouble. En revanche l'échelle d'évaluation de la dépression de Hamilton (HRSD) est davantage centrée sur les symptômes biologiques. On a dit que les essais portant sur la thérapie cognitive pourraient réaliser de meilleurs résultats en utilisant le BDI, et que des études portant sur les médicaments obtiendraient des résultats meilleurs en utilisant l’HRSD, reflétant moins les résultats "vrais" que le biais des instruments de mesure. Un argument similaire pourrait être fait si les psychanalystes choisissaient des mesures de résultats trop étroitement liées au progrès de la thérapie (par exemple, une mesure de transfert ou du processus analytique). D'autre part, les mesures ont besoin d'être appropriées aux buts d'une thérapie - le problème est que les objectifs du traitement psychanalytique demeurent controversés (Sandler et Dreher, 1997).

Développements au niveau des mesures

Il y a eu des développements majeurs dans les techniques psychanalytiques de mesure. Les limitations de l'espace n’en permettent pas une revue complète, mais quelques instruments qui ont été utilisés dans les études présentées ci-dessous sont énumérés ici.

Instruments structurés

Atteinte d’objectif – Buts de traitement individuel

Heuft, G. and colleagues (Heuft, Seibüchler-Engec, Taschke, & Senf, 1996) Langzeitoutcome ambulanter psychoanalytischer Psychotherapien und Psychoanalysen. Forum Psychoanal., 12, 342-355.

Estimations par le thérapeute des résultats cliniques

Rudolf, G. (Rudolf, 1981). Untersuchung und Befund bei Neurosen und Psychosomatischen Erkrankungen. Materialien zum Psychischen und Sozial-Kommunikativen Befund (PSKB). Beltz, Basel.

Diagnostics opérationnels Psychodynamiques

Cierpka, M. and colleagues (Cierpka, 1995). Die erste Version einer Operationalisierten Psychodynamischen Diagnostik (OPD-1). Psychotherapeut, 40, 69-78.

Rudolf, G. and colleagues (Rudolf, 1995). Struktur und strukturelle Störung. Zsch.
Psychosom.Med. 41, 197-212.

Arbeitskreis OPD (Hrsg). (1996). Operationalisierte Psychodynamische Diagnostik. Grundlagen und Manual. Hans Huber, Bern-Stuttgart.

CHAP : Changement après psychothérapie

Sandell, R. (1987a). Assessing the effects of psychotherapy II. A procedure for direct rating of psychotherapeutic change. Psychotherapy and Psychosomatics, 47, 37-43.

Sandell, R. (1987b). Assessing the effects of psychotherapy III. Reliability and validity of "Change after psychotherapy". Psychotherapy and Psychosomatics, 47, 44-52.

The Hampstead Child Adaptation Measure

Instruments psychométriques

Auto-questionnaires focalisés sur le patient

° Symptom-Check-List SCL 90-R (Derogatis, Lipman, Rickels, Uhlenhuth, & Covi,
1974)

° Beck-Depression Inventory BDI (Beck & al, 1961)

° Inventory of Interpersonal Problems IIP (Horowitz, Rosenbery, Baer, Ureno, &
Villasenor, 1988)

° Introject Questionnaire INTREX (Benjamin, 1974; Tress, Benjamin, 1991)

° Questionnaire of Coping Strategies FKS (Hentschel, 1995)

° Questionnaire of Social Satisfaction SOZU (Sommer, Fydrich, 1991)

° Basic Documentation (Broda, Dahlbender, Schmidt, von Rad, & Schors, 1993)

° Freiburg Personality Inventory FPI-R (Fahrenberg, Hampel, & Selg, 1985)

° Narcissism Inventory (Deneke & Hilgenstock, 1988)

° Symlog: social interaction in small groups (Bales and Cohen, 1982)

° Inventory of Quality of Life (Huber, Henrich, & Herschbach, 1988)

° Inventory of Change in Experience and Behaviour VEV (Zielke, Kopf-Mehnert,
1978)

° Helping Alliance Questionnaire HAQ-P (Bassler, Potratz, & Krauthauser, 1995)

° AIR questionnaire (Roose et al., 1994)

Instruments psychométriques focalisés sur le thérapeute

° Short documentation of the initial interview (diagnosis, psychodynamic hypotheses, aims, assessment of level of personality organisation, of basic conflicts, of main defenses).

° Helping Alliance Questionnaire: HAQ-T (Luborsky et al., 1996)

° Process-Rating-Scales (with questions concerning transference, resistance, analytic work, technique, setting, relevant hours, counter-transference and main transference themes)

° Global Assessment Scale (Endicott, Spitzer, Heiss, & Cohen, 1976; Luborsky &
Bachrach, 1974)

° Level of Functioning Scale (Carter and Newman, 1980)

° Life Functioning Scales (Howard, Lueger, Maling, & Martinovitch, 1993)

° Therapeutic Assets Questionnaire (Daskovsky, 1988)

° Personal Style - Therapist Form (Howard et al., 1988)

° Therapeutic Contract Questionnaire – Session Form (Howard et al., 1988)

° Therapeutic Procedures Inventory – R (Orlinsky, 1987)

Évaluations reposant sur un chercheur indépendant

° Clinical diagnostic assessment interview (audio taped) as a basis for ICD-I0 Diagnosis check list IDCL (Hiller, Zaudig, Mombour, & Bronisch, 1993)

° Impairment Severity Scales BSS (Schepank, 1995)

° Global Assessment of Functioning Scale GAF (DSM III-R) (Luborsky & Bachrach, 1974)

° Scales of Psychological Capacities SPC (Wallerstein, 1992)

° Goal Attainment Scaling GAS (Kiresuk and Sherman, 1968; Kiresuk et al., 1994)

° OPD-Assessment of level of personality organisation, basic conflicts, main defenses and psychodynamic hypotheses

° Computer-based quality evaluation in routine practice (System AQUASI, Kordy, 1997; Scheidt & Wirsching, 1998) .

Autres considérations

Suivi

Dans la plupart des conditions, le succès de la thérapie peut être mesuré à la fois par la capacité du patient d'améliorer son fonctionnement et de maintenir cette amélioration après la fin de thérapie. Bien que la plupart des essais enregistrent des données de suivi, la durée du suivi peut varier nettement suivant les études, parfois en étant seulement une question des semaines, parfois d’années. La longueur du suivi exigée pour démontrer un effet clinique est régie par l'histoire naturelle d'un trouble, qui suggérera à la fois la probabilité de rechute et la durée habituelle entre les épisodes. L'efficacité thérapeutique ne peut être démontrée que dans le contexte de ces deux facteurs et, par exemple, un suivi de trois mois pour une affection dont on sait qu'elle présente un risque de rechute important durant une période d’un an serait clairement insatisfaisant. Cet aspect de la conception de la recherche est particulièrement important pour les investigations psychanalytiques où ce que l’on appelle « les effets dormants » ont été fréquemment enregistrés (par exemple Kolvin et autres, 1981). Le terme se rapporte aux améliorations observées après l'arrêt du traitement. L'arrêt est un temps complexe dans le traitement psychanalytique avec la répétition des plaintes initiales généralement enregistrées.

Bien que cela suggère que des périodes étendues de suivi devraient être la norme, plus un patient est suivi longtemps, plus il est difficile d'attribuer le changement au traitement initial. Cela tient en partie au fait que les patients pourraient rechercher un autre traitement entre temps (par exemple Shea et autres, 1992), et aussi parce que l'impact relatif du traitement dans le contexte des expériences de la vie diminue avec le temps. Paradoxalement, il peut être difficile d’interpréter les résultats de suivis très prolongés, alors qu’ils sont souhaitables.

En conclusion, la stabilité du changement symptomatique au cours de la période de suivi peut être en soi un objet de préoccupation. La surveillance de différents patients suggère qu'une proportion d’entre eux va changer de symptomatologie plus d'une fois (par exemple Brown et Kulik, 1977 ; Shapiro et autres, 1995). L'enregistrement de moyennes de groupe tend à obscurcir cette variabilité, menant à une surestimation des résultats à plus long terme dans la pratique clinique.

Attrition

Toutes les essais cliniques vont perdre des patients à un moment ou un autre du traitement ; le moment où ils seront perdus aura des impacts différents sur la validité. Une perte précoce au cours d'un essai peut perturber la randomisation du traitement et menacer la validité interne. Même lorsqu’il n'y a aucune attrition différentielle des traitements, il est possible qu'une attrition significative puisse mener à des résultats qui ne seront applicables qu’au sous-groupe seulement de patients qui seront restés, ce qui menacera la validité externe. Par ailleurs, les taux d’attrition suivant les modalités de traitement peuvent ne pas être aléatoires, et refléter le degré suivant lequel les thérapies sont acceptées, suggérant que l’attrition puisse être en elle même une variable importante.

Les niveaux significatifs de l’attrition limiteront les conclusions qui peuvent être tirées d'une étude, et compliquer l'analyse des résultats. Un certain nombre de solutions statistiques à ce problème sont à la disposition des chercheurs qui utilisent le dernier recueil de données disponible pour estimer le biais probable introduit par la perte de patients (par exemple Flick, 1988 ; Peu et Rubin, 1987).

Suivant un autre mode, les données peuvent être enregistrées sur la base d’un échantillon «intention de traite», incluant tous les sujets entrés dans l’étude, ou en présentant des données séparées pour ceux qui terminent toute la thérapie ou une durée déterminée de la thérapie (par exemple Elkin et autres, 1989).

Méta-analyses

Au cours des 15-20 dernières années, des techniques ont été développées pour permettre un examen quantitatif des études de psychothérapie. La méta-analyse est une procédure qui permet à des données issues d’études séparées d'être considérées collectivement par le calcul d'une taille d'effet de chaque recherche (Rosenthal, 1991).

Les tailles d'effet sont calculées selon la formule :

ES = M1 - M2 / S.D.

où
M1 = la moyenne du groupe de traitement
M2 = la moyenne du groupe de contrôle
S.D. = l'écart type mis en commun

Les termes M1 et M2 peuvent être considérés comme les moyennes de chacun des deux groupes pris en compte, comme c'est le cas lorsque la psychothérapie est comparée à une liste d'attente contrôle, ou lorsqu’il il existe une comparaison entre deux formes de psychothérapie. Puisque cette technique convertit des mesures de résultats en une unité de mesure commune, différentes tailles d’effet peuvent être mises en commun. En plus d'examiner la contribution des effets principaux tels que la modalité de thérapie, les tailles d’effet concernant n'importe quelle variable d'intérêt peuvent être calculées, comme l'impact de la qualité méthodologique ou de l'allégeance de l'investigateur sur les résultats enregistrés (par exemple Robinson, Berman, et Neimeyer, 1990 ; Smith, Verre, Et Miller, 1980).

Les tailles d'effet se rapportent à des différences entre groupes dans des unités d'écart type sur la distribution normale. Leur signification intuitive est rendue plus claire en les traduisant en pourcentages, indiquant le degré suivant lequel l'état du client traité moyen est meilleur que celui des patients de référence. Ainsi une taille d'effet de 1.0 correspond à un résultat où 84% des patients du groupe traité vont mieux que le patient de référence moyen.

La méta-analyse est un outil puissant de recherches, mais certains ont critiqué la technique (par exemple Wilson et Rachman, 1983). Les critiques communes incluent :

(a) le fait que les revues d’études n'incluent pas les études de cas-uniques
(b) l'inclusion d’études d'adéquation méthodologique incertaine
(c) l'inclusion d’études ne concernant pas directement des questions cliniques, telles que les études analogiques, et les essais impliquant des patients dont les symptômes ne sont pas cliniquement significatifs ou de grande sévérité
(d) le fait que les analyses peuvent multiplier des mesures d'échantillon issues du même patient et du la même étude, ce qui mène à effectuer des tailles d’effet calculées sur la base de données dépendantes
(e) le fait que l’utilisation de scores moyens Z suppose que les mesures de résultats soient convenablement mesurées sur une échelle d'intervalle, et qu'on puisse considérer que leur distribution ne présente qu’une obliquité et courbure insignifiante
(f) les échantillons des études seront biaisés par la tendance des éditeurs et des auteurs à favoriser les résultats positifs
(g) toutes les méta-analyses ne pondèrent pas les moyennes suivant la dimension de l'échantillon.

Une difficulté majeure est cependant que la statistique de taille d'effet ne peut parler des effets du traitement que pour le client moyen, et bien que cela apporte des informations concernant les effets généraux du traitement, une élaboration complémentaire des effets du traitement est habituellement exigée pour détailler les effets plus spécifiques du traitement.

Problèmes associés à l'utilisation des tests statistiques dans la recherche sur la psychothérapie

Signification clinique et statistique

Une grande partie de ce rapport est basée sur des articles examinant la vérité de l’hypothèse nulle - essentiellement la proposition que la psychanalyse n'a aucun effet, ou aucun effet plus grand qu'un traitement de contrôle. Il est conventionnel de rapporter la signification statistique des différences entre les traitements en termes de niveau de confiance de p < 0.05 ou < .01. Cependant, des chercheurs peuvent avoir la possibilité de rejeter l’hypothèse nulle à des niveaux relativement élevés de signification statistique sans démontrer simultanément que ce résultat est digne d'une attention clinique (Kukla, 1989). La démonstration des effets statistiques peut ne pas être équivalente à un changement thérapeutique cliniquement significatif, et il y a un certain nombre de stratégies qui ont été employées pour le détecter (discuté plus loin dans Kazdin, 1994) :

(a) comparaison du changement du patient avec des échantillons dans la norme
(b) mesure de l'ampleur du changement individuel en se référant à une mesure de critère de changement ; par exemple, que les clients traités devraient être à 2 écarts type de la moyenne du groupe non traité (Jacobson et Truax, 1991)
(c) utilisation d'un critère de guérison qui permette une mesure catégorielle plutôt que dimensionnelle de résultats ; par exemple, considérer que tous les individus qui ont un score aussi bas que celui de 75% de la population normale ont tiré bénéfice du traitement (par exemple Elkin et coll., 1989).

La signification clinique du changement est centrale pour l'évaluation des résultats de psychothérapie ; bien que les investigations récentes aient davantage tendance à enregistrer des données sous cette forme, de telles mesures ne sont pas toujours disponibles.

Prélèvement multiple de données et erreur de Type-I

Les chercheurs enregistrent fréquemment de nombreux résultats de signification statistique sans être clairs sur la façon dont chaque test se rapporte à la prévision qu'ils examinent. Dar et collègues (Dar, Serlin, et Omer, 1994) illustrent ce problème en suggérant une étude hypothétique dans laquelle deux traitements pour des phobies de vol en avion sont comparés, en considérant les niveaux d’anxiété et les capacités de faire face comme variables dépendantes. Dans la pratique, il peut y avoir un certain nombre de procédures pour mesurer ces variables, qui sont susceptibles d'être intercorrélées. Chacune de ces variables pourrait être examinée séparément ; cependant, en réalité, il n’y a seulement que deux hypothèses à l'étude - l'impact du traitement sur l’anxiété et son effet sur les capacités à faire face. Plus de deux analyses statistiques sont donc redondantes, et représentent une exagération des données disponibles pour les chercheurs. Un exemple réel de ce processus est celui de l’étude très citée concernant les traitements de la dépression (Elkin, 1994), étude menée par l’Institut National de Santé Mentale et qui montre la signification statistique d’une partie seulement de la famille relativement nombreuse des variables concernant les états émotionnels dysfonctionnels. Une conséquence de la multiplication des échantillons associés à des ensembles de données est d’augmenter le risque d'erreurs de type-I - rejetant l’hypothèse nulle quand cette hypothèse est fausse (dans la pratique, par exemple, clamer qu'un traitement fonctionne mieux qu'un autrequand en réalité ils obtiennent tous les deux des résultats aussi bons l’un que l’autre).

Puisque l'on l'identifie bien qu'une série de mesures concernant des domaines semblables peuvent être intercorrélées, les investigateurs utilisent souvent des tests multivariables, qui permettent une certaine compréhension des relations entre mesures dépendantes. Bien que ce procédé surmonte certains des problèmes mentionnés ci-dessus, des problèmes peuvent surgir lorsque des tests multivariables indiquant une signification globale sont ensuite suivis de tests portant sur une variable. Non seulement cela accroît le risque d’erreur de type-I, mais il peut être difficile d'interpréter les résultats, de nouveau en raison des rapports possibles entre variables au test .

Analyse athéorique

Dar et coll. (1994), dans une revue de l'utilisation des tests statistiques dans la recherche psychothérapique des années 60 aux années 80, notent un niveau élevé de test de signification inapproprié, qu'ils attribuent aux soucis pragmatiques des chercheurs en psychothérapie. La détermination pour trouver des associations statistiquement significatives est considérée par eux comme motivée par "un vol de la théorie jusqu’à la pragmatique". Comme la recherche en psychothérapie a fréquemment une conduite théorique très limitée conduisant à des hypothèses significatives et à des prévisions testables, il y a eu une explosion de procédures exploratoires, menant à un état de la question où, même dans les meilleurs journaux, "une grande partie de l'utilisation actuelle des tests statistiques est biaisée". La recherche de résultats concernant la psychanalyse e n'est malheureusement pas une exception à cette tendance et plusieurs des études incluses dans cette revue ont assurément surexploité leurs données.

Puissance statistique

La puissance statistique est le niveau suivant lequel une recherche peut détecter des différences entre les échantillons quand de telles différences existent dans la population – en d'autres termes quand il y a une différence véritable entre les groupes que l’on teste. La puissance est fonction :

(a) du critère de signification statistique, ou niveau alpha
(b) de la taille de l'échantillon
(c) de la taille d'effet, ou de l'importance de la différence qui existe entre les groupes.

La puissance statistique dans sans doute la majorité des essais de psychanalyse peut être relativement faible, principalement en raison de dimensions réduites de l'échantillon (Kazdin, 1994). Cohen (1962) a distingué trois niveaux de taille d'effet (petite = 0.25, moyenne = 0.50 et grande = 1.0), et a évalué la capacité des études publiées de détecter de telles différences au niveau conventionnel alpha de p <0.05.< 0.05. La puissance dans ces études a généralement été basse, par exemple les études avaient une chance sur cinq de détecter les petites tailles d’effet et moins d’une sur deux de détecter les tailles d’effet moyennes. En dépit de la note d’avertissement donnée par l’article de Cohen, et la date de publication, Dar et ses collègues (1994) ont trouvé qu’une proportion significative de recherches même récentes continue à négliger ces questions. En particulier, on continue à négliger les mesures de taille d’effet au profit de la signification statistique. Les problèmes inhérents à cette procédure peuvent être rapidement illustrés en considérant une étude ayant un grand échantillon mais une petite taille d’effet ; bien qu’une signification statistique puisse être atteinte, cela ne parle pas de la magnitude d’effet, ni de sa fiabilité ou validité. Dans les études de psychanalyse, le scénario inverse est souvent plus probable ; trop peu de sujets étant comparés, réduisant la probabilité de la démonstration des changements significatifs, même quand de tels changements sont présents.

Il devrait être clair que tous problèmes présentés ci-dessus menacent la validité externe de la recherche psychanalytique. Dar et coll. (1994) détaillent un certain nombre de stratégies pour s'assurer que de telles menaces sont réduites au minimum ; par exemple, l’utilisation de prévisions guidées par la théorie, planifiées plutôt que représentant des décisions statistiques post-hoc, la réduction de l'utilisation de techniques de recueil multivariables, un contrôle plus strict du taux d'erreur de type-I par l'utilisation de tests uniques plutôt que de tests multiples, l’utilisation de « familles » plutôt qu'une multiplicité d'hypothèses, l’évitement de procédures statistiques par étapes et le test d’hypothèses non pas par rapport à une différence de zéro mais plutôt par rapport à un intervalle prédéterminé. Alors que ces suggestions sont bien prises en compte, les occasions pour la recherche psychanalytique sont à l'heure actuelle tellement réduites que plusieurs de ces finesses méthodologiques devront rester sur une « liste de souhait », en attendant leur mise en place par des études actuelles en cours.

Dernière mise à jour : 28/02/09
info@techniques-psychotherapiques.org

Sous l'égide de l'IPA (2000) : Une revue ouverte des études de résultat en psychanalyse "An Open Door Review of Outcome Studies in Psychoanalysis" : rapport préparé par le comité recherche de l'IPA à la demande du Président