Marcus, D. K., O’Connell, D., Norris, A. L., & Sawaqdeh, A. (2014). Is the Dodo bird endangered in the 21st century? A meta-analysis of treatment comparison studies. Clinical Psychology Review, 34(7), 519–530. doi:10.1016/j.cpr.2014.08.001 (Marcus, O’Connell, Norris, & Sawaqdeh, 2014)

Alberto Fernández Liria

pajaro_dodoEl pájaro Dodo es un personaje de Alicia en el País de las maravillas que organiza una carrera en la que cada participante corre sin rumbo fijo y que cuando lo da por terminado responde a la pregunta de Alicia sobre quién ha ganado que “todos han ganado” por lo que “hay que dar a cada uno su premio” (Que, por supuesto, tiene que dar Alicia). La paradoja del pájaro Dodo (Las psicoterapias de todas las orientaciones han podido demostrar su eficacia – “todas han ganado” – pero ninguna de ellas ha podido demostrar su superioridad sobre las otras) fue formulada por primera vez por Rosenzweig (Rosenzweig, 1936) en base a sus observaciones, popularizada por Lubosky (Luborsky, Singer, & Luborsky, 1975) en base a su revisión de los trabajos de investigación y certificada por sucesivos meta-análisis. El trabajo que resumimos aquí es el primero en poner a prueba la hipótesis de los resultados equivalentes desde el de Wampold de 1997 (Bruce E Wampold et al., 1997).

Introducción

Los autores justifican su trabajo porque el último meta-análisis que permite sostener la hipótesis de la equivalencia de los resultados de las psicoterapias de todas las orientaciones data de 1997 (Bruce E Wampold et al., 1997), es por tanto, casi simultáneo al llamamiento del grupo de trabajo que desencadenó el movimiento de los tratamientos empíricamente validados(Task Force on Promotion and Dissemination of Psychological Procedures, 1995), y no recoge numerosos y mejor diseñados estudios que se han desarrollado con posterioridad, después de que las revistas científicas y en particular las vinculadas a la APA elevaran el nivel de exigencia para publicar trabajos de evaluación de eficacia mediante la adopción de los criterios CONSORT (Altman et al., 2001) y JARSD (APA Publications and Communications Board Working Group on Journal Article Reporting Standards, 2008).

Revisan la historia de la base meta-analítica de esta hipótesis recordando que:

  • Que los meta-análisis han demostrado que las intervenciones psicoterapéuticas son más eficaces que la ausencia de tratamiento o el placebo
  • Los resultados respecto a si una forma de psicoterapia es más efectiva que otras son más controvertidos
    • Si hubiera una forma de terapia más efectiva que otras para un problema determinado eso indicaría que esa forma que ésta incluye algún componente específico para ello
    • Si no cabrían dos hipótesis
      • Los componentes específicos de todas son igualmente eficaces
      • Lo que son efectivos son los componentes que todas tienen en común. Esta es la hipótesis (Que se considera más plausible y más parsimoniosa para este supuesto) de los factores comunes.
    • La pregunta es importante porque si la hipótesis del pájaro Dodo es correcta, el esfuerzo que se está haciendo en validar empíricamente tratamientos manualizados puede resultar poco úti, y habría que buscar otras vías de investigación (Ver la propuesta de Laska et al (Laska, Gurman, & Wampold, 2013) y la cosiguiente discusión en el monográfico de Psychotherapy de diciembre de 2014 aquí)
    • Los meta- análisis han intentado primeramente poner a prueba esta hipótesis mediante dos estrategias
      • Calcular las magnitudes de efecto de cada tratamiento y compararlas como se hizo en el clásico meta-análisis de Smith y Glass(Smith & Glass, 1977)
        • Tiene el inconveniente de comparar resultados obtenidos por terapeutas con diferente formación, que trabajan con distintos problemas..
      • Estudiar sólo comparaciones directas entre dos formas de psicoterapia. Eso supone agregarlas por tipos de psicoterapia lo que plantea también algunos problemas.
        • Se agregan tratamientos que no son iguales
        • Se juntan resultados sobre problemas diferentes para los que pueden tener eficacias diferentes
      • Estos problemas intentaron resolverlos Wampold y colaboradores (Bruce E Wampold et al., 1997) abordando la cuestión de si aparecían diferencias en las comparaciones entre psicoterapias “bona fide” independientemente de qué tipo de tratamientos eran aplicados, es decir tratando de responder a la pregunta de si había diferencias en alguna comparación, no a la de si una escuela era superior a otras. Utilizaron el test Q de homogeneidad para poner a prueba la hipótesis del pájaro Dodo. Hicieron 4 pruebas comparando diferentes magnitudes de efecto. Todas ellas indicaban mínimas cantidades de heterogeneidad (La mayor del 13%) y ninguna era estadísticamente significativa.

Se han hecho críticas a la metodología de Wampold et al por distintos motivos

  • Incluyeron múltiples magnitudes de efecto derivadas de la misma muestra
  • Incluyeron estudios que usaban estudiantes voluntarios y no muestras clínicas
  • Combinaron evaluaciones a la terminación y de seguimiento
  • Incluyeron medidas primarias y secundarias en las magnitudes de efecto
  • Crits-Cristoph sugirió que si se suprimían los análogos hubieran resultado la terapia cognitivo-conductual superior (proponiendo la hipótesis del contraste cognitivo) (Crits-Christoph, 1997). Wampold et al rebatieron esta hipótesis atribuyéndola un error tipo I (B. E. Wampold, Mondin, Moody, & Ahn, 1997)

Los autores se plantean como un objetivo secundario poner a prueba la hipótesis de Crits-Chistoph (Crits-Christoph, 1997) del “contraste cognitivo” (Los tratamientos cognitivo-conductuales en su conjunto si serían superiores al resto) que habría encontrado apoyo en el meta-análisis de Tolin (Tolin, 2010) aunque no se confirme en el de Baardseth (Baardseth et al., 2013).

Frente a todo ello el trabajo que comentamos se propone:

  • Utilizar el estadístico Q para estudiar la heterogeneidad entre los estudios que comparan dos tratamientos “bona fide”
  • Resolver algunos aspectos débiles del estudio de Wampold(Bruce E Wampold et al., 1997)
    • Analizando separadamente resultados primarios y secundarios
    • Analizando los resultados a la terminación y del seguimiento por separado
    • Incluyendo sólo estudios con pacientes reales
    • Incluyendo una sola magnitud de efecto por meta-análisis

También analizarán por separado los resultados primarios y secundarios y a la terminación y en el seguimiento a la hora de poner a prueba la hipótesis del contraste cognitivo

Método

Mantienen los criterios de inclusión de Wampold et al (Bruce E Wampold et al., 1997) a los que añaden otro sobre la fuente de publicación. Mantienen la definición de Wampold et al de Tratamiento “bona fide” que debe de

  1. Dirigirse a a problemas clínicamente relevantes de forma personalizada para el paciente
  2. Ajustarse a un manual de tratamiento
  3. Citar un enfoque terapéutico establecido
  4. Incluir ingredientes activos para los que hay citas publicadas
  5. Incluir una descripción que incluye la referencia a un proceso psicológico

Los estudios deben tener una asignación de los pacientes aleatoria.y contener los datos suficientes para calcular las magnitudes de efecto. Han excluidos los estudios de componentes por estrategias aditivas o de desmantelamiento y los que comparan con condiciones que sólo incluyen componentes inespecíficos. Han rebajado la exigencia de Wapold de que los terapeutas tengan al menos una titulación de master aceptando graduados con supervisión.

Con estos criterios seleccionaron 48 estudios que incluyen 51 muestras independientes y 8.789 pacientes

Los autores dan una minuciosa cuenta tanto de cómo realizaron la selección como del aparato estadístico utilizado para comparar los efectos haciendo las salvedades antes reseñadas.

En sus análisis, además de la metodología del test Q que indica sólo si las muestras son o no heterogéneas, los autores utilizan el índice I2 que indica el porcentaje de heterogeneidad entre las muestras que se debe a la verdadera heterogeneidad y no al azar, de modo que hasta 25% se considera una heterogeneidad baja y valores del 50% una heterogeneidad moderada. Cuanto mayor es I2 más improbable es que la hipótesis del pájaro Dodo sea cierta(Huedo-Medina, 2006).

Wampold et al (Bruce E Wampold et al., 1997) compararon también las magnitudes de efecto de cada comparación (La media era de 0,21) pero esto sobrestima las diferencias. En este estudio han comparado estas diferencias con las existentes en las medidas pre-tratamiento.

Explican cómo han construido el concepto de “cognitivo” para poner a prueba la hipótesis del contraste cognitivo.

Describen también la estrategia utilizada para intentar minimizar el sesgo de publicación.

Resultados

Descripción de los tratamientos

El número medio de sesiones fue 12 (rango 1-312) de entre 15 y 180 minutos (M = (79.1, SD 30,6). Sólo 3 estudios eran en niños. La mayoría eran terapias individuales, 10 eran de grupo y 4 ambas. 66% de los pacientes eran mujeres. Por diagnósticos eran sobre todo trastornos “neuróticos”). La mayor parte (41) comparaban terapia cognitivo-conductual (TCC) con otra (lo más frecuentemente – 21 – modificación de conducta).

Homogeneidad de las magnitudes de efecto

  • En el pre-tratamiento, como era de esperar las muestras resultaron homogéneas
  • A la terminación
    • Había una heterogeneidad moderada en las medidas primarias que se mantiene intentando controlar outliers y tanto si los resultados se miden con instrumentos autoaplicados como aplicados por el terapeuta.
    • En las medidas secundarias no hay diferencias significativas
  • En el seguimiento
    • La heterogeneidad en las medidas primarias es menor y desaparece si se suprime un estudio de Clark (Clark et al., 2006) et al con medidas de resultado autoaplicadas que se considera outlier.
    • las muestras son homogéneas respecto a las medidas secundarias

Análisis a través de los efectos máximos

Este análisis, que sobrestima las diferencias, muestra también homogeneidad en los grupos pre-tratamiento y muy pequeñas diferencias en medidas primarias y secundarias a la terminación y seguimiento. Utilizan un sofisticado artefacto estadístico para estimar los efectos y resulta que las diferencias a la terminación para las medidas primarias son estadísticamente significativas y también aunque en menor medida en el seguimiento, aunque este efecto se torna casi nulo si se excluye el estudio outlier de Clark (Clark et al., 2006):

Análisis de moderadores

Instrumentan pruebas específicas para detectar moderadores continuos y categóricos.

Ni el tamaño de la muestra, ni el año de publicación, ni el género ni el formato individual o grupal parecen asociarse con mayores diferencias.

El contraste cognitivo

Encuentran 40 estudios que comparan TCC con otras terapias. Encuentran que en medidas primarias a la terminación y en el seguimiento existen

  • Diferencias pequeñas pero estadísticamente significativas
  • Un grado de heterogeneidad pequeño pero estadísticamente significativo.

Realizadas las pruebas correspondientes, para los autores, estos resultados no parecen responder a un sesgo de publicación ni desaparecen con estrategias de “exclusión de un estudio”.

No hay en cambio diferencias en medidas secundarias.

Si se analizan los resultados en función del tratamiento con el que se compara la TCC resulta que ésta

  • A la terminación:
    • La magnitud de efecto fue superior a la psicoterapia psicodinámica y a la terapia interpersonal
    • No a la modificación de conducta, terapia de aceptación y compromiso, y varias terapias misceláneas
  • En el seguimiento:
    • La magnitud de efecto sólo fue superior a la psicoterapia psicodinámica
    • No lo fue a la terapia interpersonal, la modificación de conducta, terapia de aceptación y compromiso, y varias terapias misceláneas

Si se analizan los resultados por tipos de problemas, resulta que:

  • A la terminación
    • La magnitud de efecto fue superior para tratar ansiedad, trastornos del comportamiento alimentario y problemas misceláneos
    • No lo fue para tratar depresión
  • En el seguimiento
    • Resultó superior en depresión

Discusión

Creen que sus resultados aportan nuevos datos para el debate entre la especificidad y los factores comunes

  • A favor de la especificidad está que han encontrado diferencias entre terapias “bona fide”
    • Aunque las diferencias en la magnitud de efecto para los síntomas diana a la terminación son de 0,16 es decir muy pequeños según lo establecido por Cohen.
    • Su significado sería que el tratamiento más eficaz tendría una tasa de éxito de 55% frente a una tasa del 45% para el menos eficaz
  • La hipótesis del pájaro Dodo recibe más apoyo respecto a los resultados secundarios en la terminación y seguimiento y quizás también en los primarios en el seguimiento. Además:
    • Las diferencias encontradas son realmente pequeñas (Y cuanto lo son depende de cómo se ha utilizado el aparato estadístico y cómo se han manejado los outliers) y los resultados son en su conjunto muy parecidos a los de Wampold et al (Bruce E Wampold et al., 1997).
    • No hay diferencias más que en los síntomas diana (Las medidas primarias; hay que recordar que en el análisis de los TCA, incluso el BMI fue considerado una medida secundaria) y no en las de calidad de vida, gravedad o psicopatología e general que son el tipo de resultados que buscan los pacientes.

Los autores creen que habría que revisar por separado los estudios en los que se encuentran mayores diferencias. Se trata de estudios centrados en síntomas muy concretos (tics, crisis de pánico, fobia social…) en los que se comparan intervenciones muy centradas en ellos con otras como terapia de apoyo. En condiciones como la depresión o la ansiedad generalizada las diferencias en la magnitud de efecto son mucho menores. Esto sería congruente con la idea de Westen et al (Westen, Novotny, & Thompson-Brenner, 2004) de que los tratamientos muy cortos y focalizados funcionan con los problemas caracterizados por síntomas específicos y discretos y no con los estados afectivos generalizados (Como la depresión o la ansiedad generalizada)

Respecto a la cuestión del contraste cognitivo creen que lo que resulta de su análisis es que la TCC resulta más efectiva que la psicodinámica para tratar síntomas específicos a la terminación y en el seguimiento, pero que la diferencia es menor de la encontrada por Tolin (Tolin, 2010). También resulta más eficaz que otras terapias en el tratamiento de la ansiedad aunque aquí también las diferencias son mucho menores de lo que planteaba Tolin (0,12 frente a 0.43). Esto puede deberse a la exposición y a que Tolin excluyó las comparaciones con modificación de conducta que también la usan (Nota de AFL: en el comentario sobre el número monográfico de Psychotherapy que se puede encontrar aquí pueden verse propuestas de teóricos de los factores comunes de incluir la exposición como un factor común como la de Lambert y Ogles (Lambert & Ogles, 2014)). No hay diferencias en medidas secundarias o que no sean específicas.

Entre las limitaciones señalan algunas atribuibles al aparato estadístico utilizado a la naturaleza misma del meta-análisis, las fuentes utilizadas, la interpretación de los datos de seguimiento y el tamaño de las muestras de los estudios incluidos.

A este último respecto afirman que incluso utilizando la estimación menos conservadora de d = 0.30 que capitaliza el azar, un estudio de comparación requeriría 175 pacientes en cada rama de tratamiento para lograr un poder de 0,80. Con 40 pacientes por rama el poder es de 0.26. Solo 7 de los estudios incluidos aleatorizaron más de 200 pacientes.

Implicaciones y conclusiones

Los resultados obtenidos sugieren que nos encontramos más de una situación de “ambos/y” que en una de “o/o bien” a la hora de seleccionar y formar psicoterapeutas. Parece que hay algunos aspectos que requieren habilidades específicas mientras que otros responden igual de bien a una variedad de intervenciones. También hay que distinguir entre las situaciones en las que se buscan cambios muy específicos o más globales. Este meta-análisis permite sustentar n alguna medida tanto el modelo más médico como el contextual. En realidad las cosas se plantean casi en los mismos términos en los que las expresó Luborsky en 1975 (Luborsky et al., 1975)

 

 

 

Altman, D. G., Schulz, K. F., Moher, D., Egger, M., Davidoff, F., Elbourne, D., & Lang, T. (2001). The revised CONSORT statement for reporting randomized trials: Explanation and elaboration. Annals of Internal Medicine, 134, 663–694.

APA Publications and Communications Board Working Group on Journal Article Reporting Standards. (2008). Reporting standards for research in psychology: Why do we need them? What might they be? American Psychologist, 63, 839–851.

Baardseth, T. P., Goldberg, S. B., Pace, B. T., Wislocki, A. P., Frost, N. D., Siddiqui, J. R., & Wampold, B. E. (2013). Cognitive-behavioral therapy versus other therapies: Redux. Clinical Psychology Review, 33, 395–405.

Clark, D. M., Ehlers, A., Hackmann, A., McManus, F., Fennell, M., Grey, N., & Wild, J. (2006). Cognitive therapy versus exposure and applied relaxation in social phobia: A randomized controlled trial. Journal of Consulting and Clinical Psychology, 74, 568–578.

Crits-Christoph, P. (1997). Limitations of the Dodo bird verdict and the role of clinical trials in psychotherapy research: Comment on Wampold et al (1997). Psychological Bulletin, 122, 216–220.

Huedo-Medina, T. (2006). Assessing heterogeneity in meta-analysis: Q statistic or I 2 index? Psychological Commons. Retrieved January 07, 2015, from http://psycnet.apa.org/journals/met/11/2/193/

Lambert, M. J., & Ogles, B. M. (2014). Common factors: Post hoc explanation or empirically based therapy approach? Psychotherapy (Chicago, Ill.), 51(4), 500–4. doi:10.1037/a0036580

Laska, K. M., Gurman, A. S., & Wampold, B. E. (2013). Expanding the Lens of Evidence-Based Practice in Psychotherapy: A Common Factors Perspective. Psychotherapy (Chicago, Ill.), 51(4), 467–481. doi:10.1037/a0034332

Luborsky, L., Singer, B., & Luborsky, L. (1975). Comparative studies of psychotherapy. Is it true that “everyone has won and all must have prizes”? Archives of General Psychiatry, 32, 995–1007.

Marcus, D. K., O’Connell, D., Norris, A. L., & Sawaqdeh, A. (2014). Is the Dodo bird endangered in the 21st century? A meta-analysis of treatment comparison studies. Clinical Psychology Review, 34(7), 519–530. doi:10.1016/j.cpr.2014.08.001

Rosenzweig, S. (1936). Some implicit common factors in diverse methods of psychotherapy. American Journal of Orthopsychiatry, 6, 412–415. doi:10.1111/j.1939-0025.1936.tb05248.x

Smith, M. L., & Glass, G. V. (1977). Meta-analysis of psychotherapy outcome studies. American Psychologist, 32, 752–760.

Task Force on Promotion and Dissemination of Psychological Procedures. (1995). Training in and dissemination of empirically-validated psychological procedures: Report and recommendations. The Clinical Psychologist, 48(1), 3–23.

Tolin, D. F. (2010). Is cognitive-behavioral therapy more effective than other therapies? A meta-analytic review. Clinical Psychology Review, 30(6), 710–20. doi:10.1016/j.cpr.2010.05.003

Wampold, B. E., Mondin, G. W., Moody, M., & Ahn, H. (1997). The flat earth as a metaphor for the evidence for uniform efficacy of bona fide psychotherapies: Reply to CritsChristoph (1997) and Howard et al. (1997). Psychological Bulletin, 122, 226–230.

Wampold, B. E., Mondin, G. W., Moody, M., Stich, F., Benson, K., & Ahn, H. (1997). A Meta-Analysis of Outcome Studies Comparing Bona Fide Psychotherapies : Empirically , “ All Must Have Prizes .” Psychological Bulletin, 122(3), 203–215.

Westen, D., Novotny, C. M., & Thompson-Brenner, H. (2004). The empirical status of empirically supported psychotherapies: Assumptions, findings, and reporting in controlled clinical trials. Psychological Bulletin, 130, 631–663.