Research-nieuws

Het STAR*D-schandaal, grootschalig wetenschappelijk wangedrag

American Journal of Psychiatry hoort studie die frauduleuze resultaten rapporteerde in te trekken

Door

22/09/2023

Pinoccioneus in de vorm van een telescoop als symbool voor uitvergrote resultaten die niet kloppen

De STAR*D-studie, die als belangrijke leidraad voor de klinische zorg voor de inzet van antidepressiva bij depressie diende, blijkt een studie die frauduleuze resultaten rapporteerde en een vorm van grootschalig wetenschappelijk wangedrag te zijn.

In 2009 verklaarde NIMH-directeur Thomas Insel over het STAR*D-onderzoek naar de werking van antidepressiva, dat “aan het eind van 12 maanden, met maximaal 4 behandelstappen, ruwweg 70% van de deelnemers in remissie was”. Pigott en collega’s, die de resultaten van de betreffende studie deskundig evalueerden, vatten de werkelijke resultaten in 2010 als volgt samen: “Van de 4.041 patiënten die aan de studie deelnamen, waren er slechts 108 die in remissie kwamen en vervolgens gezond en in de studie bleven tot het einde van jaar één; een gedocumenteerd stay-well-percentage van 3%”. De enige keer dat een STAR*D-onderzoeker werd gevraagd om hierop te reageren, bevestigde hij dat het percentage van 3% dat Pigott en collega’s hadden gepubliceerd juist was.

Van de STAR*D-wetenschappers hadden er van de 12 in totaal, maar liefst 8 banden met Forest, de fabrikant van citalopram, het antidepressivum dat toegediend werd in stap 1. Als de werkelijke resultaten van dit onderzoek het grote publiek ter oren was gekomen dan zou het voorschrijven van deze medicijnen – en de maatschappelijke vraag naar deze medicijnen – absoluut zijn gekelderd.

In werkelijkheid verwijzen kranten helaas tot op de dag van vandaag naar het ‘gefabriceerde’ remissiepercentage uit deze studie als bewijs voor de werkzaamheid van antidepressiva. Helaas blijkt het grootste deel van het publiek en de voorschrijvers van deze medicijnen, niet op de hoogte zijn van de werkelijke resultaten. Mad in America heeft een openbare petitie opgesteld om bij het American Journal of Psychiatry aan te dringen op intrekking van het samenvattende artikel van november 2006 over de STAR*D-onderzoeksresultaten.

Door Robert Whitaker – 20 september 2023

Toen het STAR*D-onderzoek meer dan twintig jaar geleden van start ging, beloofden de onderzoekers van het National Institute of Mental Health dat de resultaten snel zouden worden verspreid om als leidraad te dienen voor klinische zorg. Dit was het “grootste en langste onderzoek dat ooit werd gedaan om de behandeling van depressie te evalueren”, merkte het NIMH op, en nog belangrijker was dat het zou worden uitgevoerd bij “echte patiënten” (zie Real World Patients, RWD, RWE). Verschillende onderzoeken hadden echter al aangetoond dat 60% tot 90% van de “patiënten in de echte wereld” niet konden deelnemen aan industriële onderzoeken naar antidepressiva vanwege uitsluitingscriteria.

De STAR*D onderzoekers schreven: “Gezien het gebrek aan gecontroleerde gegevens [in patiëntengroepen uit de echte wereld], zouden de resultaten van dit onderzoek een substantiële betekenis moeten hebben voor de volksgezondheid en de wetenschap, omdat ze verkregen zijn in representatieve deelnemersgroepen/settings, met behulp van klinische managementtools die makkelijk in de dagelijkse praktijk kunnen worden toegepast.”

In 2006 publiceerden de onderzoekers drie verslagen over de resultaten van STAR*D en het NIMH verkondigde in haar persbericht van november het goede nieuws. “Gedurende het verloop van alle vier niveaus werd bijna 70 % van degenen die zich niet terugtrokken uit de studie symptoomvrij”, liet het NIMH het publiek weten. Hier is een grafiek uit een later gepubliceerde review, getiteld “What Does STAR*D Teach Us“, die dat pad naar “gezond zijn” in kaart brengt:

Figuur 2 — Bron: Gaynes, et al. “What Did STAR*D Teach Us? Results from a Large-scale, Practical, Clinical Trial for Patients with Depression.” Psychiatric Services 60 (2009):1439-1445.

Dit werd de bevinding die door de media werd uitgelicht. Het grootste en langste onderzoek naar antidepressiva onder real-world patiënten had uitgewezen dat de medicijnen werkten. In het STAR*D onderzoek, zo meldde The New Yorker in 2010, was er een effectiviteit van 67% voor antidepressiva, veel beter dan de effectiviteit van een placebo.

Dat was toevallig hetzelfde jaar dat psycholoog Ed Pigott en collega’s hun deconstructie van de STAR*D-studie publiceerden. Pigott had een verzoek ingediend bij de Freedom of Information Act om het STAR*D protocol en belangrijke andere documenten te verkrijgen. Toen hij en zijn collega’s het protocol eenmaal hadden, konden ze de verschillende punten in kaart brengen waarop de onderzoekers van de NIMH van het protocol waren afgeweken om het remissiepercentage op te schroeven. Ze publiceerden patiëntgegevens waaruit bleek dat als het protocol was gevolgd, de cumulatieve remissie 38% zou zijn geweest. De STAR*D-onderzoekers hadden ook verzuimd om de ‘stay-well rate’ aan het eind van een jaar te rapporteren. Pigott en collega’s vonden die uitkomst verborgen in een verwarrende grafiek die de STAR*D-onderzoekers hadden gepubliceerd. Slechts 3% van de 4041 patiënten die aan het onderzoek meededen, bleek in remissie te zijn geraakt en vervolgens gezond te zijn gebleven tot het einde van het onderzoek.

De schending van het protocol en de publicatie van een vervalste “belangrijkste uitkomst” – de 67% cumulatieve remissie – vormen het bewijs van wetenschappelijk wangedrag dat het niveau van fraude bereikt. En toch, terwijl Pigott en collega’s hun artikelen publiceerden om het onderzoek te deconstrueren, hebben de onderzoekers van het NIMH nooit een geluid van protest laten horen. Ze zwegen en dat was ook het geval toen Pigott en collega’s in augustus van dit jaar hun laatste artikel publiceerden in BMJ Open. Daarin analyseerden ze gegevens op patiëntniveau van het onderzoek en beschreven ze opnieuw de schendingen van het protocol die werden gebruikt om de resultaten op te kloppen. Zoals BMJ Open schreef in de sectie ‘Rapid Responses’ van het online artikel: “we hebben de auteurs van de STAR*D studie uitgenodigd om te reageren op dit artikel, maar dat hebben ze geweigerd”.

De enige keer dat een STAR*D-onderzoeker werd gevraagd om te reageren, bevestigde hij dat het percentage van 3% dat Pigott en collega’s hadden gepubliceerd juist was. Grote kranten hebben de bevindingen van Pigott altijd genegeerd, maar nadat Pigott en collega’s hun artikel uit 2010 hadden gepubliceerd, wendde Medscape Medical News zich tot STAR*D-onderzoeker Maurizio Fava voor commentaar. Zou dit cijfer van 3% kunnen kloppen? “Ik denk dat hun analyse redelijk is en niet onverenigbaar met wat we hadden gerapporteerd”, zei Fava.

Dat is inmiddels 13 jaar geleden. De overtredingen van het protocol, die beschouwd worden als een vorm van wetenschappelijk wangedrag, kwamen toen aan het licht. De inflatie van de remissiecijfers en het verbergen van de verbazingwekkend lage stay-well rate werden onthuld. In 2011 publiceerde Mad in America twee blogs van Ed Pigott met details over het wetenschappelijk wangedrag en plaatste documenten online die het bewijs leverden van dat wangedrag. In 2015 publiceerden Lisa Cosgrove en ik, op basis van Pigott’s gepubliceerde werk en de documenten die hij beschikbaar had gesteld, een gedetailleerd verslag van het wetenschappelijk wangedrag in ons boek Psychiatry Under the Influence. De fraude was voor iedereen zichtbaar.

Pigott en collega’s verkregen vervolgens gegevens op patiëntniveau via het RIAT-initiatief (Restoring Invisible and Abandoned Trials) en hun analyse bevestigde de nauwkeurigheid van hun eerdere speurwerk, toen ze het protocol gebruikten om de gepubliceerde gegevens te deconstrueren. De documentatie van het wetenschappelijk wangedrag door Pigott en collega’s heeft dus twee fasen doorlopen: de eerste door hun onderzoek van het protocol en aanverwante documenten en de tweede door hun analyse van de gegevens op patiëntniveau.

Desondanks heeft de American Psychiatric Association (APA) dit wetenschappelijk wangedrag niet publiekelijk erkend. Er is geen oproep geweest van de APA of van academische psychiaters in de Verenigde Staten om de onderzoeken die de opgeblazen remissiecijfers rapporteerden, in te trekken. Er is geen censuur geweest tegen de STAR*D onderzoekers voor hun wetenschappelijk wangedrag. In plaats daarvan hebben ze, voor het grootste deel, hun status als leiders in het vakgebied behouden.

Gezien de gedocumenteerde staat van dienst van wetenschappelijk wangedrag in het grootste en belangrijkste onderzoek naar antidepressiva dat ooit is uitgevoerd, kunnen we maar één conclusie trekken: Binnen de Amerikaanse psychiatrie is wetenschappelijk wangedrag een geaccepteerde praktijk.

Dit stelt de Amerikaanse bevolking voor een uitdaging. Als de psychiatrie geen toezicht houdt op haar eigen onderzoek, dan is het aan het publiek om de fraude bekend te maken en te eisen dat het artikel dat gepubliceerd is in het American Journal of Psychiatry, waarin melding wordt gemaakt van een cumulatief remissiepercentage van 67%, wordt ingetrokken. Omdat STAR*D ontworpen is om de richting aan te geven voor klinische zorg, is het van groot belang voor de volksgezondheid dat dit gebeurt.

Intentie om te misleiden

De World Association of Medical Editors noemt zeven categorieën van wetenschappelijk wangedrag. Twee in het bijzonder zijn van toepassing op deze zaak:

“Vervalsing van gegevens, variërend van fabricage tot misleidende selectieve rapportage van bevindingen en weglating van tegenstrijdige gegevens, of opzettelijke onderdrukking en/of vervorming van gegevens.”
“Schending van algemene onderzoekspraktijken” waaronder “misleidende statistische of analytische manipulaties of onjuiste rapportage van resultaten”.

Het essentiële element in wetenschappelijk wangedrag is dit: het komt niet voort uit eerlijke fouten, maar wordt geboren uit een “intentie om te misleiden”.

In dit geval, toen Pigott en collega’s de afwijkingen van het protocol in de rapportages van STAR*D identificeerden, was de “intentie tot misleiding” van de STAR*D-onderzoekers duidelijk. Door het protocol en andere belangrijke documenten op Mad in America te zetten, maakte Pigott het voor de wetenschappelijke gemeenschap mogelijk om het bedrog zelf te aanschouwen.

Hun recente RIAT-publicatie maakt het mogelijk om een nauwkeurig cijfermatig overzicht samen te stellen van hoe het wangedrag van de STAR*D-onderzoekers, dat zich stap voor stap ontvouwde toen ze in 2006 drie artikelen publiceerden, diende om het gerapporteerde remissiepercentage op te blazen. Dit MIA Report beschrijft deze chronologie van bedrog. Eigenlijk zouden lezers dit verslag kunnen behandelen als een uiteenzetting voor de jury:

Toont het bewijsmateriaal aan dat de samenvattende bevinding van STAR*D, dat er sprake was van een cumulatief remissiepercentage van 67%, een verzinsel was, waarbij dit wangedrag voortkwam uit de wens om het maatschappelijk geloof in de effectiviteit van antidepressiva te behouden?

Het onderzoeksprotocol

Volgens het protocol van STAR*D moeten patiënten die aan het onderzoek deelnemen ten minste “matig depressief” zijn, met een score van 14 of hoger op de Hamilton Depression Rating Scale (ook bekend als HAM-D). Ze zouden bij hun eerste bezoek behandeld worden met citalopram (Celexa, Cipramil) en daarna, gedurende de volgende 12 weken, vijf bezoeken aan klinische ziekenhuizen afleggen. Bij elk bezoek zou een coördinator hun symptomen beoordelen met behulp van een instrument dat bekend staat als de Quick Inventory of Depressive Symptomatology (QIDS-C). Omdat dit onderzoek bedoeld was om de echte zorg na te bootsen, zouden artsen de QIDS-gegevens gebruiken om te bepalen of de dosering van citalopram moest worden aangepast en of ze andere medicijnen moesten voorschrijven die niet in het onderzoek waren opgenomen, zoals medicijnen tegen slaap, angst of de bijwerkingen van citalopram.

Bij elk bezoek aan de kliniek zouden patiënten ook zelf hun symptomen rapporteren met dezelfde meetlat (QIDS-SR). Het QIDS-instrument was ontwikkeld door de STAR*D-onderzoekers en zij wilden controleren of de zelfgerapporteerde scores consistent waren met de QIDS-scores die door clinici werden beoordeeld.

Aan het einde van de behandelingsperiode zouden onafhankelijke “Research Outcome Assessors” (ROA’s) de symptomen van de patiënten beoordelen met zowel de HAM-D17 als de schaal “Inventory of Depressive Symptomatology” (IDS-C30). De primaire uitkomst was remissie van symptomen, wat werd gedefinieerd als een HAM-D score ≤7. Het protocol stelde expliciet:

“De onderzoeksevaluatie van effectiviteit zal berusten op de HAM-D verkregen, niet door de clinicus of klinische onderzoekscoördinator, maar door telefonische interviews met de ROA’s.”

En:

“Er wordt onderscheid gemaakt tussen beoordelingen van onderzoeksuitkomsten en beoordelingen die worden uitgevoerd tijdens kliniekbezoeken. Deze laatste zijn ontworpen om informatie te verzamelen die clinici helpen bij de implementatie van het behandelprotocol. Onderzoeksuitkomsten worden niet in de kliniek verzameld.”

Tijdens deze exit-evaluatie zouden patiënten ook zelf hun resultaten rapporteren via een “interactief stemopnamesysteem” (IVR) met behulp van de QIDS-vragenlijst. Dit zou worden gedaan “om te bepalen hoe deze methode presteerde in vergelijking tot de twee bovengenoemde gouden standaarden.” Het protocol vermeldde verder:

“Het vergelijken van de IDS-C30 verzameld door de ROA en de QIDS16, verzameld door IVR, laat ons toe om te bepalen in welke mate een kortere symptoombeoordeling verkregen door IVR kan vervangen worden door een beoordeling van een clinicus. Als deze kortere beoordeling een beoordeling door een clinicus kan vervangen, wordt de verspreiding en implementatie van STAR*D-bevindingen eenvoudiger. De opname van QIDS16 via IVR is dus gericht op methodologische verbeteringen.”

Na de eerste 12-weken durende proef met citalopram werden patiënten die niet in remissie waren gekomen aangemoedigd om deel te nemen aan een tweede “behandelingsstap”, waarbij ofwel werd overgestapt op een ander antidepressivum of waarbij een ander antidepressivum werd toegevoegd aan citalopram. Patiënten die er tijdens deze tweede behandelingsstap niet in slaagden om beter te worden, konden vervolgens doorgaan naar een derde “behandelingsstap” (waar ze een nieuwe behandelingsmix aangeboden zouden krijgen), en degenen die er in stap 3 niet in slaagden om beter te worden, zouden dan nog een laatste mogelijkheid krijgen om beter te worden. In elk geval zou de HAM-D, afgenomen door een Research Outcome Assessor, worden gebruikt om te bepalen of de depressie van een patiënt was verminderd. Aan het einde van de vier stappen zouden de STAR*D onderzoekers het cumulatieve remissiepercentage publiceren, dat volgens hun voorspellingen 74% zou zijn.

Patiënten die aan het eind van één van de vier stappen in remissie kwamen, werden opgeroepen om deel te nemen aan een onderhoudsstudie van 1 jaar om de terugval- en recidiefpercentages te bepalen voor degenen die aan de antidepressiva bleven. De bestaande literatuur, zo stelde het protocol, wees uit dat het “worst case” scenario was dat 30% van de remissie ervarende patiënten die antidepressiva blijven gebruiken “binnen vijf jaar een nieuwe depressie krijgen”. Ondanks dat bleek het in de praktijk mogelijk dat de terugvalpercentages toch hoger lagen.

“Hoe vaak komen terugvallen voor tijdens een voortgezette behandeling met antidepressiva in de ‘echte’ klinische praktijk?” vroegen de STAR*D onderzoekers zich af. “Hoe lang [zijn in remissie zijnde patiënten] in staat om goed te blijven?”

Kort samengevat stond in het protocol:

Patiënten moesten een HAM-D-score van 14 of hoger hebben om in aanmerking te komen voor het onderzoek.
De primaire uitkomst zou een HAM-D-assessment van symptomen zijn, toegediend door een Research Outcome Assessor aan het einde van de behandelingsperiode. Remissie werd gedefinieerd als een HAM-D-score van 7 of minder.
Het secundaire resultaat zou een IDS-C30-beoordeling van symptomen zijn, die aan het einde van de behandelingsperiode door een onderzoeksuitkomstenbeoordelaar zou worden uitgevoerd.
De QIDS-C zou worden afgenomen bij kliniekbezoeken om beslissingen over de behandeling te sturen, zoals het verhogen van de dosering van medicijnen. Patiënten zouden ook zelf hun symptomen rapporteren op de QIDS-schaal (QIDS-SR) om te zien of hun scores overeenkwamen met de cijfers van de clinici. De twee QIDS-evaluaties tijdens kliniekbezoeken zouden niet worden gebruikt om de studieresultaten te beoordelen.
De QIDS-SR die aan het einde van de behandeling via IVR werd afgenomen, was bedoeld om te zien of het gebruik van deze geautomatiseerde vragenlijst, die slechts zes minuten in beslag nam, de door clinici afgenomen schalen zou kunnen vervangen om de klinische zorg te sturen zodra de STAR*D-bevindingen waren gepubliceerd. De vragenlijst zou niet worden gebruikt om de studieresultaten te beoordelen.
Terugval- en “stay-well”-percentages zouden aan het einde van de follow-up van een jaar worden gepubliceerd.

Hoewel het protocol niets vermeldde over hoe uitvallers zouden worden geteld, vermeldde een artikel uit 2004 van de STAR*D-onderzoekers over de “rationale and design” van de studie dat patiënten met ontbrekende HAM-D-scores aan het einde van elke behandelingsstap “werden verondersteld geen remissie te hebben gehad”.

De STAR*D-documenten waren derhalve glashelder: degenen die tijdens een behandelingsstap afhaakten zonder terug te keren voor een afsluitende HAM-D-beoordeling zouden worden geteld als patiënten die niet in remissie waren.

De gepubliceerde resultaten

Resultaten Stap 1

Trivedi, et al. “Evaluation of outcomes with citalopram for depression using measurement-based care in STAR*D: Implications for clinical practice.” Am J of Psychiatry 163 (2006): 28-40.

In januari 2006 rapporteerden de STAR*D-onderzoekers de resultaten van de eerste fase van de behandeling. Hoewel er 4.041 patiënten waren ingeschreven in het onderzoek, waren er slechts 2.876 “evalueerbare” patiënten. De niet-evalueerbare groep (N=1.165) bestond uit 607 patiënten die een HAM-D-basisscore van minder dan 14 hadden en dus niet in aanmerking kwamen voor het onderzoek; 324 patiënten die nooit een HAM-D-basisscore hadden gekregen; en 234 patiënten die niet terugkwamen na hun eerste bezoek voor de baseline. Gedurende fase één trad remissie op bij 790 patiënten, waarbij hun HAM-D-score daalde tot 7 of minder. De STAR*D-onderzoekers rapporteerden een HAM-D-remissiepercentage van 28% (790/2.876).

Op het eerste gezicht leek dit een zorgvuldige rapportage van de uitkomsten. Er waren echter twee elementen die niet overeenkwamen met het protocol.

Zoals Trivedi en collega’s in hun sectie “statistische analyse” vaststelden, werden patiënten aangemerkt als “niet in remissie” wanneer hun HAM-D-uitgangsscore ontbrak. Bovendien merkten ze op dat “intolerantie vooraf werd gedefinieerd als het verlaten van de behandeling vóór 4 weken of het verlaten van de behandeling op of na 4 weken met intolerantie als de vastgestelde reden”.

Volgens deze twee standaarden hadden de 234 patiënten die niet waren teruggekeerd na hun eerste bezoek, toen ze voor het eerst citalopram kregen voorgeschreven, dus eerder als mislukte behandelingen moeten worden beschouwd dan als patiënten die niet van waarde waren. Ze waren “intolerant” voor het medicijn en hadden het onderzoek verlaten zonder een HAM-D-score. Als de STAR*D-onderzoekers zich aan dit element van hun studieplan hadden gehouden, zou het aantal evalueerbare patiënten 3.110 zijn geweest, wat het gerapporteerde remissiepercentage zou hebben verlaagd tot 25% (790/3.110).

Het tweede tegenstrijdige element in deze eerste publicatie vertelt duidelijker over een “intentie tot misleiding”. In de samenvatting van de resultaten schreven ze:

“Remissie werd gedefinieerd als een uitgangsscore van ≤7 op de 17-item Hamilton Depression Rating Scale (HAM-D) (primaire uitkomst) of een score van ≤5 op de 16-item Quick Inventory of Depressive Symptomatology, Self-Report (QIDS-SR) (secundaire uitkomst).”

Ze presenteerden de QIDS-SR nu als een secundaire uitkomstmaat, ook al vermeldde het protocol expliciet dat de secundaire uitkomstmaat een IDS-C30-score zou zijn, toegediend door een Research Outcome Assessor. Bovendien rapporteerden ze nu remissie door gebruik te maken van de QIDS-SR-score bij het “laatste behandelbezoek” van de patiënt, ook al stelde het protocol expliciet dat “onderzoeksuitkomsten niet worden verzameld in de kliniek”.

Deze overstap naar een QIDS-SR-score vanuit de kliniek maakte het mogelijk om degenen die geen exit HAM-D-score hadden als patiënten in remissie te tellen als hun laatste in-klinische QIDS-SR-score 5 of lager was. Deze afwijking van het protocol voegde 153 personen toe aan hun aantal “in remissie”, zodat op de QIDS-SR schaal werd gezegd dat 33% in remissie was (943/2.876).

De STAR*D-onderzoekers publiceerden zelfs een grafiek van remissiepercentages met de QIDS-SR, waarmee ze de weg vrijmaakten voor de presentatie ervan, toen het cumulatieve remissiepercentage bekend werd gemaakt, als de primaire methode voor het beoordelen van effectiviteitsuitkomsten.

Resultaten Stap 2

Rush, et al. “Bupropion-SR, sertraline, or venlafaxine-XR after failure of SSRIs for depression.” NEJM 354 (2006): 1231-42. En: Trivedi, et al. “Medication augmentation after the failure of SSRIs for depression.” NEJM 354 (2006): 1243-1252.

Twee maanden later publiceerden de onderzoekers van STAR*D twee artikelen met details over de remissiepercentages voor diegenen die er niet in waren geslaagd om met citalopram in remissie te komen en die in de tweede behandelingsstap waren beland (N=1.439).

Eén publicatie berichtte over patiënten die waren gestopt met citalopram en vervolgens werden gerandomiseerd naar bupropion, sertraline of venlafaxine. Er waren 729 patiënten op deze manier behandeld in stap 2. Het remissiepercentage was 21% op de HAM-D-schaal en 26% op de QIDS-SR-schaal. De onderzoekers concludeerden dat “na een onsuccesvolle behandeling ongeveer 1 op de 4 patiënten een remissie van symptomen had na het overstappen op een ander antidepressivum.” Deze conclusie maakte de QIDS-SR tot de voorkeursschaal voor het beoordelen van remissie.

De tweede publicatie vertelde over remissiepercentages bij 565 patiënten die werden behandeld met citalopram aangevuld met bupropion of buspiron. Het remissiepercentage was 30% bij gebruik van de HAM-D en 36% bij gebruik van de QIDS-SR. De onderzoekers concludeerden dat deze twee remissiepercentages “niet significant verschilden”, nog een opmerking om het rapporteren van remissiepercentages met QIDS te legitimeren.

Er waren twee andere afwijkingen van het protocol in deze verslagen over de uitkomsten van stap 2, hoewel geen van beide gemakkelijk te ontdekken was door de artikelen te lezen. De eerste was dat de 931 patiënten die in het stap 1 rapport werden genoemd als “niet bruikbaar”, omdat ze een HRSD-basisscore hadden van minder dan 14 (607 patiënten) of helemaal geen basisscore (324), nu werden meegenomen in berekeningen van de patiënten in remissie. Dit was te zien in een grafiek in het artikel van Rush, waarin stond dat van de 4.041 patiënten die zich hadden ingeschreven voor de trial, er aan het begin van de tweede stap 1.127 waren uitgevallen, 1.475 naar de eenjarige follow-up waren gegaan en 1.439 naar stap 2 waren gegaan. De 931 patiënten kwamen nu simpelweg in één van deze drie categorieën terecht.

Hier is het stroomdiagram uit het artikel van Rush dat dit feit laat zien:

Het opnieuw categoriseren van de 931 patiënten als evalueerbare patiënten resulteerde natuurlijk in een aanzienlijke verhoging van de cumulatieve remissiepercentages. Niet alleen waren 607 mensen niet depressief genoeg om mee te doen aan het onderzoek, maar Pigott en collega’s konden door hun toegang tot gegevens op patiëntniveau ook vaststellen dat 99 patiënten in deze groep op de basislijn al een HAM-D-score van minder dan 8 hadden. Zij voldeden al aan de criteria voor remissie vóór ze hun eerste dosis citalopram toegediend hadden gekregen.

De tweede afwijkende factor was dat patiënten die bij een bezoek aan de kliniek in remissie scoorden op basis van de QIDS-SR en die remissie “ten minste 2 weken” volhielden, vanaf nu ineens beschouwd werden als in remissie zijnde en naar “follow-up” overgingen. Het is bekend dat depressieve symptomen variëren en met deze nieuwe, soepelere standaard kregen patiënten meerdere kansen om als “in remissie” te worden geteld tijdens een behandelingsstap, en dit met behulp van een zelfrapportageschaal die ze al vele keren hadden ingevuld.

Definitieve onderzoeksresultaten

Rush, et al. “Acute and longer-term outcomes in depressed outpatients requiring one or several treatment steps: A STAR*D report.” Am J Psychiatry 163 (2006): 1905-1917.

In november 2006 brachten de STAR*D-onderzoekers een uitgebreid verslag uit van de uitkomsten van zowel de acute fase als de onderhoudsfase van het onderzoek. De protocolafwijkingen, en dus de intentie om te misleiden, zijn in dit rapport duidelijk te zien.

Snelle uitkomsten:

Het gerapporteerde remissiepercentage van 67% was gebaseerd op drie afwijkingen van het protocol en een vierde “theoretische” berekening die 606 uitvallers omzette in denkbeeldige patiënten in remissie.

Het aantal patiënten dat betrokken was bij de protocolafwijkingen kan om deze reden verwarrend lijken. In het samenvattende rapport is het aantal evalueerbare patiënten opnieuw veranderd. Het verslag van stap 1 vermeldde 2.876 evalueerbare patiënten. De rapportage van stap 2 voegde de 931 patiënten zonder een kwalificerende HAM-D baseline score weer toe aan de mix, wat ogenschijnlijk een totaal van 3.807 evalueerbare patiënten opleverde. Maar de uiteindelijke samenvatting spreekt van 3.671 evalueerbare patiënten.

Dus waar komt deze daling van 136 in het aantal evalueerbare patiënten vandaan?

In het rapport over stap 1 verklaarde de Star*D-onderzoekers dat er 234 patiënten waren uit de groep van 4.041 patiënten die niet terugkwamen voor een tweede bezoek en dus niet waren opgenomen in de evalueerbare groep. In deze samenvatting zeggen de STAR*D auteurs dat er 370 in deze groep zitten. Ze geven geen verklaring voor het feit dat het aantal “niet teruggekeerde” patiënten met 136 is toegenomen. (Zie voetnoot aan het einde van dit rapport voor twee mogelijkheden).

Wat betreft de 3.671 evalueerbare patiënten, stelt het artikel dat deze groep is samengesteld uit de 2.876 evalueerbare patiënten die in het stap 1-rapport staan vermeld, plus deelnemers van wie de HAM-D-score bij aanvang minder dan 14 was. De STAR*D-auteurs leggen niet uit waarom ze patiënten die niet depressief genoeg waren om aan de inclusiecriteria te voldoen, meetellen als evalueerbare patiënten. Ook geven ze in dit samenvattende rapport niet aan hoeveel patiënten zich in deze groep bevinden. Ze vermelden ook niet dat ze patiënten hebben opgenomen die geen HAM-D-basisscore hadden.

Wat dus duidelijk is in dit rapport, is dat er opnieuw met getallen wordt gegoocheld. Als de lezer echter de rekensom maakt, wordt het duidelijk dat het aantal van 3.671 evalueerbare patiënten bestaat uit de 2.876 patiënten die evalueerbaar werden geacht in het stap 1-rapport, plus 795 patiënten die geen gekwalificeerde HAM-D-score hadden (van de 931 waarvan aanvankelijk werd gezegd dat ze in deze groep zaten). Wat de STAR*D auteurs in dit definitieve rapport hebben gedaan – om onbekende redenen – is 136 patiënten verwijderen uit de groep van 931 patiënten die geen gekwalificeerde HAM-D-score hadden en ze toevoegen aan de groep “die niet kwam opdagen voor een tweede bezoek aan de kliniek”.

Hoewel de aantallen patiënten zijn veranderd, is het nog steeds mogelijk om een precieze telling te geven, gebaseerd op de nieuwe aantallen in het definitieve samenvattende rapport, van hoe alle drie de protocolafwijkingen het doel dienden om het remissiepercentage op te blazen, en dit op een van de volgende twee manieren deden: ofwel het verhogen van het aantal patiënten dat in remissie was, ofwel het verlagen van het aantal evalueerbare patiënten.

Categoriseren van vroege uitvallers als niet-evalueerbare patiënten

In het rapport over stap 1 stonden 234 deelnemers met baselinescores van 14 of hoger die niet terugkwamen voor een “post baseline” bezoek. Zoals hierboven vermeld, moesten deze patiënten volgens het protocol als mislukte behandelingen worden beschouwd. In hun samenvattend rapport voegden de STAR*D-onderzoekers nog eens 136 patiënten toe aan deze telling van patiënten die buiten beschouwing gelaten konden worden, een verandering die de noemer in hun berekening van een cumulatief remissiepercentage (in remissie zijnde/evalueerbare patiënten) nog verder verlaagt.

Het opnemen van de patiënten die hiervoor niet in aanmerking kwamen in hun telling van patiënten in remissie

In de rapportage over stap 1 werden 931 patiënten uitgesloten van wie de HAM-D-scores bij aanvang minder dan 14 waren (607 patiënten) of ontbraken (324 patiënten). Het uiteindelijke samenvattende rapport bevat 795 deelnemers die niet beschikten over een gekwalificeerde HAM-D-score. Zoals hieronder te zien is, werden uit deze groep van 795 patiënten, die niet voldeed aan de inclusiecriteria, er 570 toegevoegd aan het totaal van patiënten die in remissie waren.

Wisselende resultaatmetingen

De STAR*D-onderzoekers rapporteerden geen HAM-D-remissiecijfers. In plaats daarvan rapporteerden ze alleen remissiecijfers gebaseerd op QIDS-SR-scores verkregen tijdens kliniekbezoeken. Ze rechtvaardigden dit door te verklaren dat “de uitkomsten van QIDS-SR en HRSD17 sterk aan elkaar gerelateerd zijn” en dat QIDS-SR “papier en potlood scores” verzameld tijdens kliniekbezoeken “vrijwel uitwisselbaar” waren met scores “verkregen via het interactieve voice response systeem”.

In het protocol stond natuurlijk:

dat de HAM-D de primaire maatstaf zou zijn voor remissieresultaten
dat QIDS niet gebruikt mocht worden voor dit doel
dat symptoombeoordelingen tijdens kliniekbezoeken niet mochten worden gebruikt voor onderzoeksdoeleinden

De rechtvaardiging die de STAR*D-onderzoekers gaven voor het rapporteren van alleen QIDS-SR-scores suggereerde dat er een gelijkwaardigheid was tussen HAM-D en QIDS. In feite leverde het gebruik van QIDS-SR regelmatig hogere remissiepercentages op. De verklaring presenteerde een valse gelijkwaardigheid aan de lezers.

Met deze protocolafwijkingen als basis voor hun berekeningen, rapporteerden de STAR*D-onderzoekers de volgende remissiepercentages voor elk van de 4 behandelingsfasen.

Zodoende werd gesteld dat het cumulatieve remissiepercentage aan het eind van 4 stappen 51% (1.854/3.671) was.

In hun recente her-analyse rapporteerden Pigott en collega’s welke remissiepercentages er zouden zijn geweest als het protocol was gevolgd. Ten eerste had de evalueerbare groep uit 3.110 patiënten moeten bestaan (4.041 minus de 931 patiënten die geen uitgangsscore HAM-D hadden of geen HAM-D-score van 14 of hoger). Ten tweede hadden HAM-D-scores gebruikt moeten worden om de term remissie te definiëren. Dit is de data:

Als het protocol was gevolgd, zou de cumulatieve remissiewaarde na 4 stappen dus 35% zijn geweest (1.089/3.110). De protocolafwijkingen voegden 765 personen toe aan het “hersteld-kamp”.

Het rapport van Pigott uit 2023 maakt het ook mogelijk om het precieze aantal toegevoegde remissies te identificeren dat voortkwam uit het opnemen van de 931 bij aanvang niet in aanmerking komende patiënten in hun rapporten, en uit het overschakelen op QID’s als primaire uitkomstmaat.

Zelfs na deze kunstgrepen hadden de STAR*D-onderzoekers nog een duwtje in de rug nodig om in de buurt te komen van het voorspelde herstelpercentage van 74%. Om dit te doen, stelden ze zich voor dat als de drop-outs in de studie waren gebleven gedurende alle vier de stappen van de studie en in dezelfde mate remissie hadden vertoond als degenen die wel tot het einde waren gebleven, er nog eens 606 patiënten remissie zouden hebben vertoond. Et voilà, dit leverde een remissiepercentage op van 67% (2.460/3.671).

Deze theoretische berekening, hoe absurd ook vanuit een onderzoeksperspectief, was ook in strijd met het protocol. Degenen die afhaakten zonder een HAM-D-score lager dan 8 werden beschouwd als personen zonder remissie. Deze theoretische berekening veranderde 606 mislukte behandelingen in behandelsuccessen.

Ziehier de definitieve balans van hoe het wangedrag van de STAR*D-onderzoekers een remissiepercentage van 35% veranderde in bijna het dubbele:

Tot zover het verslag van het wangedrag bij het onderzoek dat plaatsvond in de acute fase van de STAR*D-studie. De samenvatting van het overzichtsrapport vertelde over een “algehele cumulatieve remissie”, zonder het theoretische element te noemen. Zoals te zien is in deze schermafbeelding, werd het verzinsel gepresenteerd als een bottom-line result:

Dit werd op zijn beurt het fakenummer dat aan het publiek werd verkocht. Bijvoorbeeld:

Het NIMH noemde dit getal in een persbericht.
De New Yorker, beroemd om zijn feitencontrole, wees op het remissiepercentage van 67% als bewijs voor de werkelijke effectiviteit van antidepressiva.
Een groot aantal opvolgende artikelen in de onderzoeksliteratuur vermeldden dit resultaat.
Een redactioneel artikel uit 2013 in het American Journal of Psychiatry stelde dat in de STAR*D-trial, “na vier geoptimaliseerde, goed uitgevoerde behandelingen, ongeveer 70% van de patiënten remissie bereikten”. Een grafiek toonde deze stay-well rate:

Source: J. Greden. Workplace depression: personalize, partner, or pay the price. Am J Psychiatry 2013;170:578–81.

Meer recentelijk, nadat een artikel van Moncrieff en collega’s voor de zoveelste keer de chemische onevenwichtigheidstheorie van depressie ontkrachtte, haalden verschillende grote kranten, waaronder The New York Times, het 67%-cijfer boven om het publiek gerust te stellen dat ze zich geen zorgen hoefden te maken, want antidepressiva werkten en nog goed ook.

Uitkomsten na één jaar

Er waren 1.518 mensen in remissie die aan het vervolgonderzoek meededen. Het protocol schreef regelmatige klinische bezoeken voor gedurende het jaar, waarbij hun symptomen zouden worden geëvalueerd met behulp van QIDS-SR. Artsen zouden deze zelfrapportagescores gebruiken om hun klinische zorg te sturen: ze konden medicatiedoseringen wijzigen, andere medicijnen voorschrijven en psychotherapie aanbevelen om de patiënten te helpen gezond te blijven. Elke drie maanden werden hun symptomen geëvalueerd met behulp van de HAM-D. Terugval werd gedefinieerd als een HAM-D-score van 14 of hoger.

Dit was de grotere vraag die door STAR*D werd gesteld: Welk percentage van de patiënten met een depressie die werden behandeld met antidepressiva bleef beter? Toch wijdden de STAR*D onderzoekers in het discussiegedeelte van hun eindrapport slechts twee korte alinea’s aan de resultaten na één jaar. Ze rapporteerden geen terugvalpercentages, maar schreven eenvoudigweg dat “terugvalpercentages hoger waren voor degenen die na meer behandelingsstappen in de follow-up kwamen”.

Tabel vijf in het rapport gaf de terugvalstatistieken: 33,5% voor de deelnemers in remissie na stap 1, 47,4% voor stap 2, 42,9% voor stap 3 en 50% voor stap 4. Dit suggereerde in ieder geval op het eerste gezicht dat het terugvalpercentage hoger was voor degenen die na meer behandelingsstappen in follow-up gingen. Op het eerste gezicht leek dit erop te wijzen dat misschien 60% van de 1.518 patiënten hersteld was gebleven volgens het onderhoudsonderzoek na één jaar.

In de discussie en de terugvaltabel werd echter geen melding gemaakt van uitvallers. Hoeveel waren er in het onderzoek tot het einde van één jaar gebleven?

Er was een tweede grafiek die gegevens scheen te bevatten over “terugvalpercentages” over de periode van 12 maanden. Maar zonder een verklaring van de gegevens in de grafiek was het onmogelijk om de betekenis ervan te ontcijferen:

Toen Pigott eenmaal aan het speuren was, kon hij het uitzoeken. De getallen in het bovenste deel van de grafiek gaven aan hoeveel patiënten na drie maanden, zes maanden, negen maanden en één jaar nog steeds gezond waren en deelnamen aan het onderzoek. Met andere woorden, het bovenste deel van deze grafiek gaf een lopend overzicht van terugvallen plus uitvallers. Daarin zaten de uitvallers verborgen.

Voordat Pigott zijn bevindingen publiceerde, nam hij contact op met de biostatisticus van STAR*D, Stephen Wisniewski, om er zeker van te zijn dat hij de grafiek goed las. Wisniewski antwoordde:

“Er kunnen twee dingen gebeuren tijdens de follow-up die invloed hebben op de grootte van het monster dat wordt geanalyseerd. Het ene is dat de gebeurtenis, in dit geval terugval, zich voordoet. Het andere is uitval. Dus de N’s in de loop van de tijd vertegenwoordigen die grootte van de populatie die in de steekproef blijft (dat wil zeggen, niet is uitgevallen of op een eerder moment is teruggevallen).”

Dit was dus het resultaat over één jaar dat de STAR*D-onderzoekers niet inzichtelijk wilden maken. Van de 1.518 patiënten met remissie die deelnamen aan de follow-up, waren slechts 108 patiënten na 12 maanden nog gezond en in het onderzoek. De andere 1.410 patiënten hervielen (439) of haakten af (971).

Pigott en collega’s vatten de resultaten van een jaar als volgt samen toen ze in 2010 hun deconstructie van de STAR*D-studie publiceerden: Van de 4.041 patiënten die aan de studie deelnamen, waren er slechts 108 die in remissie kwamen en vervolgens gezond en in de studie bleven tot het einde van een jaar. Dat was een gedocumenteerd genezingspercentage van 3%.

Het ongepast rapporteren van resultaten over één jaar

De World Association of Medical Editors noemt “onjuiste rapportage van resultaten” als een vorm van wangedrag bij onderzoek. Het verbergen van de sombere langetermijnresultaten past binnen die definitie van wangedrag.

In het protocol verklaarden de STAR*D-onderzoekers dat ze het percentage van “stay-well” na één jaar zouden bepalen. Ze hebben dit cijfer echter niet besproken in hun gepubliceerde verslag van de uitkomsten na één jaar en voor zover MIA weet, heeft geen van de STAR*D-onderzoekers er daarna over geschreven. Het getal van 3% is niet te vinden in psychiatrische handboeken en ook dit resultaat is, voor zover MIA weet, in geen enkele grote Amerikaanse krant gepubliceerd. De enige erkenning door een STAR*D-onderzoeker van deze sombere uitkomst kwam toen “Medscape News” Maurizio Fava vroeg naar de bevinding van Pigott en hij erkende dat het niet “onverenigbaar” was met wat zij hadden gerapporteerd.

Als zodanig hebben de STAR*D-onderzoekers het voor het grootste deel verborgen gehouden voor het publiek en hun eigen beroepsgroep. Het zou waarschijnlijk nooit aan het licht zijn gekomen als Ed Pigott niet zo geobsedeerd was geweest om de ware resultaten van de “grootste en langste trial met antidepressiva ooit” te achterhalen.

Sterker nog, in 2009 verklaarde NIMH-directeur Thomas Insel dat “aan het eind van 12 maanden, met maximaal vier behandelingsstappen, ruwweg 70% van de deelnemers in remissie was”. Hij informeerde het publiek nu dat 70% van de 4.041 patiënten die deelnamen aan het onderzoek beter werd en beter bleef, een verklaring die de grote schaal van de STAR*D-fraude illustreert. Zeventig procent tegenover een werkelijkheid van 3%, dat zijn de cijfers die het publiek moet onthouden wanneer het beoordeelt of er in de rapportage van de resultaten in de STAR*D-studie bewijs is van een “intentie tot misleiding”.

In “Psychiatry Under the Influence” schreven Lisa Cosgrove en ik over de STAR*D-trial als een opmerkelijk voorbeeld van “institutionele corruptie”. Deze corruptie werd aangedreven door twee “invloedsfactoren”: de belangen van de psychiatrische genootschappen en de omvangrijke financiële banden die de STAR*D-onderzoekers met farmaceutische bedrijven hadden.

De American Psychiatric Association, die het best gezien kan worden als een handelsvereniging die de financiële en professionele belangen van haar leden behartigt, heeft antidepressiva lange tijd aangeprezen als een effectieve en veilige behandeling. Nadat Prozac in 1988 op de markt werd gebracht, informeerde de APA, samen met de fabrikanten van antidepressiva, het publiek dat depressie een hersenziekte was en dat de medicijnen een chemische onbalans in de hersenen herstelden. Het voorschrijven van deze medicijnen nam een hoge vlucht in de jaren 1990 en is sindsdien blijven stijgen. Op dit moment gebruikt meer dan één op de 8 Amerikaanse volwassenen dagelijks een antidepressivum.

Institutionele corruptie

De STAR*D-uitkomsten zouden, als ze accuraat waren gerapporteerd, die maatschappelijke overtuiging hebben doen wankelen. Als het publiek te horen had gekregen dat in dit NIMH-onderzoek, dat werd uitgevoerd onder echte patiënten, slechts 35% in remissie kwam, zelfs na vier behandelingsstappen, en dat slechts 3% in remissie kwam en nog steeds gezond was na één jaar, dan zou het voorschrijven van deze medicijnen – en de maatschappelijke vraag naar deze medicijnen – zeker zijn gekelderd. Door hun protocolafwijkingen, hun denkbeeldige remissies bij patiënten die waren uitgevallen, en door het verdoezelen van de resultaten over één jaar, verdraaiden de STAR*D-onderzoekers de resultaten van deze studie tot een verhaaltje over hoe effectief deze medicijnen zijn. Vanuit zakelijk oogpunt beschermden ze één van hun belangrijkste “producten”.

Bovendien beschermden ze door hun wangedrag bij het onderzoek het publieke imago van hun beroepsgroep. Het 67% remissiepercentage vertelde over bekwame psychiaters die, door het uitproberen van verschillende combinaties van antidepressiva en andere medicijnen, uiteindelijk tweederde van alle patiënten hielpen “symptoomvrij” te worden. De patiënten die in remissie waren, voelden zich ogenschijnlijk helemaal goed.

Ook al werd STAR*D gefinancierd door het NIMH, de corrumperende invloed van farmaceutisch geld was nog steeds aanwezig in deze studie. De STAR*D-wetenschappers hadden talloze financiële banden met de fabrikanten van antidepressiva. Hier is een grafiek die Lisa Cosgrove en ik publiceerden in Psychiatry Under the Influence, waarin het aantal van dergelijke banden van de verschillende onderzoekers met farmaceutische bedrijven werd geteld.

In totaal hadden de 12 STAR*D-onderzoekers 151 banden met farmaceutische bedrijven. Van de 12 hadden er maar liefst 8 banden met Forest, de fabrikant van citalopram.

De farmaceutische bedrijven die antidepressiva verkopen, zouden natuurlijk niet blij zijn geweest als hun belangrijkste opinieleiders resultaten publiceerden van een NIMH-onderzoek dat vertelde over resultaten in de echte wereld die zoveel slechter waren dan de resultaten van door de industrie gefinancierde onderzoeken naar hun medicijnen. De werkelijke werkzaamheid die naar voren kwam in het STAR*D-onderzoek was in strijd met de advertenties waarin werd verteld over zeer effectieve medicijnen die depressies op miraculeuze wijze konden verhelpen.

Pluk hier de bedorven vruchten van institutionele corruptie: kranten wijzen tot op de dag van vandaag op het 67% remissiepercentage als bewijs van de werkzaamheid van antidepressiva, terwijl het grootste deel van het publiek – en de voorschrijvers van deze medicijnen – niet op de hoogte zijn van de werkelijke resultaten.

De aangerichte schade

De artikelen die Pigott en collega’s sinds 2010 hebben gepubliceerd, hebben een overzicht gegeven van het wetenschappelijk wangedrag van het STAR*D-onderzoek. Dit MIA-rapport presenteert eenvoudigweg een chronologie van de fraude en, voortbouwend op hun werk, een cijfermatige verantwoording van hoe elk element van het wangedrag de remissiepercentages verhoogde. Het doel van dit MIA-rapport is om de “intentie tot misleiding” duidelijk te maken die aanwezig was in de afwijkingen van het protocol door de STAR*D-onderzoekers, in hun publicatie van een frauduleus cumulatief remissiepercentage en in het verbergen van de uitkomst na één jaar die vertelde over het falen van dit zorgmodel.

Dit wangedrag in het onderzoek heeft buitengewone schade toegebracht aan het Amerikaanse publiek en, dat kan wel gesteld worden, aan het wereldwijde publiek. Aangezien dit het onderzoek was dat bedoeld was om de resultaten bij patiënten uit de echte wereld te beoordelen en om toekomstige klinische zorg te sturen, zou, als de resultaten eerlijk waren gerapporteerd, in overeenstemming met geaccepteerde wetenschappelijke standaarden, het publiek reden hebben gehad om te twijfelen aan de effectiviteit van antidepressiva en dus op zijn minst voorzichtig zijn geweest in het gebruik ervan. Maar de fraude creëerde een klinkende boodschap – 67% remissie bij patiënten in de echte wereld – die voor het publiek een reden was om te geloven in de werkzaamheid ervan en een krantenkop voor de media om te gebruiken als er nieuwe vragen werden gesteld over deze medicijnklasse.

Dit is natuurlijk fraude die in strijd is met de principes van geïnformeerde toestemming in de geneeskunde. Het NIMH en de STAR*D-onderzoekers, met hun promotie van een vals remissiepercentage, begingen een daad die, als een arts zijn of haar patiënt bewust op deze manier zou misleiden, als een medisch misdrijf zou worden beschouwd.

Deze opsomming van aangerichte schade strekt zich uit tot degenen die antidepressiva voorschrijven. Huisartsen, psychiaters en anderen in de geestelijke gezondheidszorg die het beste met hun patiënten voor hebben, zijn door deze fraude misleid over hun effectiviteit bij echte patiënten.

De schade strekt zich ook uit tot de reputatie van de psychiatrie bij het publiek. Het STAR*D-schandaal, zoals het nu bekend wordt, voedt de kritiek van het publiek op de psychiatrie waar het vakgebied zo’n hekel aan heeft.

Ja, en dit lijkt misschien contra-intuïtief, er is nu een mogelijkheid voor de psychiatrie om te benutten. De American Psychiatric Association en de internationale gemeenschap van psychiaters zouden een grote stap voorwaarts kunnen zetten in het herwinnen van het vertrouwen van het publiek als ze zich zouden uitspreken over de STAR*D-fraude en zouden vragen om een intrekking van de gepubliceerde artikelen. Door dit te doen zouden ze laten zien dat de beroepsgroep zich inzet om onderzoeksstandaarden hoog te houden en om het publiek te voorzien van een eerlijk verslag van de “bewijsvoering” voor psychiatrische medicatie.

Als dit echter niet gebeurt, zal de gerechtvaardigde kritiek op het vakgebied alleen maar toenemen. Het zal een voortzetting zijn van de afgelopen 15 jaar, waarin de psychiatrie, door niets te doen, heeft laten zien dat wangedrag in dit domein van de geneeskunde – wangedrag dat het niveau van wetenschappelijke fraude bereikt – acceptabel is, zelfs al berokkent het grote schade.

Een openbare petitie om het samenvattende STAR*D-artikel in te trekken

Omdat we geloven dat dit een zaak van groot belang is voor de volksgezondheid, heeft Mad in America een petitie op change.org geplaatst om er bij het American Journal of Psychiatry op aan te dringen het samenvattende artikel van november 2006 over de STAR*D-onderzoeksresultaten in te trekken. In een artikel uit 2011 over het onderwerp intrekken in een medisch tijdschrift staat het volgende:

“Artikelen kunnen worden ingetrokken als hun bevindingen niet langer betrouwbaar worden geacht vanwege wetenschappelijk wangedrag of dwaling, als blijkt dat er eerder gepubliceerd werk is geplagieerd, of als blijkt dat ethische richtlijnen geschonden werden.. Hoewel intrekkingen relatief zeldzaam zijn, is het intrekkingsproces essentieel om de literatuur te corrigeren en het vertrouwen in het wetenschappelijke proces te behouden.”

In dit geval zijn de feiten duidelijk: het 67% remissiepercentage dat in november 2006 werd gepubliceerd in het American Journal of Psychiatry kan niet langer gezien worden als betrouwbaar als gevolg van wetenschappelijk wangedrag. Bijgevolg is het intrekken van het artikel essentieel voor het corrigeren van de literatuur en het behouden van het vertrouwen in het wetenschappelijke proces. Het artikel stelde vast dat “er geen verjaringstermijn is voor intrekking”.

Bovendien stelt de World Association of Medical Editors in haar “Professionele Gedragscode” specifiek dat “redacteuren publicaties moeten corrigeren of intrekken als dat nodig is om de integriteit van het wetenschappelijke verslag te waarborgen en alle beschuldigingen van wangedrag met betrekking tot het onderzoek, de recensent of redacteur moeten vervolgen totdat de zaak is opgelost”.

En hier is nog een laatste feit dat pleit voor terugtrekking. Het persbericht van het NIMH uit november 2006, waarin werd aangekondigd dat “bijna 70% van degenen die zich niet terugtrokken uit de studie symptoomvrij werden”, bevat bewijs dat het NIMH zelf, of op zijn minst zijn persbureau, werd bedrogen door haar eigen onderzoekers ofwel dat het NIMH de fraude stilzwijgend liet gebeuren.

Ten eerste wordt opgemerkt dat van de 4.041 deelnemers aan het onderzoek er “1.165 werden uitgesloten omdat ze ofwel niet voldeden aan de studievereisten van het hebben van een “ten minste matige” depressie (gebaseerd op een beoordelingsschaal die in het onderzoek werd gebruikt) of ze verkozen niet deel te nemen”. Dus, zo verklaarde het rapport, waren er 2.871 “evalueerbare patiënten”. Het persbureau van het NIMH wist ofwel niet dat 931 patiënten die geen HAM-D-basisscore hadden die voldeed aan de criteria om in aanmerking te komen weer waren toegevoegd aan de mix van remitted patiënten, of het hield dit feit opzettelijk verborgen voor het publiek.

Ten tweede vermeldde het persbericht dat het doel van de QIDS-SR-beoordelingen tijdens kliniekbezoeken was om informatie te geven over de lopende zorg: “Patiënten werd gevraagd om hun symptomen zelf te beoordelen. Het onderzoek toonde aan dat de meeste patiënten met een depressie snel en gemakkelijk hun symptomen zelf kunnen aangeven en de last van hun bijwerkingen in korte tijd kunnen beoordelen. Hun artsen kunnen op deze zelfbeoordelingsinstrumenten vertrouwen voor accurate en nuttige informatie om weloverwogen beslissingen te nemen over de behandeling.” Dit was natuurlijk in overeenstemming met het protocol, dat QID’s voor dit doel zouden worden gebruikt, maar in plaats daarvan werd het gebruikt door de STAR*D-onderzoekers om remissiepercentages te rapporteren in hun samenvatting.

Dit is de mening van Ed Pigott over de oproep tot intrekking: “Ik ben in 2006 begonnen met het onderzoeken van STAR*D en heb samen met collega’s 6 artikelen gepubliceerd die significante wetenschappelijke fouten documenteren in de uitvoering en rapportage van uitkomsten in de STAR*D-trial. Het samenvattende artikel van STAR*D moet duidelijk worden ingetrokken. Dit blijkt misschien wel het beste uit het feit dat de eigen auteurs niet de moed hebben om het te verdedigen. Op grond van hun rechten en de normen van ethische onderzoekspraktijken zouden de auteurs van STAR*D ofwel hun werk moeten verdedigen en moeten wijzen op de fouten in onze heranalyse, ofwel correcties moeten publiceren in het American Journal of Psychiatry en New England Journal of Medicine, waar ze hun 7 hoofdartikelen hebben gepubliceerd. Wat ze niet kunnen verdedigen moet worden ingetrokken.”

Onze hoop is dat door de informatie over deze petitie van Mad in America er een brede verspreiding zal zijn op sociale media, waardoor er een publieke roep om intrekking zal ontstaan die te luid zal worden voor het American Journal of Psychiatry om te negeren. De publicatie van de heranalyse van de STAR*D resultaten door RIAT in een prestigieus medisch tijdschrift is een Rubicon-moment voor de Amerikaanse psychiatrie: of ze trekt het artikel in dat vertelde over een vervalste uitkomst, of ze geeft aan zichzelf en aan het publiek toe dat wetenschappelijk wangedrag en het misleiden van het publiek over onderzoeksresultaten geaccepteerd gedrag is in dit medische vakgebied.

De petitie kan hier ondertekend worden.

***Gepubliceerd op Mad in America, 20 september 2023***

Voetnoot:

Er zijn twee mogelijke verklaringen voor de toename van het aantal van de 4.041 deelnemers die niet terugkwamen voor een tweede bezoek (van 234 in het stap 1-rapport naar 370 in de definitieve samenvatting). Eén mogelijkheid is dat 136 van de 931 patiënten van wie gezegd werd dat ze geen gekwalificeerde HAM-D-score hadden, nooit terugkwamen voor een tweede bezoek en dus in het samenvattingsrapport werden toegevoegd aan deze “niet teruggekeerde” groep en verwijderd uit de 931 groep, waardoor er 795 deelnemers overbleven die geen gekwalificeerde HAM-D-score hadden en wel werden meegeteld bij de evalueerbare patiënten.

Een tweede mogelijkheid is te vinden in het stroomschema voor patiënten dat in het rapport van stap 1 is gepubliceerd. Hier is het:

Je kunt hier zien dat er 4.177 mensen waren die toestemden in het onderzoek te zijn. Vervolgens werden 136 patiënten om de een of andere reden als niet-subsidiabel beschouwd en dus niet meegeteld bij de 4.041 patiënten die deelnamen aan het onderzoek. De 136 niet in aanmerking komende patiënten in de 4.177 zouden echter een eerste screeningsbezoek hebben gehad en zouden, toen hen werd verteld dat ze niet in aanmerking kwamen, niet zijn teruggekeerd voor een tweede bezoek aan de kliniek. Het is dus mogelijk dat de STAR*D-auteurs deze groep van 136 niet in aanmerking komende patiënten, die nooit deelnamen aan het onderzoek, toevoegden aan de “niet teruggekeerde” groep om de noemer in hun uiteindelijke aantal remissies verder te verlagen.

Er zijn dus twee mogelijkheden. De eerste vertelt over een buitengewoon numeriek toeval. Er waren 136 patiënten die niet in aanmerking kwamen voor het onderzoek voordat het begon, en een tweede, andere groep van 136 patiënten die geen HAM-D-score hadden, maar wel werden toegelaten tot het onderzoek maar niet terugkwamen voor een tweede bezoek aan de kliniek. De tweede mogelijkheid gaat over het vervalsen van gegevens, een bijzonder flagrante vorm van wangedrag bij onderzoek.

Vervolgartikel op Mad in America over voortgang: Zie hier

Intentie om te misleiden

Het onderzoeksprotocol

De gepubliceerde resultaten

Het ongepast rapporteren van resultaten over één jaar

Institutionele corruptie

De aangerichte schade

Een openbare petitie om het samenvattende STAR*D-artikel in te trekken

GERELATEERDE ARTIKELENMEER VAN DEZE AUTEUR

Antipsychotica bieden géén klinisch relevant voordeel bij kortdurend gebruik: een overzicht van het bewijs

Richtlijn Depressie brengt patiënten in gevaar bij afbouw antidepressiva ― oproep aan IGJ om in te grijpen

Prenatale oorsprong van liefde en schaamte

Het post-acuut ontwenningssyndroom (PAWS): onderzoek toont aan dat we er weinig van (willen?) weten

Wat betekende de door mij gegeven consent in de praktijk?

GERELATEERDE ARTIKELEN MEER VAN DEZE AUTEUR