De implementatie van het gebruik van instrumenten om het effect van behandelingen te meten, en om systematische dataverzameling en benchmarking mogelijk te maken in de geestelijke gezondheidszorg, verloopt moeizaam. Professor Willem van Tilburg geeft in het voorwoord van Praktijkboek ROM in de ggz, dat het onderwerp is van dit commentaar, een wel heel naargeestige verklaring hiervoor: ‘Natuurlijk speelt daarbij ook weerstand tegen veranderingen in het algemeen of zelfs gebrek aan discipline een rol, maar dat zijn slechts oppervlakkige symptomen van een dieper gebrek aan motivatie, gebaseerd op gebrek aan vertrouwen dat het een zinnige activiteit (bedoeld wordt systematische dataverzameling, KH) is of zelfs wantrouwen: het zou wel eens nadelig of schadelijk kunnen zijn voor zowel patiënt als behandelaar.’ Willem van Tilburg is een gewetensvolle en sympathieke hoogleraar in de psychiatrie. Zou het echt zo erg zijn?
ROM en benchmarking worden in de wereld van medische professionals als een noodzakelijk kwaliteitsinstrument gezien en niet ten onrechte. We weten dat door benchmarking van bepaalde chirurgische ingrepen –waarbij de risico’s en sterftekans in kaart zijn gebracht– er grote verschillen tussen chirurgen, chirurggroepen en ziekenhuizen zichtbaar zijn geworden. Zo werd duidelijk dat voor bepaalde operaties, zoals galgangcorrecties na een beschadiging bij een galblaasoperatie, aneurysma van de aorta of pancreaskanker, de sterftekans per ziekenhuis tot tientallen procenten kan verschillen. Het is aannemelijk dat er ook in de ggz verschillen zullen zijn in behandelresultaat en in complicaties bij een bepaalde behandeling. Onvoorstelbaar is dat we het gewoon helemaal niet weten.
Een verklaring daarvoor zou kunnen zijn dat behandeling in de ggz nog steeds achter gesloten deuren plaatsvindt en dat de ggz-professional allerlei praatjes verkoopt over privacy en eigenheid van de individuele patiënt om dat zo te laten. In de somatische geneeskunde is het ondenkbaar chirurg te worden zonder eindeloos op de vingers gekeken te zijn door opleiders en supervisoren. Maar nu naar het boek.
Het Praktijkboek ROM in de ggz, geschreven door autoriteiten uit de psychiatrie, schept verwachtingen. Maar al in het voorwoord van de redactie rijzen de eerste vragen. Daar wordt gesteld dat Routine Outcome Monitoring, Routine Outcome Measurement (ROM) en het gebruik van meetinstrumenten door elkaar gebruikt worden. Een niet goed te verdedigen uitgangspunt. Het eenmalig gebruik van een meetinstrument heeft op zich geen toegevoegde waarde voor de resultaatmeting. Het dient alleen om de eventuele ernst van de klachten of de stoornis vast te stellen. Bij Routine Outcome Measurement gaat het om het zorgvuldig meten van de effecten van interventies van een behandeling. Bij Routine Outcome Monitoring gaat het om herhaalde metingen waardoor tijdens de behandeling de effectiviteit van een interventie kan worden vastgesteld, waarna bijstelling van de behandeling bij onvoldoende vooruitgang kan volgen. De systematische verzameling van behandelresultaten moet vervolgens beschikbaar zijn voor vergelijking met de resultaten van eerdere behandelingen, de behandelingsresultaten van collegae en die van andere instellingen. Dit benchmarken heeft geleid tot het vaststellen van de eerdergenoemde verontrustende verschillen in de resultaten van de behandeling in de somatische gezondheidszorg.
De inhoud van het boek
Het boek is opgebouwd uit vijf delen. In deel 1 wordt een algemene inleiding over meetinstrumenten, implementatie daarvan en effectief feedback geven besproken. Deel 2 handelt over gebruik van meetinstrumenten in verschillende settingen. In deel 3 wordt de implementatie van de meetinstrumenten in de diverse settingen besproken. Deel 4 gaat over ICT-toepassingen. Het boek eindigt met een hoofdstuk over ROM en onderzoek, en een hoofdstuk met kanttekeningen bij het (extern) gebruik van ROM.
In hoofdstuk 1 Gebruik van meetinstrumenten in de dagelijkse praktijk, wordt op bladzijde 5 een wel heel oude koe uit de sloot gehaald: behandelingen in RCT’s zouden afwijken van behandelingen in de praktijk van alledag. Een illustratie hiervan doet de lezer twijfelen of hij de tekst wel goed begrijpt: in de dagelijkse praktijk zou het innemen van medicijnen niet goed worden nagegaan (waarom niet?) terwijl dit bij wetenschappelijk onderzoek wel gebeurt. Begrijpen we het goed: de praktijk van alledag laat een minder goed resultaat zien omdat bij onderzoek de behandeling zorgvuldiger, lees: beter, plaats zou vinden? Welnu, zou je denken, dan lossen we dit kwaliteitsprobleem gelijk maar even op. Behandelingen in de dagelijkse praktijk moeten kwalitatief gelijkwaardig zijn aan in het kader van wetenschappelijk onderzoek uitgevoerde behandelingen. Jawel, en daar zijn nu de richtlijnen voor ontwikkeld. Sterker nog, als de richtlijnen gevolgd zouden worden door deze beroepsgroep had dit boek niet geschreven hoeven worden. Daar immers alle richtlijnen voorzien in een adequaat toepassen van meetinstrumenten om de outcome vast te stellen, zijn de meetinstrumenten al geselecteerd. Bij gebruik van de richtlijnen zouden deze instrumenten al geïmplementeerd zijn en zou er ook al aan systematische dataverzameling gedaan worden.
De auteurs stellen vervolgens dat richtlijnen niet goed op te volgen zouden zijn. Gaarne brengen we het voorwoord van Van Tilburg nog eens onder de aandacht: zou het niet volgen van richtlijnen veroorzaakt kunnen worden door een gebrek aan discipline, gebrek aan vertrouwen of wantrouwen? Of misschien door gebrek aan kennis? Op pagina 16 neemt de openhartigheid van de auteurs groteske vormen aan wanneer ze stellen: ‘… omdat niemand de wetenschappelijke ontwikkelingen, zelfs niet op deelgebieden, nog zelf bijhoudt en op hun merites beoordeelt.’ Het staat er echt op pagina 16. Mag ik behandeld worden door een professional die nog wel zijn literatuur bijhoudt, alstublieft. De auteurs tonen hier en daar ook een wel bijzonder naïeve instelling met betrekking tot het beantwoorden van vraagstellingen door middel van wetenschappelijk onderzoek. Zo wordt op pagina 34 als voordeel van systematische dataverzameling genoemd dat daarmee ‘… onze kennis over wat werkt bij welke patiënt een enorme vlucht’ kan nemen. Een dergelijke uitspraak lijkt inderdaad alleen gedaan te kunnen worden als men de wetenschappelijke ontwikkeling niet bijgehouden heeft. Zelfs niet op het deelgebied predictie van outcome en predictoren van outcome. Anders hadden onze redacteuren wel geweten dat met bakken data geen antwoord gevonden zal worden op de vraag ‘wat werkt bij welke patiënt’ als bij het daarop toegespitste wetenschappelijk onderzoek nauwelijks relevante predictoren van outcome geïdentificeerd konden worden.
Merkwaardig is de opvatting van de auteurs dat er een soort keuzevrijheid zou bestaan bij de bepaling van het meetinstrument. De auteurs stellen voor het meetinstrument binnen de organisatie bottom-up te bepalen. Wat een onzin. De wetenschap heeft vastgesteld welk meetinstrument geschikt is. Indien er verscheidene gelijkwaardig zijn, bepalen kostprijs en gebruiksvriendelijkheid voor de patiënt de keuze. Niks bottom-up dus.
Het hoofdstuk over effectieve feedback kan rustig overgeslagen worden. Een ratjetoe van meningen dat enthousiaste therapeuten de moed in de schoenen doet zinken. De titel gaf het al aan: De kunst van het effectief feedback geven: Waarom weten niet altijd tot verbeteren leidt. Het staat er echt.
Mogelijk vraagt u zich af: is er wel iets goed aan dit boek? Jawel. De praktijk van het meten wordt mooi geïllustreerd in de hoofdstukken 4, 5 en 6. Wat helaas niet vermeld wordt, is een uitspraak over of dat meten ook behoorlijk lukt. Nergens vinden we een wetenschappelijk verantwoorde verslaglegging van de resultaten. Hoe vaak is het gelukt om een complete dataset te verkrijgen, uitgedrukt in percentage van de deelnemende patiënten? Dat is immers de enige maat voor een succesvolle implementatie van meetinstrumenten, Routine Outcome Measurement, Routine Outcome Monitoring of benchmarking.
Een naargeestig afsluitend hoofdstuk
Meestal hebben auteurs van een boek een bepaalde affiniteit met hun onderwerp. In dit geval bestaat daar wel enige twijfel over, getuige het laatste samenvattende hoofdstuk.
Gaarne geef ik enige citaten:
‘De vraag of het gebruik van meetinstrumenten de kwaliteit en de effectiviteit van behandelingen verhoogt is nog niet volledig (sic) beantwoord’ (p. 190). Beste redactie, graag een wetenschappelijke verantwoording van deze uitspraak. In uw lijst van referenties noemt u niet minder dan zeven publicaties van Lambert over de relatie tussen meten en outcome. Hebben de auteurs deze gelezen of vallen deze publicaties in het gebied dat niet langer bijgehouden wordt en niet meer op zijn merites wordt beoordeeld? Gelukkig geven de auteurs twee regels verder een nadere uitleg: ‘… mogelijk helpt het (gebruik van meetinstrumenten, KH) vooral niet bij patiënten bij wie effecten tot nu toe uitbleven…’ Klare taal dus: het gebruik van meetinstrumenten vergroot het effect van de behandeling niet bij patiënten bij wie de behandeling überhaupt geen effect heeft. Dat u het maar weet.
De professional wordt nadrukkelijk gewaarschuwd voor de gevolgen van benchmarking (p. 190): ‘Als de resultaten achterblijven bij wat in andere organisaties wordt gevonden, zijn de consequenties nog niet goed te overzien. Het is niet denkbeeldig dat de meer mondige en eisende patiënten de instelling of de persoon in recht zullen aanspreken op het indiceren van een niet-geïndiceerde behandeling of het achterblijven of uitblijven van de resultaten.’ Een behandeling is niet adequaat, de patiënt maakt bezwaar en dat moet voorkomen zien te worden. Hoe durven ze, die patiënten, zomaar eisen dat ze een adequate behandeling krijgen. Proberen onder de pet te houden dus.
‘Het inzichtelijk maken van de resultaten voor individuele patiënten behoeft aparte aandacht. De patiënt kan er hopelozer van worden, of zich schuldig gaan voelen’ (p. 190). Niet te geloven: alsof de psychiatrische patiënten er zelf niet achter komen dat een zinloze, onjuist geïndiceerde behandeling totaal niet helpt.
En wat te vinden van deze opmerking op pagina 190: ‘Wat we nog niet weten is wat het effect is op patiënten als de scores steeds (sic) worden vergeleken met een norm, een norm voor wat “normaal” is, of een norm voor wat een “normaal” beloop is. Het gevaar bestaat dat behandelen gaat betekenen “voldoen aan normen” en leidt tot “zorgen dat” in plaats van “zorgen voor”.’ Behandelen betekent dat het resultaat dient te voldoen aan bepaalde kwaliteitseisen. Dat soort normen dus. Dat vaststellen, beste redactie, is nu waarom meten, ROM en benchmarking noodzakelijk zijn.
‘Wat gebeurt er als effecten van behandelingen worden gebruikt om instellingen en afdelingen te beoordelen of te rangordenen? Immers, bij een benchmark is er altijd één de beste en één de slechtste’ (p. 192). Dat is nu juist de bedoeling. De gevonden verschillen moeten leiden tot een diepgaande analyse van de werkwijze op de betrokken afdeling. Wanneer zou blijken dat de ongunstige behandelresultaten een gevolg zijn van bijvoorbeeld het feit dat de behandelaars geen tijd meer hebben hun vakliteratuur bij te houden (p.16) of er geen behoefte aan hebben om zich te houden aan de professionele richtlijnen, zou ik zeggen: wegwezen met die kliniek of afdeling en aangifte doen bij inspectie en tuchtcollege. Daar is de redactie het niet mee eens: ‘Essentieel is dat het systeem niet gebruikt wordt om alleen in de gaten te houden of te controleren of patiënten (wel, KH) verbeteren’ (p. 192). De benchmark is er natuurlijk juist wel om de boel in de gaten te houden. En ervoor te zorgen dat middels feedback naar instellingen tot wezenlijke kwaliteitsverbeteringen gekomen wordt en patiënten adequaat behandeld zullen worden.
‘Het is niet denkbeeldig dat het gebruik van ROM-gegevens voor deze doeleinden het invullen van beoordelingslijsten door behandelaars gaat beïnvloeden. Wij weten het niet maar het zou kunnen’ (p. 192). Bedoeld wordt dat deze behandelaars zouden kunnen gaan frauderen. Goede morgen. We hebben het over een beroepsgroep die privacy en ethiek hoog in het vaandel heeft staan. Gelukkig hebben de auteurs de oplossing. Niet, zoals u zou denken, worden frauderende professionals ontslagen en eventueel vervolgd. Nee: ‘Als dat zo is moet er toe worden overgegaan om het beoordelen van patiënten door een onafhankelijke derde te laten doen’ (p. 192). Voor de duidelijkheid: datasets geleverd door hoogopgeleide professionals zijn mogelijk ongeschikt voor onderzoek en benchmarking, als gevolg van de kans op frauduleus invullen door die professionals. Er moeten onafhankelijke personen aangesteld worden die niet zullen frauderen. Heeft u ook zo’n verlangen om tot die groep professionals te behoren?
Tot slot
Na lezing van het boek was ik niet vrolijk. We weten dat benchmarking in de somatische geneeskunde enorme verbeteringen heeft opgeleverd. Benchmarking in de ggz gaat vast en zeker ook dit soort gegevens opleveren. Natuurlijk gaan patiënten in de ggz niet zo vaak dood als gevolg van niet optimaal behandelen. Maar wanneer mortaliteit wordt vervangen door levenslange invaliditeit is ook in de ggz benchmarking goed mogelijk. Het uitvoeren van low-frequencybehandelingen en de ongunstige resultaten ervan zal een van de eerste drama’s zijn die zichtbaar worden. Ik durf de stelling aan dat wanneer een psychiater of een cognitief gedragstherapeut maar eens per twee of drie jaar een patiënt met een obsessieve-compulsieve stoornis of een borderline persoonlijkheidsstoornis behandelt, deze patiënt een bijzonder kleine kans heeft te verbeteren. We weten dat bij gespecialiseerde behandelaars in gespecialiseerde settings (high frequency) meer dan de helft van dergelijke patiënten geheel of vrijwel geheel herstelt. Benchmarking zal dit gegeven zo boven tafel brengen, met als gevolg grote organisatorische veranderingen en een enorme verbetering van behandelingsresultaten.
De slotconclusie na lezing van dit boek is nogal verdrietig: het boek deugt niet. Naast allerlei algemeenheden over meetinstrumenten is het boek een lange litanie over moeizame implementatie, over drempels, valkuilen, waarschuwingen voor gevaren, misbruik en mogelijk zelfs onwenselijkheid van transparantie in de zorg en van benchmarking.
Toch is het verschijnen ervan interessant. Het geeft openhartig naargeestige opvattingen van veel professionals weer. Zoals Willem van Tilburg in zijn Ten geleide schrijft: ‘Weerstand tegen verandering, gebrek aan discipline, gebrek aan motivatie, gebrek aan vertrouwen of zelfs wantrouwen.’ En dan is het plotseling een eerlijk boek, waarin de redactie en de auteurs ons een kijkje hebben gegeven in de wereld van sommige professionals in de ggz: ik werk in mijn gesloten kamer, wat ik doe is het beste voor mijn patiënten en ik heb interessant werk. Effectmeting, transparantie van de resultaten en benchmarking is voor professionals zoals ik, met zo’n ‘hoge’ kwaliteit van behandelen, niet nodig.
Referentie
V.J.A. Buwalda, M.A. Nugter, J.A. Swinkels & C.L. Mulder (Red.) (2011). Praktijkboek ROM in de ggz: Een leidraad voor gebruik en implementatie van meetinstrumenten. Utrecht: Uitgeverij de Tijdstroom. 208 pp., €44,-, ISBN 9789058981851