Feiten over ROM
Datastroom, privacy en benchmarken
Nienke van Sambeek, Kim de Jong, Liedeke Boekhorst, Marc Verbraak & Arnold van Emmerik
Over Routine Outcome Monitoring (ROM) is het nodige te doen. De Vereniging voor Gedragstherapie en Cognitieve Therapie (VGCt) en de Nederlandse Vereniging voor Gezondheidszorgpsychologie en haar specialismen (NVGzP) hebben een aantal factsheets ontwikkeld om hun leden en het publiek te informeren over ROM. In dit artikel worden deze gepresenteerd. Om het ROM-debat te kunnen volgen is het allereerst belangrijk om te weten waar de ROM-data heengaan, wie ze kunnen inzien en hoe ze beveiligd zijn. De facstheets ROM: waar gaat het heen? en ROM & privacy gaan hierop in en verhelderen een aantal misvattingen. De factsheet Benchmarken op basis van ROM-data verduidelijkt wat benchmarken is, waarom we het doen, en welke methodologische en ethische problemen het met zich meebrengt. Het gelijknamige artikel Benchmarken op basis van ROM-data ten slotte gaat dieper in op de discussie over benchmarken.
Over Routine Outcome Monitoring (ROM) is het nodige te doen. De ontwikkelingen volgen elkaar snel op en de gemoederen lijken zo nu en dan het kookpunt te bereiken. Petities met als titel Stop ROM en Red ROM dagen het veld uit om kleur te bekennen, maar de nuance raakt daarbij nogal eens zoek. Zinniger dan categorisch voor of tegen ROM te zijn, is wat ons betreft reflectie over de vraag hoe ROM zinvol kan worden ingezet, en over waar ROM-data wel en niet geschikt voor zijn. Om daar een mening over te vormen is enige feitenkennis onontbeerlijk. De Vereniging voor Gedragstherapie en Cognitieve Therapie (VGCt) en de Nederlandse Vereniging voor Gezondheidszorgpsychologie en haar specialismen (NVGzP) hebben daarom de handen ineengeslagen om hun leden en het publiek beter te informeren over ROM. De factsheets die de basis vormen van dit artikel, opgesteld door de auteurs, zijn daarvan het resultaat.
Om het ROM-debat te kunnen volgen is het allereerst belangrijk om te weten waar de ROM-data heengaan, wie ze kunnen inzien en hoe ze beveiligd zijn. De facstheets (in dit artikel weergegeven als paragrafen) ROM: waar gaat het heen? en ROM & privacy gaan hierop in en verhelderen een aantal misvattingen. De factsheet Benchmarken op basis van ROM-data verduidelijkt wat benchmarken is, waarom we het doen, en welke methodologische en ethische problemen het met zich meebrengt. Het artikel Benchmarken op basis van ROM-data (laatste paragraaf in dit artikel) ten slotte gaat dieper in op de discussie over benchmarken. De stukken zijn tot stand gekomen op basis van literatuuronderzoek en interviews met diverse experts en belanghebbenden (voor meer informatie en bronnen, zie de webpagina’s: https://www.vgct.nl/themas/rom/thema-rom en http://www.nvgzp.nl/factsheet-rom-en-privacy/).
Zoals gezegd volgen de ontwikkelingen rondom ROM elkaar snel op. Zo werd kort na publicatie van de factsheets besloten tot de oprichting van een kwaliteitsinstituut voor onder meer de doorontwikkeling van ROM, en vond er zelfs een kort geding plaats over ROM en de privacy van patiënten. In hoeverre deze en andere toekomstige ontwikkelingen zullen leiden tot nieuwe feiten over ROM moet worden bezien. Wij hopen dat dit artikel bijdraagt aan een constructieve discussie rondom de ontwikkeling van ROM. Vanuit de gedeelde wens om cliënten betere zorg te bieden, zullen we met elkaar in gesprek moeten blijven over hoe we op een zinnige manier de kwaliteit en effectiviteit van behandelingen kunnen meten.
Factsheet ROM: waar gaat het heen?
Voor we inhoudelijk ingaan op de verschillende toepassingen van ROM, willen we verduidelijken welke route ROM-data afleggen en door wie ze ingezien kunnen worden. De meeste behandelaars weten inmiddels wel hoe ‘rommen’ op hun eigen computer werkt, maar wat er daarna mee gebeurt, is voor velen nog een mysterie. Daardoor zijn veel behandelaars en cliënten ongerust over wat er met de data gebeurt. Kunnen zorgverzekeraars rondneuzen in de gegevens van cliënten? Kunnen cliënten straks de behandelresultaten van hun behandelaar opzoeken? We zochten het voor u uit (zie figuur1).
In figuur1 wordt verhelderd welke route ROM-data nu afleggen. Centraal in het plaatje staat de Stichting Benchmark GGZ, die ROM-data verzamelt en verwerkt om ’transparantie te bieden over behandeluitkomsten’.
Zowel instellingen als vrijgevestigde zorgaanbieders hebben zich per 2017 in de afspraken rond het kwaliteitstatuut verplicht om ROM-data aan SBG te leveren.
Beveiliging van de data
Alle ROM-data die aan SBG worden geleverd, gaan eerst langs zorgTTP, die ervoor zorgt dat de data beveiligd worden. Concreet betekent dit dat zij het burgerservicenummer (BSN) vervangen door een pseudo-BSN, zodat individuen nog wel te onderscheiden en te volgen zijn. Dit is belangrijk om zaken als heropnamen te kunnen meenemen in statistische modellen. ZorgTTP geeft aan dat het om onomkeerbare pseudonimisering gaat. Postcode-informatie —die mensen potentieel makkelijk te identificeren maakt— wordt omgezet in een sociaal-economische status. SBG krijgt op die manier gecodeerde en niet tot personen herleidbare informatie.
ROM als leerinstrument
In het kader van ROM als leerinstrument levert SBG spiegelinformatie aan zorgaanbieders. Hiervoor wordt de zogenaamde Benchmark Rapportage Module (BRaM) gebruikt. Zorgaanbieders kunnen met behulp van BRaM uitkomsten van verschillende behandelaars, teams, en afdelingen of instellingen met elkaar vergelijken. Dit kan een startpunt zijn om verschillen (praktijkvariatie) te onderzoeken en te verkleinen. Uitkomsten op instellingsniveau kunnen ook door de zorgverzekeraar worden ingezien. Zij kunnen per instelling bijvoorbeeld zien voor hoeveel procent van de behandelingen een geldige voor- en nameting is geleverd, maar ook wat de gemiddelde uitkomst is bij mensen met een depressie. Zij kunnen niet op lagere niveaus meekijken, tenzij dat is overeengekomen met de zorgaanbieder. Voor vrijgevestigden is afgesproken dat hun gegevens niet op individueel niveau zichtbaar zullen zijn voor zorgverzekeraars.
Prestatie-indicatoren
In het kader van verantwoording hebben ggz-instellingen een wettelijke verplichting om prestatie-indicatoren aan te leveren. SBG zorgt als gegevensmakelaar voor de aanlevering van een aantal prestatie-indicatoren aan Zorginstituut Nederland, die de informatie openbaar maakt. Een voorbeeld van een op ROM gebaseerde indicator is: ‘de mate van verandering in de ernst van de problematiek bij systematisch gemeten cliënten’. Ook het percentage van behandelingen waarbij systematisch is gemeten, telt als kwaliteitsindicator. Het openbare bestand kan door iedereen worden ingezien, maar zal de gemiddelde zorgvrager weinig zeggen. Daarom is de website www.kiesbeter.nl in het leven geroepen om de ruwe data uit dit bestand naar begrijpelijke informatie om te zetten. Op dit moment is daar nog geen informatie over de ggz te vinden, iets waar verschillende patiëntenverenigingen graag verandering in willen brengen.
In de toekomst gaat SBG ook gegevens leveren aan Vektis, een soort kenniscentrum voor zorgverzekeraars. SBG gaat alleen geaggregeerde data over instellingen leveren. Dat is dus informatie waarover zorgverzekeraars nu ook al via BRaM kunnen beschikken. Vektis voegt hier informatie over kosten en gebruik van zorg aan toe, met als doel ‘efficiënte besluitvorming binnen de zorgmarkt’ te faciliteren.
Factsheet ROM en privacy: de balans
Het ‘rommen’ is inmiddels een bekend begrip onder behandelaars in de ggz. Wat er na het invoeren met de gegevens gebeurt, is vaak minder bekend. In het hierboven weergegeven eerste factsheet over de toepassingen van ROM hebt u kunnen zien welke weg de gegevens afleggen. In dit tweede factsheet gaan we nader in op het begrip privacy in de context van ROM. We hopen u daarmee een kader te bieden voor overzicht in de lopende discussie over de toepassingen van ROM.
Argumenten vóór ROM | Argumenten tegen ROM |
---|---|
Privacy is binnen de datastroom van therapeut naar SBG voldoende te organiseren.’SBG is een glazen huis met een gesloten kluis.’Het (afgeleid) beroepsgeheim is van toepassing en biedt waarborg tegen misbruik.Er geldt een zwaarwegend algemeen belang bij het gebruik van geaggregeerde ROM-gegevens.Er is sprake van oneigenlijk gebruik van het privacy-argument; het probleem is niet de privacy, maar een tekortschietende wettelijke basis. | De Autoriteit Persoonsgegevens geeft aan dat pseudonimiseren niet genoeg is om de privacy te beschermen.Minister Schippers geeft aan dat voorlopig alleen het toestemmingsvereiste de wettelijke basis biedt voor benchmarking op basis van ROM-gegevens.Er is sprake van oneigenlijk gebruik van persoonsgegevens. Vrijwillige toestemming aan de kant van de cliënt verhoudt zich niet tot de verplichting tot doorsturen aan de kant van de zorgverlener.Het gebruik van ROM-gegevens buiten de behandelkamer verbreekt de vertrouwelijkheid van de behandelrelatie. |
Juridisch
De verplichting tot het uitvragen van ROM-gegevens bij cliënten is gebaseerd op twee wetten. De Wet Geneeskundige Behandelovereenkomst (WGBO) regelt deugdelijke verslaglegging, dossierinzage en geheimhouding. De Wet kwaliteit en klachten in de gezondheidszorg (Wkkgz) reguleert kwaliteit van zorg en het toezicht daarop door de Inspectie van de Gezondheidszorg. Rommen valt onder zowel deugdelijke verslaglegging als onder kwaliteit van zorg. Het gebruik van de gegevens past in de geheimhoudingsplicht en staat onder toezicht van de Inspectie voor de Gezondheidszorg.
De gegevens zelf en de procedures rond dataverzameling en dataverwerking vallen onder de Wet bescherming persoonsgegevens (Wbpg). Minister Schippers heeft onlangs —in antwoord op Kamervragen— toegegeven dat er onvoldoende wettelijke grondslag blijkt te zijn om gepseudonimiseerde gegevens zonder toestemming van de cliënt door te leveren aan SBG. Dit komt door een verandering van interpretatie van het juridische begrip ‘redelijkerwijs herleidbaar’ door de Autoriteit Persoonsgegevens (AP).
De uitspraken van de AP zijn overgenomen van, en gebaseerd op, een Opinie van de Europese Artikel29-werkgroep, die zich weer baseert op de komende Europese Algemene Verordening Gegevensbescherming (AVG). In de AVG zijn de privacy-rechten van consumenten, cliënten en patiënten versterkt en de beschermingsverplichtingen van organisaties vergroot.
Factsheet Benchmarken op basis van ROM-data
Wat is het?
Benchmarken is het vergelijken van uitkomsten met een referentiewaarde (vaak een gemiddelde). Dit gebeurt in diverse sectoren, bijvoorbeeld bij operatiecijfers van ziekenhuizen of onderwijsuitkomsten bij scholen. Voor benchmarken in de ggz worden gegevens gebruikt die verkregen zijn door Routine Outcome Monitoring (ROM).
Waarom?
Benchmarken is bedoeld als leerinstrument. Zorgaanbieders met minder goede uitkomsten kunnen zichzelf verbeteren door in gesprek te gaan met zorgaanbieders met betere uitkomsten en zo te leren van elkaar. Er bestaan momenteel aanzienlijke verschillen in de uitkomsten van ggz-aanbieders. Het is belangrijk om die variatie waar mogelijk te verkleinen, zodat cliënten overal de best mogelijke zorg kunnen krijgen.
Wat zeggen de voorstanders? ☺
- Benchmarken met ROM-data is een goed signaleringsmiddel als startpunt om de kwaliteit van psychologische behandelingen van therapeuten of teams te vergelijken en te kunnen verbeteren.
- Er zijn goede methoden om te controleren voor eventuele vervuiling van data.
- Door benchmarkinformatie openbaar te maken krijgen cliënten en financiers meer transparantie over kwaliteit van zorg. Daar hebben ze recht op.
Wat zeggen de tegenstanders? ☹
- ROM-data zijn ongeschikt om de kwaliteit van psychologische behandelingen te vergelijken.
- Benchmarken geeft onjuiste, troebele uitkomsten, het maakt de zorg niet transparanter of beter.
- Benchmarken op basis van ROM-data dient vooral het belang van zorgverzekeraars, de cliënt heeft er niks aan.
Methodologische issues
Er kleeft een aantal methodologische beperkingen aan het vergelijken van psychologische zorg op basis van ROM-data. Een van de belangrijkste is het zogenaamde casemixprobleem: verschillen in uitkomsten weerspiegelen soms geen verschil in kwaliteit, maar een verschil in kenmerken van de cliëntenpopulatie van de zorgaanbieders. Het is belangrijk om hier rekening mee te houden. Dat kan ook, want:
- Groepen hoeven niet volledig vergelijkbaar te zijn om benchmarkgegevens toch als leerinstrument te kunnen gebruiken.
- Door meer variabelen en metingen mee te nemen wordt de informatie beter bruikbaar.
- Het casemixprobleem kan gedeeltelijk worden opgelost met behulp van statistische methoden.
- Bij psychische problemen waarmee veel mensen te maken krijgen (zoals depressie en angst) kan het best worden gecontroleerd voor casemix.
- Bij kleine populaties en populaties met veel comorbiditeit is het moeilijker om te controleren voor casemix en moeten data met voorzichtigheid worden geïnterpreteerd.
Conflicterende doelen
Voor succesvol benchmarken is een veilige leeromgeving nodig, waarin op basis van vertrouwen met elkaar vergeleken kan worden. De gegevens worden echter niet alleen voor leren, maar ook voor verantwoorden en afrekenen gebruikt. ROM-benchmarkgegevens zijn openbaar, als onderdeel van de prestatie-indicatoren die ggz-instellingen aanleveren aan het ministerie van VWS. Het is daardoor voor zorgaanbieders ondoorzichtig in hoeverre benchmarkgegevens een rol spelen in onderhandelingen met zorgverzekeraars. Daarnaast wil het ministerie benchmarkgegevens gebruiken als basis voor toekomstige uitkomstbekostiging. Met de huidige methodologische beperkingen kunnen de gegevens echter niet als harde maat voor kwaliteit worden gebruikt. Wanneer data financiële consequenties hebben voor zorgaanbieders, ontstaat bovendien het risico op vertekeningen van de data door strategisch gedrag van zorgaanbieders (bijvoorbeeld selectie van cliënten). Uitkomstbekostiging op basis van ROM-uitkomsten is daarom niet wenselijk.
De meeste partijen in de ggz, inclusief de VGCt, zijn het er wel over eens dat het belangrijk is om informatie over de kwaliteit van psychologische behandelingen te bieden aan de gebruikers en betalers van zorg. Als beroepsgroep moeten we met elkaar, maar ook met cliënten en zorgverzekeraars, in gesprek blijven over hoe we de kwaliteit van data kunnen verbeteren, waar de data wel en niet geschikt voor zijn en hoe we perverse prikkels in het systeem kunnen beperken.
Artikel: Benchmarken op basis van ROM-data
Al maanden lijkt het bijna nergens anders meer over te gaan in de ggz: Routine Outcome Monitoring (ROM). Zowel via sociale media als vakbladen wordt er hevig gediscussieerd over de manier waarop ROM gebruikt wordt. De pennenstrijd barstte begin dit jaar los na publicatie van een rapport van de Algemene Rekenkamer (2017) over bekostiging van de curatieve geestelijke gezondheidszorg (ggz). Daarin werd onder andere geconcludeerd dat ROM-data nog van onvoldoende kwaliteit zijn om de beoogde uitkomstbekostiging op te baseren. Een aantal zorgprofessionals startte naar aanleiding van dit rapport de petitie Stop ROM (website Stop Benchmark met ROM, 2017), waarop het artikel Red ROM als kwaliteitsinstrument (de Jong et al., 2017) als reactie kwam.
Over het gebruik van ROM voor de individuele behandeling is relatief weinig discussie. Zowel voor- als tegenstanders van ROM lijken het erover eens dat ROM als klinisch instrument zinvol kan zijn, zeker wanneer het flexibel en op maat kan worden ingezet (van Os & Delespaul, 2017). De discussie over ROM spitst zich toe op het onderwerp van benchmarking: het op groepsniveau vergelijken van uitkomsten met een referentiewaarde, meestal een gemiddelde. Benchmarken gebeurt al in diverse sectoren, bijvoorbeeld om operatiecijfers van ziekenhuizen te vergelijken, of onderwijsuitkomsten bij scholen. Het primaire doel van benchmarken is om zorgaanbieders spiegelinformatie te bieden die kan leiden tot reflectie en kwaliteitsverbetering (Oudejans, Spits, & Schippers, 2011). Benchmarken is dus bedoeld als leerinstrument. Zorgaanbieders met minder goede uitkomsten kunnen zichzelf verbeteren door in gesprek te gaan met zorgaanbieders met betere uitkomsten en zo te leren van elkaar. Daarmee kan de zogenaamde ‘praktijkvariatie’ worden verkleind. In de ggz bestaan momenteel aanzienlijke verschillen in de uitkomsten van ggz-aanbieders (de Beurs, Barendregt, & Warmerdam, 2017). Het is belangrijk om die verschillen te verminderen, zodat cliënten overal de best mogelijke zorg kunnen krijgen.
Critici stellen echter dat ROM-data ongeschikt zijn voor het grootschalig vergelijken van uitkomsten van psychologische behandelingen. Zij pleiten daarom voor het stoppen met benchmarken op basis van ROM-data en de landelijke ingevoerde dataverzameling en -verwerking door Stichting Benchmark GGZ (SBG; website Stop Benchmark met ROM, 2017).
De discussie over ROM is vooral een discussie geworden die fundamentele verschillen in visies blootlegt. Hoe kijken professionals aan tegen hun vak? Hoe denken ze over professionele autonomie versus toezicht en controle? In hoeverre geloven zij dat de kwaliteit van hun vak meetbaar is? Bij de VGCt zien we het meten van behandeluitkomsten als een belangrijk ingrediënt van doelgericht behandelen en denken we dat het succes van een behandeling zich onder andere vertaalt in een afname van klachten. We zien ook goede mogelijkheden om de opgetelde uitkomsten van individuele behandelingen te gebruiken voor onderlinge vergelijking en kwaliteitsverbetering. Voor benchmarken worden betrouwbare meetinstrumenten en methoden ingezet die ook in wetenschappelijk onderzoek gebruikt worden en waar cgt-behandelingen hun evidence-based karakter aan ontlenen. Tegelijkertijd zien we ook dat er beperkingen kleven aan benchmarken op basis van ROM-data. We gaan hieronder in op die verschillende bezwaren en sluiten af met een verkenning van oplossingsrichtingen.
Issues met benchmarking: methodologie
De initiatiefnemers van Stop ROM spreken zich kritisch uit over de wetenschappelijke validiteit van ROM als benchmarkinstrument. Een van hun voornaamste, methodologische bezwaren gaat over casemix: het gegeven dat verschillende zorgaanbieders verschillende groepen mensen zien. Denk aan variatie in de demografische gegevens en klinische problematiek van cliënten. Het kan daardoor zijn dat een verschil in uitkomsten tussen zorgaanbieders niet toe te schrijven is aan een verschil in kwaliteit, maar aan het verschil in de behandelde cliëntenpopulatie (Noom et al., 2012). De angst van veel professionals is dat instelling X, die voornamelijk mensen met moeilijk behandelbare problematiek in een achterstandsbuurt behandelt, ‘oneerlijk’ wordt vergeleken met instelling Y, die voornamelijk hoogopgeleide mensen met enkelvoudige problematiek behandelt.
In wetenschappelijk onderzoek wordt by design voor variatie in de cliëntenpopulatie gecontroleerd: mensen worden random toegewezen aan verschillende condities. Bij het vergelijken van groepen op basis van ROM-data die in de klinische praktijk worden verzameld, is deze mate van controle niet mogelijk (Delespaul, 2015). Om te voorkomen dat appels met peren worden vergeleken, wordt een statistische oplossing gebruikt: de casemixcorrectie. Die houdt in dat er een homogene subgroep geselecteerd wordt die op relevante kenmerken identiek is (Stichting Benchmark GGZ, 2016). Nu is het alleen zo dat we niet van alle doelgroepen weten welke kenmerken precies relevant zijn (Noom et al., 2012) en de kenmerken waarvan we dat wel weten worden niet altijd geregistreerd of meegewogen. Kim de Jong is bestuurslid bij de VGCt en als onderzoeker aan de universiteit van Leiden gespecialiseerd in ROM. Zij licht toe: ‘Op dit moment zitten er nog bepaalde variabelen niet in de casemixcorrectie, waarvan we uit wetenschappelijk onderzoek wel weten dat ze regelmatig voorspellend zijn, zoals chroniciteit. Meer, maar vooral dus betere informatie, is belangrijk om het casemixprobleem te verminderen.’ Voor zinnige vergelijkingen is het bovendien belangrijk om alleen op subgroepniveau te vergelijken, bijvoorbeeld door de uitkomsten bij de groep ‘angststoornissen’ met elkaar te vergelijken. Hele instellingen of prakijken met elkaar vergelijken heeft weinig waarde (de Jong et al., 2017).
Hoe kijkt de wetenschappelijke raad van SBG eigenlijk tegen de methodologische problemen van ROM aan? Gert Westert is hoogleraar kwaliteit van zorg aan de Radboud Universiteit, en lid van die raad. Hij stelt: ‘Als je goede methodologische eisen stelt en daaraan voldoet, kun je met rommen onderling vergelijken en leren om te verbeteren. SBG voert uitgebreid tests uit op validiteit en kijkt bijvoorbeeld ook of de aangeleverde data representatief zijn voor de instelling. Dus er wordt wel heel veel statistiek op bedreven en dat vind ik zelf wel overtuigend.’ Gevraagd naar het casemixprobleem geeft Westert aan: ‘Casemix is vooral een probleem bij EPA-problematiek en verslaving, waar mensen chronisch en langdurig in zorg zijn. Dan is het best lastig om goed te voorspellen wat de uitkomsten zouden kunnen zijn van een behandeling en wat die uitkomst eigenlijk moet zijn. Maar als je het hebt over depressie of angststoornissen… dat zijn toch ziektebeelden die beter begrepen worden. Als je bij die stoornissen nog verder corrigeert voor een aantal variabelen, dan kun je heel goed voor casemix corrigeren. Feitelijk doet de SBG dat ook. En doordat de aantallen mensen die voor common disorders behandeld worden zo groot zijn, kun je tot goede vergelijkingen komen.’
De validiteit van benchmarking kan dus toe- of afnemen, afhankelijk van de doelgroep waarmee je werkt en de grootte en homogeniteit van die groep. De setting waarin je werkt maakt daarvoor ook uit. ROM-data van vrijgevestigde zorgverleners kunnen niet op dezelfde manier worden gebruikt als data van instellingen. Hans Kamsma, vicevoorzitter van de LVVP legt uit: ‘Benchmarken om zelf van te leren, bijvoorbeeld in intervisie, kan ook met data van vrijgevestigden en is zeker zinvol, maar om op grotere schaal verantwoord te kunnen vergelijken heb je data nodig met voldoende zeggingskracht. Daarvoor moet de populatie groot genoeg zijn. Als je dan binnen een kleine praktijk gaat kijken, en ook nog eens gaat corrigeren voor casemixvariabelen, kom je nooit aan aantallen die groot genoeg zijn om echt zeggingskracht te hebben. Dan zijn de individuele afwijkingen echt veel te groot.’ Dat is ook de reden dat vrijgevestigde zorgaanbieders alleen op groepsniveau zullen worden vergeleken.
Naast deze puur statistische kwesties rond casemix en zeggingskracht plaatsen de initiatiefnemers van Stop ROM vraagtekens bij de onafhankelijkheid van het onderzoek door SBG, omdat het ‘een door zorgverzekeraars betaalde stichting is en diezelfde zorgverzekeraars ook goed vertegenwoordigd zijn in het bestuur’ (website Stop Benchmark met ROM, 2017). Zij vinden dat de database van SBG voor onafhankelijk onderzoek beschikbaar zou moeten zijn. Directeur van SBG Maarten Erenstein erkent desgevraagd dat onafhankelijk onderzoek nodig is voor een onpartijdig oordeel over de kwaliteit van uitkomstinformatie van SBG. Hier worden door de bestuurspartijen van SBG ook stappen in gezet, zo geeft hij aan.
Benchmarken: met welk doel?
We hebben dus te maken met een grote database aan benchmarkinformatie, die enerzijds een rijke bron van informatie vormt, maar anderzijds nog in ontwikkeling is en methodologische beperkingen kent. Doorontwikkeling en onafhankelijke toetsing moet daar verbetering in brengen. De vraag is nu welk gewicht we aan de genoemde beperkingen moeten toekennen. De experts geven aan dat dit afhangt van het doel waarvoor je de data gebruikt.
ROM-benchmarkgegevens worden momenteel voor verschillenden doeleinden gebruikt. Voor het leren levert SBG zorgaanbieders benchmarkinformatie op basis van hun ROM-data. Verzekeraars kunnen globaal meekijken in deze rapportages. Verder worden benchmarkgegevens ook voor verantwoording gebruikt. Op instellingsniveau zijn benchmarkgegevens openbare informatie, als onderdeel van de verplichte prestatie-indicatoren die ggz-instellingen aanleveren aan het ministerie van Volksgezondheid, Welzijn en Sport (VWS). Benchmarkgegevens worden op instellingsniveau door het Zorginstituut Nederland (ZiN, 2016) openbaar gemaakt, zodat ze ook beschikbaar zijn voor patiënten en financiers. Patiëntenverenigingen willen die gegevens gebruiken om goede keuze-informatie te ontwikkelen voor cliënten en hun naasten (van Venrooij, 2017). Daarnaast wil het ministerie van VWS de benchmarkgegevens in de toekomst gaan gebruiken om bekostiging op te baseren (Algemene Rekenkamer, 2017).
Dat de ROM-benchmarkgegevens zo veel doelen tegelijk moeten dienen is problematisch, omdat die doelen in de praktijk met elkaar botsen. Om te leren is bijvoorbeeld een omgeving nodig waarin mensen zich veilig voelen om van hun fouten te kunnen leren. In een afrekencultuur is die ruimte er niet. Op het niveau van benchmarken als intern leerinstrument lijken de methodologische problemen overkomelijk, juist omdat er geen harde conclusies aan worden verbonden, maar alleen een zoektocht naar mogelijke verklaringen voor verschillen. Kim de Jong: ‘Gegevens hoeven niet 100% vergelijkbaar te zijn om ervan te kunnen leren. Voor verantwoording is het wel problematischer. Daarom willen we dat er zorgvuldig met dit soort gegevens wordt omgegaan.’ De huidige benchmarkgegevens op basis van ROM zijn ongeschikt als harde en enige maat van kwaliteit. Op het moment dat de data wel zo gebruikt gaan worden, zijn hogere methodologische eisen nodig.
Afrekenen met ROM?
Wanneer benchmarkgegevens worden gebruikt om op af te rekenen, ontstaat nog een ander probleem waar veel mensen zich zorgen over maken: er kunnen perverse prikkels ontstaan die leiden tot bias of vertekening van de data. Roland Bal, hoogleraar Health Care Governance aan de Erasmus Universiteit (iBMG): ‘Je kan puur kijken naar of data volledig en bruikbaar zijn. Maar dat zegt natuurlijk niet alles. Je moet je ook afvragen hoe data in de praktijk verzameld worden. En hoe die metingen zelf het systeem beïnvloeden. Aan die vragen wordt vaak voorbijgegaan […] Wanneer derde partijen zoals zorgverzekeraars of de inspectie op basis van ROM-data gaan afrekenen, gaan mensen die scores in de praktijk op een heel andere manier gebruiken. Er is dan in elk geval een risico dat mensen berekenend, strategisch met die ROM-scores omgaan. Dus dan gaat het regime de scores beïnvloeden. Als derde partijen het op zo’n manier gaan inzetten, dan creëer je eigenlijk een pervers systeem.’
Ook psychiater Aartjan Beekman, hoofd van de afdeling psychiatrie van VUmc/GGz in Geest, maakt zich daar zorgen over. Hij licht dit toe aan de hand van een voorbeeld uit het onderwijs: ‘Ik woon in Hilversum, en dat gymnasium bij ons, daar slaagt 99% van de leerlingen. Daar zijn ze enorm trots op en daar maken ze volop reclame mee. Maar ze zorgen er wel voor dat kinderen die een risico zijn helemaal niet binnenkomen, of in de vierde afhaken. Dus ze zorgen ervoor dat de kinderen die uiteindelijk in de zesde uitkomen ook echt een heel grote kans hebben om te slagen. Dat doen ze door goed onderwijs te geven, maar ze doen het dus ook door selectie. En als je in de ggz de financiering af gaat laten hangen van de ROM-resultaten, dan krijg je ook in de zorg die perverse prikkel. En dan ga je natuurlijk zorgen dat je patiënten in zorg krijgt die goed opknappen. We kunnen dat als behandelaars best goed voorspellen. Dus dat zou een heel slechte ontwikkeling zijn.’
Het risico van perverse prikkels is reëel wanneer bekostiging op basis van ROM-data wordt doorgevoerd. Op dit moment worden behandelingen in de ggz door zorgverzekeraars nog op basis van diagnose-behandelcombinaties (DBC’s) afgerekend. Hierdoor is nu de hoeveelheid en snelheid van geleverde zorg leidend bij de zorginkoop. Bij invoering van het stelsel van gereguleerde marktwerking in de ggz in 2008 was het uitgangspunt echter dat zorgaanbieders op kwaliteit zouden gaan concurreren. In de ggz wordt kwaliteit momenteel gebaseerd op drie verschillende uitkomsten: de effectiviteit van de zorg via ROM, de cliëntervaringen via de CQ-index en de veiligheid van de zorg via de Inspectie voor de Gezondheidszorg (IGZ; van Os & Delespaul, 2017). Wanneer uitkomstbekostiging wordt ingevoerd, zouden ROM-gegevens een belangrijke rol gaan spelen bij het afrekenen van zorg. De Algemene Rekenkamer concludeerde in haar eerdergenoemde rapport echter dat de ROM-data nog niet van voldoende kwaliteit zijn om uitkomstbekostiging op te baseren (Algemene Rekenkamer, 2017).
Maarten Erenstein is het daar niet mee eens: ‘Ons empirisch onderzoek naar de kwaliteit van de uitkomstinformatie van SBG is over het algemeen gunstig. Zo bleek uit recent onderzoek een goede betrouwbaarheid van de uitkomsten per zorgaanbieder in termen van stabiliteit over tijd.’ Zowel SBG als ZN wijzen erop dat het rapport van de Algemene Rekenkamer niet berust op empirisch onderzoek, maar op een rondvraag onder sleutelfiguren in het veld. Nemen ze desondanks de conclusies serieus?
Charlotte de Schepper, beleidsadviseur bij Zorgverzekeraars Nederland (ZN): ‘De kritiek wordt door ZN in ieder geval gehoord. We zien dat er door de inzet van vele partijen in het veld al veel bereikt is, maar dat er ook nog beperkingen zijn. Daarom vinden verzekeraars het van belang om de benchmark nog verder door te ontwikkelen, zodat kwaliteit nog beter inzichtelijk wordt.’
We vroegen een zorginkoper hoe zorgverzekeraars benchmarkgegevens momenteel gebruiken. Tomas Göbbels van VGZ geeft aan: ‘We verbinden geen consequenties aan behaalde delta-T-scores. We bespreken met aanbieders ROM-gegevens en vragen hoe we deze gegevens moeten interpreteren. Daar zijn we nog heel voorzichtig mee. Als VGZ willen we op de eerste plaats dat evaluaties plaatsvinden en dat ze ook daadwerkelijk gebruikt kunnen worden in de individuele behandeling. En op het moment dat dit gebeurt, hopen wij er uiteindelijk naartoe te gaan dat je instellingen met elkaar kunt gaan vergelijken, zodat we onze verzekerden naar een plek kunnen sturen waar de kans op herstel het grootst is.’
Zorgverzekeraars lijken nu nog terughoudend om harde consequenties aan ROM te verbinden. Ook omdat ze weten dat dit alleen maar tot weerstand zal leiden in het veld. Is er dan ook enige garantie dat zorgverzekeraars SBG-data voorlopig niet voor de inkoop gaan gebruiken? Erenstein: ‘In de statuten van SBG staat opgenomen dat het doel is dat de uitkomstinformatie gebruikt moet gaan worden bij zorginkoop en -verkoop. Er zijn geen afspraken of garanties dat dit niet gebeurt. De uitkomstinformatie kan nu al een rol spelen bij de inkoop, maar dit moet wel op een creatieve en voor de professionals in de sector herkenbare manier worden ingezet. Plat bekostigen op uitkomst zal verschillen in behandeluitkomst en zorgkwaliteit tussen instellingen eerder groter maken in plaats van kleiner. Een betere weg zou zijn om gerichte afspraken te maken bij de zorginkoop over financiële beloning voor verbetering van de kwaliteit van zorg bij specifieke (diagnostische) doelgroepen in de ggz.’
In de onderhandelingen tussen zorginkopers en het professionele veld lijkt het nu juist aan die herkenbaarheid te ontbreken. Psychiater Beekman: ‘De zorgverzekeraars hebben de data en je merkt dat de getallen op de achtergrond al meespelen in de onderhandelingen over tarieven. Ik vind dat misbruik.’ Omdat er nog geen officiële uitkomstbekostiging is ingevoerd, maar zorgverzekeraars wel al over globale uitkomstdata beschikken, is nu dus een situatie ontstaan waarin niet transparant is of en hoe zorgverzekeraars de ROM-data laten meewegen bij hun zorginkoop. Dat botst met het principe van een veilige leeromgeving die nodig is om succesvol te benchmarken. Het is dan ook niet vreemd dat juist over dit onderwerp overeenstemming is tussen zowel de sympathisanten van Stop ROM als de voorstanders van ROM: afrekenen op basis van ROM-uitkomsten is niet wenselijk.
Hoe nu verder?
We hebben geconcludeerd dat benchmarken op basis van ROM-data vooral problematisch is doordat de cijfers voor verschillende doelen worden gebruikt. Leren, verantwoorden en afrekenen lopen in de praktijk door elkaar. Hierdoor ligt zowel strategisch gebruik van zorgaanbieders als misbruik van zorgverzekeraars op de loer. Hoe kunnen we die ontwikkelingen tegengaan? Daar zijn de meningen van de geïnterviewden over verdeeld. Beekman pleit voor het terugnemen van de regie: ‘Om iets tegen het misbruik van ROM-data door zorgverzekeraars te kunnen doen, moet je zorgen dat je eerst zelf de baas bent over die data en dat je die data deelt als je denkt dat het goed is om die te delen, maar dat het niet automatisch gaat.’
Toch is de vraag of we terug moeten willen naar een situatie waarin zorgaanbieders alleen op vrijwillige basis inzicht geven in hun resultaten. Cliënten vragen immers ook om informatie over de kwaliteit van de ggz (MIND, 2017). De hamvraag is nu of er mogelijkheden zijn om kwaliteitsverbetering, verantwoording en zelfs uitkomstbekostiging op een goede manier samen te laten gaan. Roland Bal ziet meer heil in kwaliteitsverbetering door een verandering in gedrag, cultuur en houding, dan in kwaliteitsbeoordeling waarbij de nadruk op regelgeving en systemen komt te liggen. Hij pleit dan ook voor een focus op benchmarken als leerinstrument. En: ‘Het is belangrijk dat dit in een veilige omgeving gebeurt, dus dat mensen niet het gevoel hebben dat ze worden afgerekend, maar dat ze zich mogen verantwoorden, dat ze mogen leren.’ Daarnaast raadt hij het professionele veld aan om voortdurend met externe partijen zoals de zorgverzekeraars en het ministerie in gesprek te blijven en te erkennen dat je met een gezamenlijk zoekproces bezig bent. Dat zoekproces kan echter niet geheel vrijblijvend zijn: ‘Ik denk dat je wel transparant moet zijn in een democratische samenleving. Iemand die in de publieke sector werkt, moet bereid zijn om uit te leggen wat hij doet en waarom. Maar je wilt je als zorgverlener wel verantwoorden over die zaken waarvan je denkt dat ze van belang zijn. En daar kun je ook wel over in gesprek gaan met patiënten en verzekeraars, om te definiëren wat het gemeenschappelijk belang is.’
Dat is precies wat ook Jan Hazelzet, hoogleraar waardegedreven zorg bij het Erasmus Medisch Centrum, nastreeft. Op basis van de wetenschappelijke literatuur, en in samenspraak met cliënten en zorgverleners, brengt hij in kaart wat per ziektebeeld de belangrijkste uitkomsten van een behandeling zijn (zowel medisch als niet-medisch), zodat die uitkomsten in de behandeling gemeten en gebuikt kunnen worden. Die uitkomsten worden in eerste instantie voor de cliënt gemeten, maar Hazelzet heeft tegen het gebruik van die gegevens voor verantwoording geen bezwaar, integendeel: hij hoopt dat deze uitkomsten de huidige ‘zinloze’ indicatoren gaan vervangen.
Nadat er in de afgelopen tien jaar grote systeemveranderingen in de zorg zijn doorgevoerd —met alle bijkomende administratieve lasten en een veel grotere rol van zorgverzekeraars— lijken de bezwaren van professionals hiertegen steeds meer gehoor te krijgen. In de onlangs verschenen zorgagenda van de Raad voor Volksgezondheid en Samenleving (RVS, 2017) is ‘verantwoording in dienst van verantwoordelijkheid’ een van de belangrijkste kernopgaven die de Raad voor de toekomst ziet. Ze agendeert een zoektocht naar ‘nieuwe en andere vormen van verantwoording afleggen, die in eerste plaats als zinnig en behulpzaam (worden) ervaren (door diegenen) die eraan moeten voldoen’. ‘Die nieuwe vormen zullen gevolgen hebben voor de wijze van sturing door de overheid en controle door toezichthouders. Immers, niet de meetbare resultaten ten opzichte van het gemiddelde staan dan centraal, maar vooral de vraag of er geleerd en vernieuwd is.’
Die vraag zal ook in de verdere ontwikkeling van benchmarken in de ggz centraal blijven staan. Hoe zorgen we dat benchmarken primair een leerinstrument blijft? Als beroepsgroep moeten we met elkaar, maar ook met cliënten en zorgverzekeraars in gesprek blijven over hoe we op een zinnige manier kwaliteit van behandelingen kunnen meten, waar ROM-data wel en niet geschikt voor zijn en hoe we perverse prikkels in het systeem kunnen beperken.