In der Flut von Studien verlässliche Informationen finden

Evidenzbasierte Medizin

Praxisrelevante Richtlinien für Ärzte ändern sich immer rasanter. Das macht es nötig, laufende Publikationen und Neuerungen auf ihre Verlässlichkeit screenen zu können. Welche Werkzeuge die evidenzbasierte Medizin dafür bietet und wie Kennzahlen, Konfidenzintervalle und weitere statistische Werte eingeschätzt werden können, präsentierte Dr. Anna Glechner, Krems, beim ALLGEMEINE+ Winterquartett.

Was ist evidenzbasierte Medizin?

Im klinischen Alltag sind Ärzte mit einer Vielzahl von Entscheidungen konfrontiert. Diese Entscheidungen basieren im Idealfall auf drei Komponenten: der klinischen Erfahrung des Arztes, den aktuellsten wissenschaftlichen Erkenntnissen und den Patientenbedürfnissen (Abb.1). Die evidenzbasierte Medizin (EbM) vereint diese drei Säulen der klinischen Entscheidung.1 In Situationen, in denen einer oder zwei dieser Faktoren fehlen, müssen im klinischen Alltag jedoch trotzdem Entscheidungen getroffen werden. Dies bedeutet, dass bei Fragestellungen, zu denen keine verlässliche wissenschaftliche Evidenz vorhanden ist, klinische Erfahrung und Patientenpräferenzen den Ausschlag geben werden.

„Up to date“ bleiben in der Medizin: Wie geht das?

Es ist eine große Herausforderung, auf dem aktuellen Stand der Wissenschaft zu bleiben, denn die Halbwertszeit medizinischer Erkenntnisse betrug einer Schätzung zufolge im Jahr 2010 etwa 3,5 Jahre, d.h., etwa alle 3,5 Jahre ist die Hälfte des Wissens und Handelns überholt und wird durch neue Erkenntnisse ersetzt.2 Neue Medikamente und Untersuchungsgeräte kommen auf den Markt und werden von Pharmafirmen mit aktuellen Studienergebnissen angepriesen.Um Studien kritisch zu hinterfragen braucht es einiges an Übung und eine Zusatzausbildung, welche im Medizinstudium häufig zu kurz kommen. Wichtig ist daher zu wissen, welche verlässlichen Quellen es gibt. Die erste Quelle für Ärzte sind Leitlinien oder Point-of-CareTools, wie die EbM-Guidelines für Allgemeinmedizin, „UpToDate“ oder „DynaMed“.3 Wenn Fragen in Leitlinien unbeantwortet bleiben, bieten systematische Übersichtsarbeiten eine gute Übersicht, denn sie fassen alle Studien für eine spezifische Frage zusammen.

Leitlinien kritisch bewerten – ein Crashkurs

Leitlinien enthalten Empfehlungen für die Praxis, die auf Studienergebnissen basieren. Wenn es zu wichtigen Fragen keine Studien gibt, dann müssen im klinischen Alltag trotzdem Entscheidungen getroffen werden. In diesem Fall basieren Empfehlungen aus Leitlinien auf einem Expertenkonsensus. Leider entsprechen nicht alle Leitlinien den grundlegenden Qualitätskriterien.4 Einige wichtige Kriterien können Ärzten helfen zu erkennen, ob es sich um qualitativ hochwertige Leitlinien handelt.5

I. Wurden alle relevanten Studien zu einem Thema erfasst?

In gut gemachten Leitlinien wird systematisch in mehreren Datenbanken nach Literatur gesucht. Alternativ dazu werden in den Empfehlungen hochwertige systematische Übersichtsarbeiten zitiert. Systematische Übersichtsarbeiten fassen alle relevanten Studien zu einer bestimmten Frage zusammen (siehe unten).

II. Wurde die Qualität der Studien bewertet?

Basiert die Empfehlung auf gut gemachten Studien oder haben wir es mit Studien zu tun, die methodische Mängel aufweisen?

III. Wurden Handlungsoptionen unter Berücksichtigung von Nutzen und Risiken dargestellt?
IV. Beinhaltet die Leitlinie Empfehlungs- und Evidenzgrade?

Empfehlungen werden häufig mit einer Ziffer oder einem Buchstaben versehen, um darzustellen, wie hoch das Vertrauen in die zugrunde liegenden Studien ist. Aber auch wenn es keine Evidenz gibt oder die Studienergebnisse unsicher sind, muss eine Entscheidung getroffen werden. Meist gibt es daher zusätzlich einen Empfehlungsgrad der Experten, die die Leitlinien entwickelt haben: das heißt eine starke oder schwache Empfehlung für oder gegen eine Behandlung.

Systematische Übersichtsarbeiten – was ist zu beachten

Systematische Übersichtsarbeiten fassen alle Studien zusammen, die eine bestimmte Frage untersuchen (Abb.2).

Damit das Vorgehen für andere nachvollziehbar ist, werden systematische Übersichtsarbeitennach einem standardisierten Schema erstellt. Damit werden Verzerrungen vermieden, die bei unsystematischem Vorgehen bei der Erfassung und Bewertung der vorhandenen Studien entstehen können.6 Einige der folgenden Punkte geben einen Hinweis dafür, ob eine systematische Übersichtsarbeit wesentliche Qualitätskriterien erfüllt.7

I. Klar definierte Frage?

Systematische Übersichtsarbeiten über medizinische Themen sind häufig mit der Frage konfrontiert, ob ein neues Medikament besser wirkt als die bisher verwendete Standard-Therapie. Um solche Fragen zu beantworten, suchen Autoren von systematischen Übersichtsarbeiten nach Studien, die zwei Gruppen miteinander vergleichen: Eine Gruppe erhält ein neues Medikament und die Kontrollgruppe die bisher verwendete Therapie. Daher hat sich für die genau definierte Fragestellung von systematischen Übersichtsarbeiten das PIKO-Schema eingebürgert. P steht dabei für Population, I für Intervention, K für die Kontrollgruppe und O für das Outcome. Für die Literatursuche in den Datenbanken müssen nicht alle Komponenten der PIKO-Frage verwendet werden. Wenn die Literatursuche zu wenige Ergebnisse ergibt, können auch nur Teile der PIKO-Fragen verwendet werden oder allgemeinere Begriffe.

Wenn die Frage zu breit gestellt ist, ist sie nicht beantwortbar, und es ist daher unmöglich, alle Studien, die wichtig sein könnten, zu erfassen.

II. Literatursuche in mehreren Datenbanken?

Im nächsten Schritt wird eine umfangreiche systematische Literatursuche durchgeführt. Sie stellt die Basis einer gut durchgeführten systematischen Übersichtsarbeit dar.8 Eine Literaturrecherche sollte in zumindest zwei Datenbanken, wie z.B. MEDLINE, Embase, Cochrane Library, durchgeführt werden. Das Ergebnis von systematischen Übersichtsarbeiten wird jedoch genauer, wenn in mehr als zwei Datenbanken nach Studien gesucht wird und wenn zusätzlich Referenzlisten von ausgewählten Studien überprüft werden. Zusätzlich könnte auch graue Literatur, beispielsweise auf Konferenzen vorgestellte Studien, interessant sein, dienicht publiziert wurde.

III. Auswahl der Studien durch zwei Reviewer?

Die Ergebnisse der Literatursuche werden im nächsten Arbeitsschritt, im idealen Fall von zwei Personen unabhängig voneinander, nach den zuvor definierten Auswahlkriterien bewertet.9 Studien, die für die systematische Übersichtsarbeit relevant sind, werden im gemeinsamen Konsens ausgewählt. Dabei haben manche Studiendesigns eine höhere Wahrscheinlichkeit, falsche Ergebnisse zu liefern als andere.Randomisiert kontrollierte Studien (RCT) zum Beispiel werden höher eingestuft als Fallserien (Abb.3).

IV. Qualität der Studien überprüft?

Studien mit methodischen Limitationen können das Resultat der systematischen Übersichtsarbeit verzerren. In der systematischen Übersichtsarbeit sollte daher die Qualität der Studien dargestellt sein, inklusive validierter Bewertungsinstrumente (z.B. Cochrane-Handbuch), die verwendet wurden, um die Studien zu überprüfen.

V. Einschätzung über das Vertrauen in die Ergebnisse?

Studien mit guter methodischer Qualität sollten bei der Zusammenfassung der Ergebnisse mehr Gewicht erhalten als Studien mit methodischen Problemen. Zusätzlich sind Studienergebnisse häufig unpräzise. Die Autoren der systematischen Übersichtsarbeit sollten eine Einschätzung darüber abgeben, wie hoch das Vertrauen in die Studienergebnisse ist: das heißt, wie hoch die Wahrscheinlichkeit ist, dass zukünftige Studien die Ergebnisse ändern werden.

Relative Kennzahlen in Studien – Vorsicht bei der Interpretation

Häufig werden auf Kongressen Studienergebnisse vorgestellt. Für dichotome Endpunkte gibt es immer zwei Möglichkeiten: zum Beispiel entweder krank oder gesund, tot oder lebend. Eine sehr anschauliche Kennzahl, um ein Studienergebnis darzustellen, ist das absolute Risiko. Das absolute Risiko ist die Wahrscheinlichkeit, dass ein bestimmtes Ereignis in einem bestimmten Zeitraum auftritt. Stellen Sie sich vor, Sie führen eineStudie durch, um herauszufinden, wieviele Personen 30 Minuten nach einem Kaffee wieder fit sind, und teilen 100Personen der Gruppe zu, die koffeinhaltigen Kaffee bekommt, und weitere100Personen der Gruppe, die koffeinfreien Kaffeetrinkt. Nach 30 Minuten sind von 100Personen, die nach dem Mittagessen einen koffeinhaltigen Kaffee getrunken haben, 70Personen wieder fit.Das absolute Risiko, nach 30 Minuten mit einem koffeinhältigen Kaffee wieder fit zu sein, beträgt demnach 70 Prozent. Für die 100 Personen, die einen koffeinfreien Kaffee erhielten, sind nach 30Minuten 20 ohne Koffein wieder fit, also nur 20Prozent.

Häufig wird in den Studien das relative Risiko präsentiert, das ist ein Verhältnis der beiden Risiken.10 Dividiert man nun 70Prozent durch 20 Prozent, ergibt das 3,5 – das relative Risiko. Ein relatives Risiko von 3,5 bedeutet, dass das Risiko, 30 Minuten nach einem koffeinhaltigen Kaffee, wieder fit zu sein, um das 3,5-Fache höher ist als nach einem koffeinfreien Kaffee. Ähnlich wie das relative Risiko wird auch die Odds-Ratio interpretiert. Dabei sollte allerdings beachtet werden, dass die Odds-Ratio das relative Risiko bei hohen Ereigniszahlen überschätzt.

Häufig wird in den Medien oder in Werbematerialien die relative Risikozunahme oder -reduktion präsentiert, die einer prozentuellen Änderung entspricht. Angewandt auf unser Beispiel mit dem Kaffee könnte man behaupten, dass mit koffeinhaltigem Kaffee die Wahrscheinlichkeit, fit zu sein, um 250% zunimmt (= relative Risikozunahme). Denn nur 20 von 100Personen waren nach 30 Minuten wieder fit, und mit koffeinhaltigem Kaffee waren es um 250% mehr, nämlich 70 von 100. Die relative Risikozunahme wird tatsächlich häufig verwendet, daher empfiehlt es sich für Ärzte, immer auf die tatsächlichen Ereigniszahlen zu achten.

Das Konfidenzintervall – ein Maß für die Genauigkeit

Für Studien gilt, dass Ergebnisse genauer sind, wenn mehr Personen an einer Studie teilnehmen. Ein Maß für die Genauigkeit ist das Konfidenzintervall, das umso breiter ist, je weniger Personen an einer Studie teilnehmen. Meist wird das 95%-Konfidenzintervall dargestellt, das sich aus einer statistischen Berechnung ergibt. Ein 95%-Konfidenzintervall bedeutet, dass für 100 Stichproben mit derselben Teilnehmerzahl ein Konfidenzintervall berechnet wird und der wahre Wert bei 95 der 100 Konfidenzintervalle enthalten ist.11

P-Wert: Ist das Ergebnis Zufall oder nicht?

Der p-Wert gibt die Wahrscheinlichkeit dafür an, dass ein Resultat nur durch Zufall entstanden ist.11 Ein p-Wert von ≤0,05 gilt als statistisch signifikant. Das heißt, die Wahrscheinlichkeit eines falsch positiven Resultats ist 5%.

Metaanalysen

In einer Metaanalyse werden Ergebnisse von verschiedenen, jedoch vergleichbaren Studien zusammengefasst.10 In einer Metaanalyse sollten alle für eine bestimmte Fragestellung relevanten Studien berücksichtigt werden. Daher wird eine Metaanalyse im Idealfall im Rahmen einer systematischen Übersichtsarbeit durchgeführt. Bei einer Metaanalyse werden die Ergebnisse der Einzelstudien zusammengefasst und ein gemeinsamer Effekt errechnet. Das Gesamtergebnis ist genauer und die statistische Aussagekraft ist erhöht, da mehrere Studien mit einer insgesamt höheren Anzahl an Studienteilnehmern berücksichtigt werden.12, 13 In einer Metaanalyse kann ein Vorteil einer Behandlung nachgewiesen werden, auch wenn die Einzelstudien, die in der Metaanalyse zusammengefasst werden, aufgrund von zu geringen Teilnehmerzahlen keine ausreichende, statistische Signifikanz erreichen.

In einer Metaanalyse wird gewichtet summiert, d.h., Studien mit einer größeren Zahl an Teilnehmern erhalten mehr Gewicht als kleinere Studien. Größere Studien liefern genauere Ergebnisse, da Zufallsergebnisse („random error“) eine geringere Rolle spielen als bei kleineren Studien.

Die Resultate der Metaanalyse werden zumeist in einem „Forest Plot“ grafisch dargestellt. Abb. 4 zeigt den „Forest Plot“ einer Metaanalyse von 16 Studien, die untersuchen, ob eine Kombination von Anticholinergika und ß-Sympathomimetika besser wirkt als ß-Sympathomimetika alleine, um die Hospitalisierungsrate bei Patienten mit akutem Asthma bronchiale zu reduzieren.14

In einem „Forest Plot“ werden die Ergebnisse der Einzelstudien und der Gesamteffekt mit dem zugehörigen Konfidenzintervall abgebildet. Die schwarzen Vierecke mit den horizontalen Linien stellen die Einzelstudien dar. Die schwarzen Vierecke sind umso größer, je mehr Personen an einer Studie teilnehmen. Die Konfidenzintervalle sind die horizontalen Linien, auf denen die schwarzen Vierecke liegen. Das Konfidenzintervall ist ein Maß für die Streuung und umso breiter, je größer die Streuung ist. Der schwarze Diamant symbolisiert den statistisch zusammengefassten Gesamteffekt aller in die Metaanalyse inkludierten Studien.

In unserem Beispiel wurde das relative Risiko („Risk-Ratio“) als Effektmaß verwendet und es beschreibt, um wieviel geringer das Risiko für eine Hospitalisierung ist, wenn Patienten mit akutem Asthma mit einer Kombination aus Anticholinergika und ß-Sympathomimetika behandelt werden, verglichen mit ß-Sympathomimetika alleine.

Das Ergebnis von 16 Studien mit 2120 Teilnehmenden zeigt, dass das Risiko für eine Hospitalisierung mit der Kombinationstherapie um 28% geringer ist als mit ß-Sympathomimetika alleine (RR;relatives Risiko: 0,72; 95% CI: 0,59–0,87). In der Gruppe, die mit Anticholinergika und ß-Sympathomimetika behandelt wurde, wurden 17%(182 von 1087) im Spital aufgenommen verglichen mit 23% (239 von 1033), die mit ß-Sympathomimetika alleine behandelt wurden.

Metaanalysen können nur mit Studien durchgeführt werden, die ähnlich sind in Bezug auf Population, Studiendesign und Intervention.15 In einem „Forest Plot“ ist von relevanten Ungleichheiten auszugehen, wenn sich die Einzelstudien mit den zugehörigen Konfidenzintervallen nicht oder nur wenig überschneiden. Das Ausmaß der Heterogenität wird mit dem I2-Test errechnet und sollte in jeder Metaanalyse erhoben werden.16

Element not implemented: <footer>

Leitung Ärzteinformationszentrum Cochrane ÖsterreichDepartment für Evidenzbasierte Medizin und Evaluation Universität für Weiterbildung KremsÄrztin für Allgemeinmedizin, Gesundheitszentrum Sitzenberg-ReidlingE-Mail: anna.glechner@donau-uni.ac.at


Dr. Anna Glechner

Wissenschaftliche StudienKlinische ErfahrungPatientenwünscheStudienSystematischer ÜberprüfungsprozessSystematischer Review

Tab. 1:Relatives und absolutes Risiko am Beispiel der Koffein-Studie

Systematische Übersichtsarbeiten, MetaanalysenRandomisiert kontrollierte StudienKontrollierte BeobachtungsstudienNicht kontrollierte StudienFallberichte
Cochrane Österreich Workshops 2022

Kritische Bewertung medizinischer Studien

10.–11.05.2022, Universität für Weiterbildung Krems

Kritische Bewertung von randomisiert kontrollierten Studien – Onlinekurs

11.10.2022

Systematische Literaturrecherche (Grund- und Aufbaukurs)

17.–18.10.2022, Universität für Weiterbildung Krems

Medizinische Statistik für Nicht-StatistikerInnen

08.–09.11.2022, Universität für Weiterbildung Krems

Ursache-Wirkung aus Big Data ableiten – geht das?

28.–29.11.2022, Universität für Weiterbildung Krems

Effekt einzelne Studie

GesamtergebnisKonfidenzintervallLinie: kein EffektVorteil: Anticholinergika + ß-Sympathomimetika
Bewertungen:
ZURÜCK