Diagnosestudien, Diagnostikstudien, ROC-Analyse Diagnostikstudien, Diagnosestudien, EU-Verodnung 2107/746

 

Willkommen ! English Version Biometrie & Statistik Schwerpunkt Diagnostik Diagnostische Güte ROC-Analysen Schwerpunkt Labor Statistische Beratung Schwerpunkt Software Referenzen/Projekte Projekte Referenzen Veröffentlichungen ACOMED Kontakt / Anfahrt Vorstellung Stellenangebote / Praktika Ablauf / Konditionen Datenschutz Impressum

 

disease cluster

Sie befinden sich: Diagnostik . Diagnosestudien

Diagnostikstudien - Diagnosestudien
Klinische Evaluierung und Bewertung diagnostischer Tests

Diagnostikstudien dienen der Untersuchung, Evaluierung, Bewertung diagnostischer Verfahren in der Medizin, wobei die diagnostische Güte Gegenstand des Interesses ist. Bei Diagnosestudien handelt es sich aus zweierlei Gründen um eine besonders interessante und anspruchsvolle Art klinischer Studien. Das verwundert zunächst, geht es doch letztendlich nur um die Auswertung einer Vierfeldertafel, in der zwei Zustände des Patienten (krank D+, nicht krank D-) zwei Ergebnissen des diagnostischen Tests gegenübergestellt sind (test positiv T+, test negativ T-). Dass die Planung und Analyse klinischer Diagnosestudien komplexer sein muss, wird deutlich, wenn man sich die Checkliste des STARD-statements (Standards for the Reporting of Diagnostics Accuracy studies) vor Augen führt. Obwohl eigentlich für die Publikation gedacht, sollte man die Checkliste bereits bei der Planung berücksichtigen. Dies hilft, die richtigen Studienziele und die richtige Studienpopulation festzulegen, Verzerrungen zu vermeiden, die Messqualität geeignet zu adressieren, und die richtigen Schlussfolgerungen zu ziehen.

Das interessante dieser Studienart ist zunächst die Planungsseite. Es kommt darauf an, (i) den beabsichtigten Gebrauch (intended use), (b) die klinische Anwendungssituation und (c) die Stelle im diagnostischen Pfad richtig abzubilden. Dies ist schwieriger als gedacht; insbesondere bei der Entwicklung neuer Diagnostika zeigt sich, dass diese Gesichtspunkte bei der Entwicklung mitunter vernachlässigt wurden.

Ein zweiter wichtiger Punkt sind die Verzerrungen, die bei der Durchführung und Analyse von Diagnostik-Studien drohen. Im Vordergrund steht hierbei der Spekrums-Bias. Im Falle eines case-control-designs, d. h. der Rekrutierung von Patienten anhand ihres Erkrankungsstatus', kommt es zu einem Ausschluss "unklarer" Fälle, d.h. die Einbeziehung nur "klarer" Fälle. Die Anwendungssituation wird nicht richtig abgebildet; als Ergebnis wird die diagnostische Güte des Verfahrens überschätzt. Der verzerrte Einschluss betrifft zum einen die Krankheitsgruppe, in der z.B. hohe Stadien überrepräsentiert sind. Aber auch die "Gesundgruppe" ist häufig so gewählt, dass sie "zu gesund" ist. Wird ein Diagnostikum zur Unterscheidung zwischen zwei Krankheitszuständen (z.B. Tumor und Entzündung) eingesetzt, dann kann in der Studie keine Untersuchung "krank" vs. "gesund" vorgenopmmen werden. Verzerrungen sind weiterhin häufig mit dem Referenzstandard, d.h. der Festlegung der Gruppenzugehörigkeit (D+, D-) eines Patienten, verbunden. Der Referenzstandard kann z. B. selbst nur eine eingeschränkte diagnostische Güte aufweisen. Oder er wird für die Gruppen D+ und D- auf unterschiedliche Weise und dadurch ggf. mit unterschiedlicher Qualität bestimmt.

ACOMED statistik hat sich auf die Planung, Durchführung, Analyse und Auswertung von Diagnostikstudien spezialisiert.

Im Folgenden sind einige der Grundlagen der Diagnostikstudien dargestellt.

Was ist Diagnostik überhaupt?

Darauf soll hier keine Antwort gegeben werden, denn man müsste bei philosophischen Erörterungen des Erkenntnisprozesses beginnen ... und mit den Grundsätzen ärztlichen Handelns fortfahren. Die Begriffe Krankheit, Diagnose, Diagnostik, Test, diagnostischer Prozess etc. wären zu definieren. Der Biometriker kann es sich aber einfach machen: Er betrachtet die diagnostische Maßnahme als Mittel, eine A-priori-Wahrscheinlichkeit für die Richtigkeit der Vermutung, dass ein Patient an einer Krankheit leidet, in eine (möglichst) höhere A-posteriori-Wahrscheinlichkeit zu transformieren.

Von der Diagnostik zum Diagnostischen Test:

Um die Diagnostik zu beschreiben, wird sie als Folge von binären Einzelentscheidungen aufgefasst. Bei diesen Einzelunterscheidungen werden diagnostische Tests eingesetzt, die zwischen zwei Zuständen entscheiden sollen: Krankheit vorhanden / nicht vorhanden. Entsprechend ist auch das Testresultat eine Ja/Nein-Aussage: krank (=positiv) / nicht krank (=negativ). Bei Tests mit quantitative Ergebnissen, wie z.B. bei Laborwerten, erfolgt die Überführung in eine solche binäre Aussage mit einem Trennwert (Cut-Off-Point).

Hieraus lässt sich eine Vierfeldertafel erzeugen, die Zustand des Patienten und Testergebnis gegenüberstellt:

Zustand des Patienten
krank nicht krank Summe
Testergebnis positiv richtig positiv (rp) falsch positiv (fp) rp+fp
Testergebnis negativ falsch negativ (fn) richtig negativ (rn) fn+rn
Summe rp+fn fp+rn rp+fp+fn+rn

Anhand dieser Tafel lassen sich spalten- und zeilenweise je die Verhältnisse der Einzelzellen zu den Summen bilden.

Die Sensitivität ermittelt den Anteil der richtig positiv erkannten Patienten an allen Kranken (rp/(rp+fn)), die Spezifität den Anteil der richtig negativ erkannten Patienten an den Nicht-Kranken (rn/(rn+fp)). Sensitivität und Spezifität sind die Größen, die die Entwickler und Hersteller bei der Bewertung ihrer diagnostischen Tests verwenden können.

Die Vorhersagewerte (zeilenweise Betrachtung) betrachten dagegen die Wahrscheinlichkeit, dass der Patient tatsächlich den Zustand aufweist, den der Test anzeigt (positiver Vorhersagewert PPV: rp/(rp+fp), negativer Vorhersagewert NPV: rn/(rn+fn). Die Vorhersagewerte beschreiben damit die Sicht des Arztes (bzw. des Patienten), dem das Testergebnis vorliegt. Er kann mit diesen Werten das Testergebnis hinsichtlich seiner Relevanz einschätzen.

Wie kann bewerten, ob Vorhersagewerte gut sind? Z. B. weist der Pap-Test einen (scheinbar kleinen) positiven Vorhersagewert um 10% auf, trotzdem handelt es sich um einen guten Test. Die Bewertung erfolgt durch die Gegenüberstellung mit der Prävalenz (im Fall des PPV ) bzw. 1-Prävalenz (im Fall des NPV). Im Fall des Pap-Tests hat die Erkrankung (das Vorliegen von Cervix-Läsionen) eine kleine Prävalenz von weniger als 1%. Insofern bietet der Pap-Test einen deutlichen Informationsgewinn, da der PPV deutlich größer als die Prävalenz ist. Das positive diagnostic likelihood-ratio (DLR), dass zusammen mit dem negativen DLR ebenfalls als Maß der diagnostischen Güte verwendet werden kann, bildet übrigens diesen Informationsgewinn direkt ab.

Excel-Tool: Sensitivität, Spezifität, PPV, NPV für Vierfeldertafel, mit Konfidenzintervall

Special report:Diagnostic accuracy in screening trials

Wie sollten Sie vorgehen, wenn Sie einen diagnostischen Test untersuchen und bewerten wollen? Köbberling et al. (1989) unterscheiden 4 Phasen:

Phase I: In einer Technischen Voruntersuchung wird die Methode untersucht. Diese Validierung der Messeigenschaften, z.B. Richtigkeit und Präzision, gibt Aussagen zur Güte der Methode. Weitere Hinweise zur Methodenvalidierung.

Phase II: Untersuchung der Messwerte auf Verteilungsunterschiede zwischen verschiedenen Patientengruppen. Damit wird eine Aussage über das Potential des Tests möglich. In Phase-II-Studien gehen Patienten ein, für die die Diagnose bereits feststeht. Die Fallzahl je Gruppe orientiert sich nicht an der Prävalenz der Erkrankung, sondern an statistischen Erwägungen.

Beispiel: Für eine Phase-II-Studie zum diagnostischen Potential eines Tumormarkers werden 150 Patienten mit einem histologisch nachgewiesenen Tumor und 100 Patienten mit einer entzündlichen Erkrankung am betreffenden Organ (Tumorausschluss bereits erfolgt) einbezogen. In diesem Fall ist es wichtig, die Blutentnahme vor Therapiebeginn vorzunehmen, da eine Therapie den Tumormarkergehalt beeinflusst.

Bei diesem Vorgehen wird das Spektrum der zukünftigen Anwendungspopulation nicht richtig abgebildet, sondern "kränkere" Patienten und "gesündere" Nichterkrankte bevorzugt eingeschlossen. Diese Spektrumsverzerrung führt zu einer Überschätzung der diagnostischen Güte.

Dies ist meiner Erfahrung nach der Hauptgrund für das Scheitern vieler, zunächst aussichtsreich erscheinender Biomarker: die diagnostische Güte wurde in einer Fall-Kontrollstudie ermittelt.

Dem kann man ein Stück weit entgegenwirken, in dem man bei der Patientenauswahl verschiedene Erkrankungs-Stadien, verschiedene Begleiterkrankungen sowie verschiedene deomografische Faktoren gezieklt berücksichtigt. Eine Phase-II-Studie erlaubt Aussagen zum Zusammenhang zwischen Sensitivität und Spezifität des Tests anhand einer ROC-Kurve (ROC: receiver operating characteristics), wobei, wie beschrieben, von einer Überschätzung auszugehen ist.

Zur Ermittlung wird der Cut-Off-Punkt über den Wertebereich des diagnostischen Tests variiert. Entsprechend ändern sich die Verhältnisse bzgl. der Zahlen rp, fp, fn und rn. Es ergibt sich eine Kurve der folgenden Art: Es gilt: Je größer der Abstand des Bogens von der Diagonale des Quadrates, desto besser der Test.

Dagegen erlaubt die Phase-II-Studie nicht die Schätzung von Vorhersagewerten. Phase-II-Studien haben damit den Charakter von explorativen Vorstudien, die dazu dienen, weitergehende Studien zu begründen. Weitere Hinweise zum Unterschied explorative / konfirmatorische Studien.

Beispiel: Bei manchen neu entwickelten Tests für Tumorerkrankungen werden auf Kongressen oder in Veröffentlichungen die Ergebnisse an der malignen Gruppe Ergebnissen einer Gesundgruppe gegenübergestellt. In der Praxis muss der Arzt aber zwischen einer benignen Erkrankung, Entzündung o.a. und einer Tumorerkrankung zu unterscheiden. In dieser Konstellation verschwindet dann meist die diagnostische Trennschärfe der angepriesenen Tests.

Dieses Beispiel leitet über zur Phase-III-Studie: In einer kontrollierten diagnostischen Studie wird der Test in der spezifischen klinischen Anwendungssituation beurteilt.

Bei einer Phase-III-Diagnosestudie werden alle Patienten mit einem Erkrankungsverdacht in die Studie einbezogen; der Krankheitsstatus ist noch nicht bekannt. Dies entspricht genau der Situation, in der der Test in der diagnostischen Routine eingesetzt werden würde. Das diagnostische Prozedere zum Nachweis der Erkrankung bzw. zu ihrem Ausschluss muss genau definiert und anerkannt sein (Referenz-Methode, Goldstandard, Diagnostic accuracy criterion).

Beispiel: Um einen Herzinfarktmarker bei niedergelassenen Allgemeinmedizinern zu evaluieren, sind alle Patienten, die mit einem gewissen Beschwerdenbild auffallen (Bsp.: Atembeklemmungen, unklare Beschwerden im Brustbereich, charakteristische Störungen des EKG) in die Studie einzubeziehen. Es ist zu erwarten, dass ein Test, der beispielsweise in Herzzentren erfolgreich eingesetzt wird, bei Anwendung in der niedergelassenen Praxis eine ganz andere Performance aufweist, da das Patientengut sich völlig anders zusammensetzt und sich die Prävalenz der Zielkrankheit unterscheidet.

In Phase-III-Studien können Cut-Off-Werte festgelegt werden, was schwieriger ist als gemeinhin angenommen. Da es immer eine Überlappungszone ("Grauzone") gibt, in der der Test gleiche Ergebnisse für Kranke und nicht Kranke ergibt, gilt es Abwägungen vorzunehmen: Sind eher falsch positive oder falsch negative Einordnungen als günstig zu bewerten? Weitere Hinweise zur Festlegung von Cut-Off-Werten.

Phase IV-Studien untersuchen den therapeutischen Nutzen einer dem diagnostischen Test folgenden therapeutischen Maßnahme (Wirksamkeitsstudien) und beantworten Fragen wie diese:

  • Führt die Einführung einer neuen bildgebenden Methode, die kleinere Tumorherde identifizieren kann, zu einer Steigerung der Überlebenszeit?

  • Betrachten wir Patienten, bei denen für bestimmte Medikamente Nebenwirkungen auftreten. Führt ein diagnostischer Test, der diese Patienten identifiziert, zu einer Senkung der Komplikationsrate?

Phase-IV-Studien sind in ihrer Durchführung komplex und aufwändig, und auf eine weitere Darstellung soll hier verzichtet werden.

Zum Schluss noch Hinweise zu drei systematischen Fehlern, die neben anderen Fehlern bei der Evaluierung diagnostischer Tests auftreten können und zu Verzerrungen (Bias) führen.

Selektionsbias/Spektrumbias: Dieses ist die Hauptverzerrung bei Klinischen Diagnosestudien. Die Verzerrung liegt vor, wenn die Selektion der untersuchten Patienten, bzw. das Spektrum der in die Studie eingeschlossnenen Patienten nicht der klinischen Anwendungssituation entspricht. Dies wurde oben im Zusammenhang mit Phase-II-Diagnose-Studien bereits diskutiert.

Verifikationsbias: Eine wesentliche Verzerrung ist zu erwarten, wenn der Referenzstandard nicht in gleicher Qualität für alle Patienten erhoben werden kann. Beispielsweise wird ein invasives Verfahren nur bei den Testpositiven eingesetzt, während bei Testnegativen darauf verständlicherweise verzichtet wird. Es ist eine Überschätzung der Sensitivität zu erwarten.

Fehlende Verblindung, Information bias: Die Kenntnis des Testresultates des zu untersuchenden Tests beeinflusst das Ergebnis des Außenkriteriums. Dies ist insbesondere bei Verfahren zu erwarten, bei denen Befunde interpretiert werden müssen (bildgebende Verfahren). Ein besonders häufig anzutreffender Fehler bzgl. der Aufhebung der Verblindung ist das Nachtesten (also nochmalige Messen oder umfangreiche Prüfung) diskordanter (also falsch positiver oder falsch negativer) Fälle. Dies ist nur zulässig, wenn man gleichzeitig eine zufällig ausgewählte Teilprobe konkordanter Fälle ebenfalls dieser Prozedur unterzieht. In einer FDA-Richtline (2007) zu diagnostischen Studien wird dieser Aspekt detailliert betrachtet.

Literatur:

  • Pepe MS (2003): The Statistical Evaluation of Medical Tests for Classification and Prediction. Oxford University Press 2003

  • Zhou X-H, Obuchowski NA, McClish DK (2011, 2nd ed). Statistical Methods in Diagnostic Medicine. Wiley Interscience New York.

  • Köbberling J, Richter K, Trampisch HJ, Windeler J: Methodologie der medizinischen Diagnostik. Entwicklung, Beurteilung und Anwendung von Diagnoseverfahren in der Medizin. Springer-Verlag Berlin Heidelberg New-York (1991)

  • Köbberling J, Trampisch HJ, Windeler J: Memorandum zur Evaluierung diagnostischer Maßnahmen. Schriftenreihe der GMDS (1989) 10

  • Begg CB: Biases in the Assessment of Diagnostic Tests. Stat. Med. (1987) 6, 411-423

  • Linnet K: A Review on the Methodology for Assessing Diagnostic Tests. Clin. Chem. (1988) 34, 1379-1386

 
ROC curve, ROC curves, DAC method
Copyright: ACOMED   
Fallzahlplanung in diagnostischen Studien
Phasen diagnostischer Studien EU-Verordnung 2017/746 Biometrie Diagnostische Studien