Diagnosestudien, Diagnostikstudien, ROC-Analyse Diagnostikstudien, Diagnosestudien, ROC-Analyse

 

Willkommen ! English Version Biometrie & Statistik Schwerpunkt Diagnostik Diagnostische Güte ROC-Analysen Schwerpunkt Labor Statistische Beratung Schwerpunkt Software Referenzen/Projekte Projekte Referenzen Veröffentlichungen Links ACOMED Kontakt / Anfahrt Vorstellung Stellenangebote / Praktika Ablauf / Konditionen Impressum

 

E. Meisel: Der Kuss der Amphibie (www.sum--art.de)
disease cluster

Sie befinden sich: Diagnostik . Diagnosestudien

Diagnostikstudien - Diagnosestudien
Wie werden diagnostische Tests untersucht und bewertet?

Diagnostikstudien dienen der Untersuchung, Evaluierung, Bewertung diagnostischer Verfahren in der Medizin, wobei die diagnostische Güte Gegenstand des Interesses ist. Bei Diagnosestudien handelt es sich aus zweierlei Gründen um eine besonders interessante und anspruchsvolle Art klinischer Studien. Das verwundert zunächst, geht es doch letztendlich nur um die Auswertung einer Vierfeldertafel, in der zwei Zustände des Patienten (krank D+, nicht krank D-) zwei Ergebnissen des diagnostischen Tests gegenübergestellt sind (test positiv T+, test negativ T-). Dass die Planung und Analyse klinischer Diagnosestudien komplexer sein muss, wir deutlich, wenn man sich die Checkliste des STARD-statements (Standards for the Reporting of Diagnostics Accuracy studies) vor Augen führt. Obwohl eigentlich für die Publikation gedacht, sollte man die Checkliste bereits bei der Planung berücksichtigen. Dies hilft, die richtigen Studienziele festzulegen, Verzerrungen zu vermeiden, die Messqualität geeignet zu adressieren, und die richtigen Schlussfolgerungen zu ziehen.

Das interessante dieser Studienart ist zunächst die Planungsseite. Es kommt darauf an, (i) den beabsichtigten Gebrauch (intended use), (b) die klinische Anwendungssituation und (c) die Stelle im diagnostischen Pfad richtig abzubilden. Dies ist schwieriger als gedacht; insbesondere bei der Entwicklung neuer Diagnostika zeigt sich, dass diese Gesichtspunkte bei der Entwicklung vernachlässigt wurden.

Ein zweiter wichtiger Punkt sind die Verzerrungen, die bei der Durchführung und Analyse von Diagnostik-Studien drohen. Im Vordergrund steht hierbei der Selektions-Bias. Beispielsweise wird durch den Ausschluss "unklarer" Fälle, d.h. die Einbeziehung nur "klarer" Fälle, die Realität nicht richtig abgebildet; als Ergebnis wird die diagnostische Güte des Verfahrens überschätzt. Dies betrifft zum einen die Krankheitsgruppe, in der z.B. hohe Stadien überrepräsentiert sind. Aber auch die "Gesundgruppe" ist häufig so gewählt, dass sie "zu gesund" ist, d.h. in der Realität wird ein Diagnostikum zur Unterscheidung zwischen zwei Krankheitszuständen (z.B. Tumor und Entzündung) eingesetzt, und nicht zur Unterscheidung von "krank" und "gesund".

Verzerrungen sind weiterhin häufig mit dem Goldstandard, d.h. der Festlegung der Gruppenzugehörigkeit (D+, D-) eines Patienten, verbunden. Der Goldstandard kann z.B. selbst nur eine eingeschränkte diagnostische Güte aufweisen. Oder er wird für die Gruppen D+ und D- auf unterschiedliche Weise und dadurch ggf. mit unterschiedlicher Qualität bestimmt.

ACOMED statistik hat sich auf die Planung, Durchführung, Analyse und Auswertung von Diagnostikstudien spezialisiert.

Im Folgenden sind einige der Grundlagen der Diagnostikstudien dargestellt. Für Leser, denen bereits die Grundlagen bekannt sind, sei auf die bei der Jahrestagung der GMDS 2006 von ACOMED statistik veröffentlichte "Checkliste für Qualitätssicherung bei der Planung, Durchführung und Analyse von Diagnosestudien in der klinischen Chemie" hingewiesen.

Was ist Diagnostik überhaupt?

Darauf soll hier keine Antwort gegeben werden, denn man müsste bei philosophischen Erörterungen des Erkenntnisprozesses beginnen ... und mit den Grundsätzen ärztlichen Handelns fortfahren. Die Begriffe Krankheit, Diagnose, Diagnostik, Test, diagnostischer Prozess etc. wären zu definieren. Der Biometriker kann es sich aber einfach machen: Er betrachtet die diagnostische Maßnahme als Mittel, eine A-priori-Wahrscheinlichkeit für die Richtigkeit der Vermutung, dass ein Patient an einer Krankheit leidet, in eine (möglichst) höhere A-posteriori-Wahrscheinlichkeit zu transformieren.

Von der Diagnostik zum Diagnostischen Test:

Um die Diagnostik zu beschreiben, wird sie als Folge von binären Einzelentscheidungen aufgefasst. Bei diesen Einzelunterscheidungen werden diagnostische Tests eingesetzt, die zwischen zwei Zuständen entscheiden sollen: Krankheit vorhanden / nicht vorhanden. Entsprechend ist auch das Testresultat eine Ja/Nein-Aussage: krank (=positiv) / nicht krank (=negativ). Bei Tests mit quantitative Ergebnissen, wie z.B. bei Laborwerten, erfolgt die Überführung in eine solche binäre Aussage mit einem Trennwert (Cut-Off-Point).

Hieraus lässt sich eine Vierfeldertafel erzeugen, die Zustand des Patienten und Testergebnis gegenüberstellt:

Zustand des Patienten
krank nicht krank Summe
Testergebnis positiv richtig positiv (rp) falsch positiv (fp) rp+fp
Testergebnis negativ falsch negativ (fn) richtig negativ (rn) fn+rn
Summe rp+fn fp+rn rp+fp+fn+rn

Anhand dieser Tafel lassen sich spalten- und zeilenweise je die Verhältnisse der Einzelzellen zu den Summen bilden.

Die Sensitivität ermittelt den Anteil der richtig Positiv erkannten Patienten zu allen Kranken (rp/(rp+fn)), die Spezifität den Anteil der Richtig negativ erkannten Patienten an den Nicht-Kranken (rn/(rn+fp)). Sensitivität und Spezifität sind die Größen, die die Entwickler und Hersteller bei der Bewertung ihrer diagnostischen Tests verwenden können.

Die Vorhersagewerte (zeilenweise Betrachtung) betrachten dagegen die Wahrscheinlichkeit, dass der Patient tatsächlich den Zustand aufweist, den der Test anzeigt (positiver Vorhersagewert: rp/(rp+fp), negativer Vorhersagewert: rn/(rn+fn). Die Vorhersagewerte beschreiben damit die Sicht des Arztes (bzw. des Patienten), dem das Testergebnis vorliegt. Er kann mit diesen Werten das Testergebnis hinsichtlich seiner Relevanz einschätzen.

Excel-Tool: Sensitivität, Spezifität, PPV, NPV für Vierfeldertafel, mit Konfidenzintervall

Special report:Diagnostic accuracy in screening trials

Wie sollten Sie vorgehen, wenn Sie einen diagnostischen Test untersuchen und bewerten wollen? Köbberling et al. (1989) unterscheiden 4 Phasen:

Phase I: In einer Technischen Voruntersuchung wird die Methode untersucht. Diese Validierung der Messeigenschaften, z.B. Richtigkeit und Präzision, gibt Aussagen zur Güte der Methode. Weitere Hinweise zur Methodenvalidierung.

Phase II: Untersuchung der Messwerte auf Verteilungsunterschiede zwischen verschiedenen Patientengruppen. Damit wird eine Aussage über das Potential des Tests möglich. In Phase-II-Studien gehen Patienten ein, für die die Diagnose bereits feststeht. Die Fallzahl je Gruppe orientiert sich nicht an der Prävalenz der Erkrankung, sondern an statistischen Erwägungen.

Beispiel: Für eine Phase-II-Studie zum diagnostischen Potential eines Tumormarkers werden 150 Patienten mit einem histologisch nachgewiesenen Tumor und 100 Patienten mit einer entzündlichen Erkrankung am betreffenden Organ (Tumorausschluss bereits erfolgt) einbezogen. In diesem Fall ist es wichtig, die Blutentnahme vor Therapiebeginn vorzunehmen, da eine Therapie den Tumormarkergehalt beeinflusst.

Bei der Patientenauswahl sollten ferner verschiedene Erkrankungs-Stadien, verschiedene Begleiterkrankungen sowie verschiedene deomografische Faktoren berücksichtigt werden. Eine Phase-II-Studie erlaubt Aussagen zum Zusammenhang zwischen Sensitivität und Spezifität des Tests anhand einer ROC-Kurve (ROC: receiver operating characteristics).

Zur Ermittlung wird der Cut-Off-Punkt über den Wertebereich des diagnostischen Tests variiert. Entsprechend ändern sich die Verhältnisse bzgl. der Zahlen rp, fp, fn und rn. Es ergibt sich eine Kurve der folgenden Art: Es gilt: Je größer der Abstand des Bogens von der Diagonale des Quadrates, desto besser der Test.

Dagegen erlaubt die Phase-II-Studie nicht die Festlegung von Cut-Off-Werten oder von Vorhersagewerten. Phase-II-Studien haben damit den Charakter von explorativen Vorstudien, die dazu dienen, weitergehende Studien zu begründen. Weitere Hinweise zum Unterschied explorative / konfirmatorische Studien.

Beispiel: Bei manchen neu entwickelten Tests für Tumorerkrankungen werden auf Kongressen oder in Veröffentlichungen die Ergebnisse an der malignen Gruppe Ergebnissen einer Gesundgruppe gegenübergestellt. In der Praxis muss der Arzt aber zwischen einer benignen Erkrankung, Entzündung o.a. und einer Tumorerkrankung zu unterscheiden. In dieser Konstellation verschwindet dann meist die diagnostische Trennschärfe der angepriesenen Tests.

Dieses Beispiel leitet über zur Phase-III-Studie: In einer kontrollierten diagnostischen Studie wird der Test in der spezifischen klinischen Anwendungssituation beurteilt.

Bei einer Phase-III-Diagnosestudie werden alle Patienten mit einem Erkrankungsverdacht in die Studie einbezogen; der Krankheitsstatus ist noch nicht bekannt. Dies entspricht genau der Situation, in der der Test in der diagnostischen Routine eingesetzt werden würde. Das diagnostische Prozedere zum Nachweis der Erkrankung bzw. zu ihrem Ausschluss muss genau definiert und anerkannt sein (Referenz-Methode, Goldstandard, Diagnostic accuracy criterion).

Beispiel: Um einen Herzinfarktmarker bei niedergelassenen Allgemeinmedizinern zu evaluieren, sind alle Patienten, die mit einem gewissen Beschwerdenbild auffallen (Bsp.: Atembeklemmungen, unklare Beschwerden im Brustbereich, charakteristische Störungen des EKG) in die Studie einzubeziehen. Es ist zu erwarten, dass ein Test, der beispielsweise in Herzzentren erfolgreich eingesetzt wird, bei Anwendung in der niedergelassenen Praxis eine ganz andere Performance aufweist, da das Patientengut sich völlig anders zusammensetzt und sich die Prävalenz der Zielkrankheit unterscheidet.

In Phase-III-Studien können Cut-Off-Werte festgelegt werden, was schwieriger ist als gemeinhin angenommen. Da es immer eine Überlappungszone ("Grauzone") gibt, in der der Test gleiche Ergebnisse für Kranke und nicht Kranke ergibt, gilt es Abwägungen vorzunehmen: Sind eher falsch positive oder falsch negative Einordnungen als günstig zu bewerten? Weitere Hinweise zur Festlegung von Cut-Off-Werten.

Phase IV-Studien untersuchen den therapeutischen Nutzen eines Tests (Wirksamkeitsstudien) und beantworten Fragen wie diese:

  • Führt die Einführung einer neuen bildgebenden Methode, die kleinere Tumorherde identifizieren kann, zu einer Steigerung der Überlebenszeit?

  • Betrachten wir Patienten, bei denen für bestimmte Medikamente Nebenwirkungen auftreten. Führt ein diagnostischer Test, der diese Patienten identifiziert, zu einer Senkung der Komplikationsrate?

Phase-IV-Studien sind in ihrer Durchführung komplex, und auf eine weitere Darstellung soll hier verzichtet werden.

Zum Schluss noch Hinweise zu drei systematischen Fehlern, die neben anderen Fehlern bei der Evaluierung diagnostischer Tests auftreten können und zu Verzerrungen (Bias) führen.

Selektionsbias/Spektrumbias: Dieses ist die Hauptverzerrung bei Klinischen Diagnosestudien. Die Verzerrung liegt vor, wenn die Selektion der untersuchten Patienten, bzw. das Spektrum der in die Studie eingeschlossnenen Patienten nicht der klinischen Anwendungssituation entspricht. Dies wurde oben im Zusammenhang mit Phase-II-Diagnose-Studien bereits diskutiert.

Verifikationsbias: Eine wesentliche Verzerrung ist zu erwarten, wenn der Goldstandard nicht in gleicher Qualität für alle Patienten erhoben werden kann. Beispielsweise wird ein invasives Verfahren nur bei den Testpositiven eingesetzt, während bei Testnegativen darauf verständlicherweise verzichtet wird. Es ist eine Überschätzung der Sensitivität zu erwarten.

Information bias: Die Kenntnis des Testresultates des zu untersuchenden Tests beeinflusst das Ergebnis des Außenkriteriums. Dies ist insbesondere bei Verfahren zu erwarten, bei denen Befunde interpretiert werden müssen (bildgebende Verfahren).

Literatur:

  • Pepe MS (2003): The Statistical Evaluation of Medical Tests for Classification and Prediction. Oxford University Press 2003
    Dieses Buch ist auch Grundlage für diese Präsentation (FDA-Training).

  • Zhou X-H, Obuchowski NA, McClish DK (2002). Statistical Methods in Diagnostic Medicine. Wiley Interscience New York.

  • Köbberling J, Richter K, Trampisch HJ, Windeler J: Methodologie der medizinischen Diagnostik. Entwicklung, Beurteilung und Anwendung von Diagnoseverfahren in der Medizin. Springer-Verlag Berlin Heidelberg New-York (1991)

  • Köbberling J, Trampisch HJ, Windeler J: Memorandum zur Evaluierung diagnostischer Maßnahmen. Schriftenreihe der GMDS (1989) 10

  • Begg CB: Biases in the Assessment of Diagnostic Tests. Stat. Med. (1987) 6, 411-423

  • Linnet K: A Review on the Methodology for Assessing Diagnostic Tests. Clin. Chem. (1988) 34, 1379-1386

 
ROC curve, ROC curves, DAC method
Copyright: ACOMED   
{short description of image}
{short description of image} {short description of image} {short description of image}