Biometrische Grundlagen

Diagnostische Studien: Einige biometrische Grundlagen

Was ist Diagnostik überhaupt?

Darauf soll hier keine Antwort gegeben werden, denn man müsste bei philosophischen Erörterungen des Erkenntnisprozesses beginnen ... und mit den Grundsätzen ärztlichen Handelns fortfahren. Die Begriffe Krankheit, Diagnose, Diagnostik, Test, diagnostischer Prozess etc. wären zu definieren. - Der Biometriker kann es sich aber einfach machen: Er betrachtet die diagnostische Maßnahme als Mittel, eine A-priori-Wahrscheinlichkeit für die Richtigkeit der Vermutung, dass ein Patient an einer Krankheit leidet, in eine (möglichst) höhere A-posteriori-Wahrscheinlichkeit zu transformieren.

Von der Diagnostik zum Diagnostischen Test

Um die Diagnostik zu beschreiben, wird sie als Folge von binären Einzelentscheidungen aufgefasst. Bei diesen Einzelunterscheidungen werden diagnostische Tests eingesetzt, die zwischen zwei Zuständen entscheiden sollen: Krankheit vorhanden / nicht vorhanden. Entsprechend ist auch das Testresultat eine Ja/Nein-Aussage: krank (=positiv) / nicht krank (=negativ). Bei Tests mit quantitative Ergebnissen, wie z. B. bei Laborwerten, erfolgt die Überführung in eine solche binäre Aussage mit einem Trennwert (Cut-Off-Point).

Hieraus lässt sich eine Vierfeldertafel erzeugen, die den wahren Zustand des Patienten (Referenzstandard, Goldstandard) und das Testergebnis (untersuchter Test = Indextest) gegenüberstellt:
Referenzstandard: Erkrankung D+ Referenzstandard: Nicht-Erkrankung D-
Indextest: test positiv T+ Richtig Positives Testergebnis: TP Falsch Positives Testergebnis: FP
Indextest: test negativ T- Falsch Negatives Testergebnis: FN Richtig Negatives Testergebnis: TN

Maße der Diagnostischen Güte

Anhand dieser Tafel lassen sich spalten- und zeilenweise je die Verhältnisse der Einzelzellen zu den Summen bilden.
Zunächst können wir die Prävalenz angeben: D+/([D+] + [D-]) = (TP+TN)/(TP+FP+TN+FN).

Die diagnostische Güte wird immer als Paar von zwei Werten berichtet: {Sensitivität, Spezifität}, oder {PPV, NPV} oder {DLR+, DLR-}.
Summarische Maße, die nur einen Wert verwenden (z. B. Summe aus Sensitivität und Spezifität, Youden-Index, Effizienz, …), bilden die Güte eines Test nur unzureichend ab, und sind ungeeignet, um die diagnostische Güte zu beschreiben. Wird nur eine Zahl berichtet (z. B. nur der negative Vorhersagewert, oder eine "Genauigkeit von 95%", o. ä., so reicht diese Angabe nicht aus, um die Güte eines diagnostischen Tests einzuschätzen. Ich persönlich gehe in solchen Fällen davon aus, dass eine ungünstige Eigenschaft des Tests verschwiegen werden soll.  

Die Sensitivität ermittelt den Anteil der richtig positiv erkannten Patienten an allen Kranken TP/D+ = TP/(TP+FN), die Spezifität den Anteil der richtig negativ erkannten Patienten an den Nicht-Kranken TN/D- = TN/(TN+FP). Man kann die Güten auch statistisch als bedingte Wahrscheinlichkeiten formulieren: Die Sensitivität ist die bedingte Wahrscheinlichkeit für das Vorliegen eines richtig positiven Testergebnisses gegeben die Erkrankung [dies wird so notiert:  P(T+|D+)], die Spezifität ist die bedingte Wahrscheinlichkeit für das Vorliegen eines richtig negativen Testergebnisses gegeben die Nicht-Erkrankung P(T-|D-). Sensitivität und Spezifität sind die Größen, die die Entwickler und Hersteller bei der Bewertung ihrer diagnostischen Tests verwenden können. Statt Sensitivität werden mitunter auch die Richtig-Positiv-Rate TPF = Sensitivität und Falsch-Positiv-Rate = 1-Spezifität angegeben. Da Sensitivität und Spezifität jeweils innerhalb der Spalten der oben berichteten Tabelle bestimmt werden, hängen sie nicht von der Prävalenz ab.

Die Vorhersagewerte (zeilenweise Betrachtung) betrachten dagegen die Wahrscheinlichkeiten, dass der Patient tatsächlich den Zustand aufweist, den der Test anzeigt (positiver Vorhersagewert PPV: TP/(TP+FP), negativer Vorhersagewert NPV: TN/(TN+FN). Man kann die Vorhersagewerte auch statistisch als bedingte Wahrscheinlichkeiten formulieren: Der PPV ist die bedingte Wahrscheinlichkeit für das Vorliegen einer Erkrankung gegeben ein positives Testergebnis P(D+|T+) [man beachte die vertauschte Reihenfolge von T+ und D+ im Vergleich zur Sensitivität], der NPV ist die bedingte Wahrscheinlichkeit für das Vorliegen einer Nichterkrankung gegeben ein negatives Testergebnis P(D-|D-). Die Vorhersagewerte beschreiben damit die Sicht des Arztes (bzw. des Patienten), dem das Testergebnis vorliegt: Ich habe ein positives Testergebnis: wie hoch ist die Wahrscheinlichkeit, dass ich tatsächlich erkrankt bin? Dies beantwortet der PPV. Arzt und Patient können mit dem PPV bzw. dem NPV das Testergebnis hinsichtlich seiner Relevanz einschätzen. 

Wie kann bewerten, ob Vorhersagewerte gut sind? Das soll am Beispiel des Pap-Tests erläutert werden, einem Screening-Test für das Vorliegen von Läsion der Zervix (Prävelenz=0,8%). Die Sensitivität des betrage 55%, die Spezifität 97%. Man kann dann ausrechnen, dass der Pap-Test einen (scheinbar kleinen) positiven Vorhersagewert um 12,8% aufweist, trotzdem handelt es sich um einen guten Test. Zu dieser Bewertung gelangt man durch die Gegenüberstellung des PPV (12,8%) mit der Prävalenz (0,8%) bzw. des NPV (der 99,6% beträgt) mit 1-Prävalenz (99,2%).  Insofern bietet der Pap-Test im Falle eines positiven Testergebnisses einen deutlichen Informationsgewinn, da der PPV deutlich größer als die Prävalenz ist (12,8% vs. 0,8%). 

Das positive diagnostic likelihood-ratio (DLR+), dass zusammen mit dem negativen DLR- ebenfalls als Maß der diagnostischen Güte verwendet werden kann, bildet diesen Informationsgewinn übrigens direkt ab. Hierbei wird das Verhältnis Posttest-Odds/Pretest-Odds verwendet. Praktisch berechnet sich DLR+ aus Sens/(1-Spez) [negatives DLR: (1-Sens)/Spez]. Für den Pap-Test ergibt sich ein DLR+ von 18,3 und ein DLR- von 0,46. Die diagnostic likelihood ratio sind also das Maß für die diagnostische Güte, das den durch den Test entstehenden Informationsgewinn am besten abbildet. Sie sind auch das einzige Maß, dessen absolute Zahlen man direkt bewerten kann. So gibt es die grobe Faustregel, dass ein Test "gut" ist, wenn DLR+ > 3 und DLR- < 0,33. Das erreichen nicht allzu viele IvD-Tests, der Tumormarker Cyfra 21-1 ist so ein Beispiel, die Abb. unten links.

Folgendes Bild zeigt die Berechnung der Maße der diagnostischen Güte am Beispiel des Tumormarkers Cyfra 21-1 (Daten aus Keller et al, 1998) sowie eine Übersichtstabelle über Charakteristika der Maße der diagnostischen Güte (zitiert aus Pepe 2003).

Ziele einer diagnostischen Studie

In der Regel besteht das Ziel einer Diagnostikstudie in der Bestimmung der diagnostischen Güte (zusammen mit dem Konfidenzintervall), wobei die gebräuchlichen Maße die Wertepaare Sensitivität/Spezifität und/oder positiver/negativer Vorhersagewert (Abk.: PPV/NPV) sind. Positives und negatives diagnostic likelihood ratio (Abk: DLR+/DLR-) werden mitunter gesondert von den Behörden oder Reviewern angefordert.

Man muss sich im Klaren darüber sein, dass der Studienansatz der Bestimmung (Statistiker sagen: Schätzung) der diagnostischen Güte explorativ ist. Ein konfirmatorischer Ansatz bestünde in dem prospektiv geplanten Nachweis, dass die diagnostische Güte bestimmte Werte überschreitet (z. B. Nachweis dass Sens>60%, Spez>80%). In der Praxis ist auch häufig der Fall anzutreffen, dass der Nachweis zu erbringen ist, dass die Sensitivität einen bestimmten Wert überschreitet, die Spezifität dagegen einen bestimmten Wert nicht unterschreitet (Nichtunterlegenheit).

Als weiteres Ziel ist der Vergleich diagnostischer Güten verschiedener Diagnostika zu nennen. Hier sind streng genommen 2 Vergleiche zu formulieren, je für Sensitivität und Spezifität. Auch hier trifft man häufig auf die Situation, dass nur eines der Maße besser sein soll als das für den Vergleichstest, während für das andere Maß lediglich Nichtunterlegenheit gezeigt werden muss. Als Maße für Vergleichsstudien bieten sich rTPF (Verhältnis der Sensitivitäten) und rFPF (Verhältnis der falsch-positiv-Raten [=1-Spezifität]) bzw. rPPV (Verhältnis der PPV) und rNPV (Verhältnis der NPV) an, da diese statistischen Modellen gut zugänglich sind (man kann sie mit verallgemeinerten linearen Modellen mit Logarithmus als Link-Funktion direkt schätzen, inkl. Konfidenzintervall und ggf. Berücksichtigung von Einflussfaktoren).

Phasen der diagnostischen Studien

Wie sollten Sie vorgehen, wenn Sie einen diagnostischen Test untersuchen und bewerten wollen? Köbberling et al. (1989) unterscheiden 4 Phasen, die sich nach wie vor als sehr praktikabel erweisen:

Phase I: In einer Technischen Voruntersuchung wird die Methode untersucht. Diese Validierung der Messeigenschaften, z. B. Richtigkeit und Präzision, gibt Aussagen zur Güte der Methode. Weitere Hinweise zur Methodenvalidierung finden Sie im Abschnitt Labor.

Phase II: Untersuchung der Messwerte auf Verteilungsunterschiede zwischen verschiedenen Patientengruppen. Damit wird eine Aussage über das Potential des Tests möglich. In Phase-II-Studien gehen Patienten ein, für die die Diagnose bereits feststeht. Die Fallzahl je Gruppe orientiert sich nicht an der Prävalenz der Erkrankung, sondern an statistischen Erwägungen.

Beispiel: Für eine Phase-II-Studie zum diagnostischen Potential eines Tumormarkers werden 150 Patienten mit einem histologisch nachgewiesenen Tumor und 100 Patienten mit einer entzündlichen Erkrankung am betreffenden Organ (Tumorausschluss bereits erfolgt) einbezogen. (In diesem Fall ist es wichtig, die Blutentnahme vor Therapiebeginn vorzunehmen, da eine Therapie den Tumormarkergehalt beeinflusst.) - Bei diesem Vorgehen wird das Spektrum der zukünftigen Anwendungspopulation nicht richtig abgebildet, sondern "kränkere" Patienten und "gesündere" Nichterkrankte bevorzugt eingeschlossen. 

Diese Spektrumsverzerrung führt zu einer Überschätzung der diagnostischen Güte. Dies ist meiner Erfahrung nach der Hauptgrund für das Scheitern vieler, zunächst aussichtsreich erscheinender Biomarker: die diagnostische Güte wurde in einer Fall-Kontrollstudie ermittelt. Dem kann man ein Stück weit entgegenwirken, in dem man bei der Patientenauswahl verschiedene Erkrankungs-Stadien, verschiedene Begleiterkrankungen sowie verschiedene demografische Faktoren gezielt berücksichtigt. 
Eine Phase-II-Studie erlaubt Aussagen zum Zusammenhang zwischen Sensitivität und Spezifität des Tests anhand einer ROC-Kurve (ROC: receiver operating characteristics), wobei, wie beschrieben, von einer Überschätzung auszugehen ist.

Zur Erstellung der ROC-Kurve wird der Cut-Off-Punkt über den Wertebereich des diagnostischen Tests variiert. Entsprechend ändern sich die Verhältnisse bzgl. der Zahlen TP, FP, FN und TN. Praktisch verwendet man jeden Messwert der Studien und berechnet Sensitivität und Spezifität. Es ergibt sich eine Kurve wie in der nebenstehenden Abbildung. 

Die ROC-Kurve dient zur wissenschaftlichen Exploration der diagnostischen Güte des Tests. Man kann sie zur Ermittlung des Cut-Off heranziehen. Die Fläche unter der Kurve (AUC) ist ein Übersichtsmaß für die diagnostische Güte, ist aber im Gegensatz den oben beschriebenen Wertepaaren ungeeignet, die diagnostische Güte eines Tests zu anzugeben. 


Abbildung:
ROC-(Receiver operating characteristics)-Kurve, mit Angabe des Konfidenzbandes und einzelner Cut-Off-Werte. Erstellt mit ACOMED-Excel-Tool, siehe Web-Shop. Zugrunde gelegte Werte: CYFRA 21-1 zur Diagnostik des Bronchial-CA in Patienten mit Verdacht auf diese Erkrankung [Keller et al. 1998].
Das obige Beispiel leitet über zur Phase-III-Studie: In einer kontrollierten diagnostischen Studie wird der Test in der spezifischen klinischen Anwendungssituation beurteilt.

Bei einer Phase-III-Diagnosestudie werden alle Patienten mit einem Erkrankungsverdacht in die Studie einbezogen; der Krankheitsstatus ist noch nicht bekannt. Dies entspricht genau der Situation, in der der Test in der diagnostischen Routine eingesetzt werden würde. Das diagnostische Prozedere zum Nachweis der Erkrankung bzw. zu ihrem Ausschluss muss genau definiert und anerkannt sein (Referenz-Methode, Goldstandard, Diagnostic accuracy criterion).

Beispiel: Um einen Herzinfarktmarker bei niedergelassenen Allgemeinmedizinern zu evaluieren, sind alle Patienten, die mit einem gewissen Beschwerdebild auffallen (Bsp.: Atembeklemmungen, unklare Beschwerden im Brustbereich, charakteristische Störungen des EKG) in die Studie einzubeziehen. Es ist zu erwarten, dass ein Test, der beispielsweise in Herzzentren erfolgreich eingesetzt wird, bei Anwendung in der niedergelassenen Praxis eine ganz andere Performance aufweist, da das Patientengut sich völlig anders zusammensetzt und sich die Prävalenz der Zielkrankheit unterscheidet.

In Phase-III-Studien können Cut-Off-Werte festgelegt werden, was schwieriger ist als gemeinhin angenommen. Da es immer eine Überlappungszone ("Grauzone") gibt, in der der Test gleiche Ergebnisse für Kranke und nicht Kranke ergibt, gilt es Abwägungen vorzunehmen: Sind eher falsch positive oder falsch negative Einordnungen als günstig zu bewerten? Weitere Hinweise zur Festlegung von Cut-Off-Werten.

Phase IV-Studien untersuchen den therapeutischen Nutzen einer dem diagnostischen Test folgenden therapeutischen Maßnahme (Wirksamkeitsstudien) und beantworten Fragen wie diese:
  • Führt die Einführung einer neuen bildgebenden Methode, die kleinere Tumorherde identifizieren kann, zu einer Steigerung der Überlebenszeit?
  • Betrachten wir Patienten, bei denen für bestimmte Medikamente Nebenwirkungen auftreten. Führt ein diagnostischer Test, der diese Patienten identifiziert, zu einer Senkung der Komplikationsrate?
Phase-IV-Studien sind in ihrer Durchführung komplex und aufwändig, und auf eine weitere Darstellung soll hier verzichtet werden.
    

Verzerrungen in diagnostischen Studien

Zum Schluss noch Hinweise zu drei systematischen Fehlern, die neben anderen Fehlern bei der Evaluierung diagnostischer Tests auftreten können und zu Verzerrungen (Bias) führen.

Selektionsbias/Spektrumbias: Dieses ist die Hauptverzerrung bei Klinischen Diagnosestudien. Die Verzerrung liegt vor, wenn die Selektion der untersuchten Patienten bzw. das Spektrum der in die Studie eingeschlossnenen Patienten nicht der klinischen Anwendungssituation entspricht. Dies wurde oben im Zusammenhang mit Phase-II-Diagnose-Studien bereits diskutiert.

Verifikationsbias: Eine wesentliche Verzerrung ist zu erwarten, wenn der Referenzstandard nicht in gleicher Qualität für alle Patienten erhoben werden kann. Beispielsweise wird ein invasives Verfahren nur bei den Testpositiven eingesetzt, während bei Testnegativen darauf verständlicherweise verzichtet wird. Es ist eine Überschätzung der Sensitivität zu erwarten.

Fehlende Verblindung, Information bias: Die Kenntnis des Testresultates des zu untersuchenden Tests beeinflusst das Ergebnis des Außenkriteriums. Dies ist insbesondere bei Verfahren zu erwarten, bei denen Befunde interpretiert werden müssen (bildgebende Verfahren). Ein besonders häufig anzutreffender Fehler bzgl. der Aufhebung der Verblindung ist das Nachtesten (also nochmalige Messen oder umfangreiche Prüfung) diskordanter (also falsch positiver oder falsch negativer) Fälle. Dies ist nur zulässig, wenn man gleichzeitig eine zufällig ausgewählte Teilprobe konkordanter Fälle ebenfalls dieser Prozedur unterzieht. In einer FDA-Richtline (2007) zu diagnostischen Studien wird dieser Aspekt detailliert betrachtet.


Literatur

Als Literatur empfehle ich insbesondere das Buch von MS Pepe. Bzgl. der Phasen diagnostischer Studien seien die beiden Publikationen von Köbberling et al. empfohlen.

Pepe MS (2003): The Statistical Evaluation of Medical Tests for Classification and Prediction. Oxford University Press 2003

Zhou X-H, Obuchowski NA, McClish DK (2011, 2nd ed). Statistical Methods in Diagnostic Medicine. Wiley Interscience New York.

Köbberling J, Richter K, Trampisch HJ, Windeler J: Methodologie der medizinischen Diagnostik. Entwicklung, Beurteilung und Anwendung von Diagnoseverfahren in der Medizin. Springer-Verlag Berlin Heidelberg New-York (1991)

Köbberling J, Trampisch HJ, Windeler J: Memorandum zur Evaluierung diagnostischer Maßnahmen. Schriftenreihe der GMDS (1989) 10
Begg CB: Biases in the Assessment of Diagnostic Tests. Stat. Med. (1987) 6, 411-423

Linnet K: A Review on the Methodology for Assessing Diagnostic Tests. Clin. Chem. (1988) 34, 1379-1386
Share by: