Chemometrie in der analytischen Chemie

5. Diskriminanzanalyse in der Qualitätskontrolle

  • Abb. 1: 2-Cluster-Klassifizierung ▪ Euklidische Diskriminanzanalyse (Klassifikator: graue Linie, gestrichelt), ▪ Quadratische Diskriminanzanalyse (Klassifikator: schwarze Kurve), ▪ Grauer Punkt: zu klassifizierendes Objekt; ▪ *: Zentroid des jeweiligen ClustersAbb. 1: 2-Cluster-Klassifizierung ▪ Euklidische Diskriminanzanalyse (Klassifikator: graue Linie, gestrichelt), ▪ Quadratische Diskriminanzanalyse (Klassifikator: schwarze Kurve), ▪ Grauer Punkt: zu klassifizierendes Objekt; ▪ *: Zentroid des jeweiligen Clusters
  • Abb. 1: 2-Cluster-Klassifizierung ▪ Euklidische Diskriminanzanalyse (Klassifikator: graue Linie, gestrichelt), ▪ Quadratische Diskriminanzanalyse (Klassifikator: schwarze Kurve), ▪ Grauer Punkt: zu klassifizierendes Objekt; ▪ *: Zentroid des jeweiligen Clusters
  • Abb. 2: Fließschema Bootstrapping relevante Merkmale (p: Merkmalzahl)
  • Abb. 3: Clusterplot Keramik-Objekte, Merkmal Ba, Ca, Mg (standardisiert) rot: Cluster mit Ton-haltigen Objekten)
  • Abb. 4: Distanzplot Lymph-Objekte (Mahalanobis Distanz)
  • Abb. 5: Clusterplot Lymph-Proben, Merkmal 1225, 1425, 1626 ± 25 cm-1
  • Tab. 1: Auszug Validierungs-Resultate CLUSTER
  • Tab. 2: Auszug Validierungs-Resultate CLUSTER

Die Diskriminanzanalyse ist eine Klassifizierungs-Methode, die in unterschiedlichsten Bereichen häufig eingesetzt wird. Ziel ist, Objekte an Hand ihrer unterschiedlichen Merkmale (Variablen) vorgegebenen Gruppen (Cluster) zuzuordnen. Zum Beispiel wird im Finanzwesen ein Kunde als kreditwürdig oder nicht kreditwürdig eingestuft, je nach seinen Merkmalen wie Schufa-Score, Einkommen, Zahl laufender Kredite etc.

Auch in der Chemie ist die Klassifizierung weit verbreitet, Merkmale sind hier Signale oder Konzentrationen vorliegender Proben, z. B. Nachweis gefälschten Biodiesels mittels NMR-Spektren [1]
Oftmals ist jedoch die Anwendung nicht optimal, teilweise fehlerhaft, zum Beispiel, weil eine unpassende Klassifizierungs-Methode eingesetzt wurde. Daneben werden die besonderen Aspekte der Diskriminanzanalyse nicht erkannt bzw. genutzt. So wird immer wieder die lineare Diskriminanzanalyse mittels Diskriminanzfunktion verwendet, was auf Grund mehrerer Aspekte deplatziert ist (entschuldigend kann dies vielleicht damit erklärt werden, dass in der verwendeten Software meist keine Alternativen implementiert sind).
Es sollen daher zuerst die numerischen Grundlagen der Diskriminanzanalyse kurz behandelt werden (für eine detaillierte theoretische Abhandlung siehe [2]) bevor sie mit Hilfe des Programms CLUSTER (Institut Chemometrie [3]) in zwei Anwendungsbeispielen eingesetzt wird.
 
Grundlagen
 
a) Vergleich diverser Klassifizierungs-Methoden
Im Unterschied zur Clusteranalyse ohne Vorinformationen liegen bei der Klassifizierung die Gruppierungen (Cluster) bereits vor mit sicher zugewiesenen Objekten (= Modellobjekte). Beispielsweise liegen in der klinischen Chemie viele Blutproben vor mit unterschiedlichen, bekannten Blutparametern z. B. von Karzinom-Patienten (Cluster 1) und gesunden Probanden (Cluster 2). Ziel der Diskriminanzanalyse ist, neue Blutproben (= Probeobjekte) an Hand ihrer klinischen Parameter einem der beiden Clustern zuzuordnen, um evtl. entsprechend der Diagnose eine angemessene Therapie einzuleiten.

Anhand des Beispiels werden mehrere Aspekte für die Diskriminanzanalyse abgeleitet:

  • es liegt ein 2-Cluster-Fall vor (kranke / gesunde Probanden). Oftmals liegen mehr Cluster vor, z. B. Qualitätskontrolle diverser Fruchtsäfte durch Kapillarelektrophorese [4]. Die Diskriminanzanalyse sollte nur im 2-Clusterfall eingesetzt werden. Für mehrere Cluster kann sie prinzipiell mehrfach für die diversen Clusterpaare angewendet werden, es gibt aber alternative, z.T. bessere Methoden (z. B. kNN-, SIMCA-Methode).
  • es liegt eine scharfe Zuordnung vor (ein Objekt kann nur einem Cluster angehören, einen 75 % kranken Patienten gibt es nicht). Dies ist in der Diskriminanzanalyse unabdingbar. In der chemischen Anwendung muss dies nicht zwingend gegeben sein, so kann es sich bei einer chemischen Substanz um eine Säure oder ein Amin handeln, es gibt aber auch Verbindungen, die beiden Clustern zuzuordnen sind (z. B. Aminosäuren). In solchen Fällen (unscharfe Zuordnung) ist zwingend die SIMCA-Methode zu verwenden.
  • ein Objekt muss immer einem vorgegebenen Cluster zugeordnet sein (Objekte, die zu keinem Cluster passen, Ausreißer, gibt es nicht. Der Patient ist gesund oder krank). In vielen chemischen Anwendungen können aber Ausreißer auftreten, dann ist die kNN- als auch die SIMCA-Methode die richtige Wahl. Daneben werden auch komplexe Algorithmen wie z. B. support vector machines oder AI-Methoden z. B. mit neuronalen Netzen eingesetzt [2]. Für chemische Anwendungen sind diese oft nicht notwendig und evtl. überzogen (overfitting) [5].
Die Situation wird unübersichtlicher dadurch, dass es diverse Varianten der Diskriminanzanalyse gibt, z. B. die euklidische, lineare, quadratische, regularisierte, PLS- oder Maximum-Likelihood-Diskriminanzanalyse.
 
 
b) Vergleich euklidische, quadratische Diskriminanzanalyse
Abbildung 1 skizziert den Einsatz von euklidischer bzw. quadratischer Diskriminanzanalyse in einem einfachen Fall mit 2 Merkmalen (Variablen x1, x2). Im Fall der oft verwendeten euklidischen Diskriminanzanalyse ist der Klassifikator („Grenze“) zwischen beiden Clustern eine Gerade bzw. Hyperebene im n-dimensionalen Raum (Abbildung 1, gestrichelte, graue Linie). Es ist offensichtlich, dass dies, wie bei den meisten anderen Varianten, in kritischen Fällen unpassend ist. Nur die quadratische Diskriminanzanalyse liefert eine gekrümmte Kurve/Hyperfläche als Klassifikator und damit nahezu immer bessere Resultate (Abb. 1, schwarze Kurve). Darüber hinaus gibt es zwei numerische Ansätze zur Bestimmung des Klassifikators. Oft wird die aufwendige Berechnung einer Diskriminanzfunktion verwendet (numerische Details vgl. [2]). Sowohl bei euklidischer als auch quadratischer Diskriminanzanalyse ist der Klassifikator jedoch einfach definiert durch Punkte gleicher Distanz zu Cluster 1 bzw. 2.
Der direkte Ansatz zur Klassifizierung eines neuen Objekts basiert auf der Verwendung der Distanz des Objekts zu Cluster 1 bzw. Cluster 2. Das Objekt wird dem Cluster zugeordnet, zu dem (bzw. zu dessen Schwerpunkt, Zentroid, vgl. Abbildung 1) es die geringere Distanz hat (der Klassifikator ist hier zur Klassifizierung nicht explizit nötig).
  • Für den Fall der euklidischen Distanz eines Objekts zum Cluster 1, d(O, C1), gilt
   (1)
 
mit xO: Merkmals-Vektor Objekt O; z1: Zentroid-Vektor Cluster 1; T: transponierter (Zeilen-)Vektor
Gleichung 1 definiert den vektoriellen Abstand zwischen Objekt O und dem Zentroid des Clusters 1, analog für die Distanz zu Cluster 2.
Für die Distanz zu Cluster 1 wird bei der quadratische Diskriminanzanalyse die Mahalanobis-Distanz verwendet:
 
 (2)
analog für Cluster 2
mit C1-1: inverse Varianz-Kovarianz-Matrix berechnet aus Varianz-Kovarianz-Matrix der Merkmale von Cluster 1 (siehe Anhang)
Die Bestimmungsgleichung für den Klassifikator ist in beiden Fällen definiert durch Punkte XP mit gleicher Distanz zu Cluster 1 und 2, es gilt:
 
 (3)
Nur bei der quadratischen Diskriminanzanalyse verbleiben quadratische Terme, es folgt eine gekrümmte Kurve, Hyperfläche als Klassifikator.
Ein Vergleich euklidische, quadratische Diskriminanzanalyse für 3 entsprechende Merkmale ist auf dem Coverbild dargestellt. Nachteilig bei der quadratischen Diskriminanzanalyse ist, dass die numerische Berechnung einer inversen Matrix (C1-1, C2-1) kritisch sein kann. Der Grund liegt zumeist in der Qualität der Daten, wenn z. B. viele Merkmale voneinander abhängig sind (Kollinearität) [6]).
Daher ist meist eine Optimierung der eingesetzten Merkmale sinnvoll.
 
 
c) Selektierung Merkmale
Während in vielen Publikationen unterschiedlichste Klassifizierungs-Methoden verglichen und bewertet werden, wird oftmals ein zentraler Aspekt einer optimalen Differenzierung außer Acht gelassen. Entscheidend ist, welche Merkmale (Konzentrationen, Signale) für den aktuellen Fall eingesetzt werden. Es ist in den meisten Fällen nicht hilfreich, möglichst viele Parameter zu verwenden. Essentiell ist, die für die vorliegende Aufgabenstellung relevanten Merkmale zu benutzen. Anders als bei der Clusteranalyse, stehen in der Klassifizierung durch die bekannte Zugehörigkeit der Modell-Objekte zu den Clustern Methoden zur Verfügung, die relevanten Merkmale zu selektieren (feature selection). Zur Beurteilung der Qualität der Klassifizierung wird als Maßzahl meist der Anteil korrekt zugeordneter Probe-Objekte, %CC, verwendet. Es gilt
 
(4)
mit TPc: Zahl korrekt zugeordneter Objekte in Cluster c; n: Gesamtzahl Objekte; m: Clusterzahl
Der %CC-Wert kann z. B. ermittelt werden, indem alle Modell-Objekte zusätzlich als Probe-Objekte neu zugeordnet werden (Autoprediction, suboptimal da Probe- = Modell-Objekte).
 
Rang eines Merkmals
Ein Merkmal (z. B. Konzentration Ba) hat einen hohen Rang, wenn der Unterschied seines Mittelwerts in den Clustern groß ist. Im 2-Cluster-Fall kann hierzu die Student-t-Prüfgröße herangezogen werden, allgemein einsetzbar im n-Cluster-Fall ist der Fisher-Wert:
 
 
  (5) für Variable k
mit  -xck: Mittelwert k-te Variable in Cluster c;   -xk: Mittelwert k-te Variable über alle Cluster;
nc: Probezahl in Cluster c; m: Clusterzahl; sck: Standardabweichung k-te Variable in Cluster c
Der Fisher-Wert liefert, nach fallender Größe sortiert, den Rang der Merkmale.
Zusätzlich kann mit Hilfe von Monte-Carlo-Methoden die Signifikanz der Merkmale bestimmt werden [5]. Dies ist jedoch für die Ermittlung der relevanten Merkmale nicht zwingend erforderlich.
 
 
Relevante Merkmale
Nur Merkmale, die auch einen wesentlichen Beitrag leisten, sollten zur Klassifizierung herangezogen werden. Die numerische Behandlung zur Ermittlung solcher, relevanter Merkmale (Bootstrapping) ist aufwändiger und soll hier phänomenologisch behandelt werden (detaillierte Diskussion siehe [5]). Die Modellobjekte werden zufallsbedingt in Trainings- und Test-Set (2/3 und 1/3) aufgeteilt, basierend auf den Trainings-Objekten werden die Test-Objekte klassifiziert d.h. einem der beiden Cluster zugeordnet (auf Grund der Zufallseinteilung wird dieses 100 x wiederholt).
In einem 1. Teil wird aus den jeweiligen Trainings-Objekten der Rang jedes Merkmals xk bestimmt, bzw. aus den Wiederholungen der Mittelwert jedes Rangs.
In einem 2. Teil wird danach die Klassifizierung mit einem Merkmal (mit dem höchsten Rang) durchgeführt und die Güte %CC1 ermittelt. Im nächsten Zyklus wird das 2. Merkmal (mit nächst geringerem Rang) hinzugenommen, usw. jeweils 100 x (Bootstrapping mit Mittelwertbildung).
Wird die Güte der Klassifizierung (%CCj) durch ein weiteres Merkmal j nicht mehr verbessert, sind die verbliebenen Merkmale (mit geringem Rang) nicht relevant und sollten unberücksichtigt bleiben. Abbildung 2 gibt das Procedere als Fließschema wieder.
 
Beispiel 1: Keramik-Proben
Aufgabenstellung ist die Bewertung von Keramik-Proben [7] und Unterscheidung in Ton- bzw. C-haltiges Material mit Hilfe von Element-Konzentrationen (Ti, Sr, Ba, Mn, Cr, Ca, Al, Fe, Mg, Na, K). Abbildung 3 zeigt den Clusterplot, die Lokalisierung der Proben im 3D-Raum von je 3 Variablen, Konzentrationen Ba, Ca, Mg (standardisiert, siehe Anhang). Tabelle 1 zeigt einen Auszug des Validierungs-Reports des verwendeten Programms (CLUSTER) für die Keramik-Objekte und listet u. a. den Rang der Merkmale auf. Hohen Rang haben Ca, Ba, Mg (nicht signifikant sind Cr und K, Signifikanz-Werte nicht angegeben).
Die Kontingenz-Tabelle der euklidischen Diskriminanzanalyse zeigt, dass von 23 Objekten des Cluster 1 alle korrekt Cluster 1 zugeordnet wurden, von den 35 Objekten des Cluster 2 aber 3 falsch dem Cluster 1 zugeordnet wurden, der %CC-Wert ist entsprechend nur 94,83 % (Autoprediction). Bei der quadratischen Diskriminanzanalyse wurden alle Objekte korrekt den beiden Clustern zugeordnet, der %CC-Wert ist 100 % (Autoprediction).
Der mittlere %CCj-Wert (Bootstrapping) steigt bei Erhöhung auf 2 Merkmale (mit Rang 1 und 2), danach fällt der Anteil der korrekt zugeordneten Objekte ab, d. h. weitere Merkmale verschlechtern die Zuordnung z.B. auf Grund der geringeren Bedeutung für die Differenzierung bzw. höherem Rauschen. Die Konsequenz ist, dass statt einer ICP-MS-Analyse vieler Elemente eine einfache Atom-Emissions-Messung weniger Erdalkali-Elemente ausreichen (Ca, Ba, evtl. Mg).
 
Beispiel 2: Lymph-Gewebe
Zur schnellen Differenzierung von Lymph-Proben (cancerogen, normal) wurde der wäßrige Gewebe-Extrakt mittels Raman-Spektroskopie untersucht [8]. Die Spektren wurden in feste, konsekutive Intervalle von je 50 cm-1 unterteilt und die mittlere Bandenhöhe in die Klassifizierung einbezogen (dies entspricht dem durch die FDA propagierten Vorgehen für kontinuierliche Messreihen).
Der Distanzplot Abbildung 4 deutet auf eine akzeptable Differenzierung beider Cluster hin. Im Distanzplot wird die Distanz eines Objektes zum Zentroid der beiden Cluster aufgetragen, d.h. Objekt 48 hat eine kleine Distanz zu Cluster 1 (dem es angehört) und große Distanz zu Cluster 2.
Die Optimierung und Validierung der Modell-Objekte zeigt Tabelle 2. Bei 174 Merkmal-Paaren liegen hohe Korrelationen vor (rxj,xk > 0,9, nicht explizit angegeben), dies ist nicht verwunderlich beim Einsatz äquidistanter Raman-Spektralbereiche.
Die Fischer-Werte sind generell sehr klein, haben geringe Bedeutung zur Differenzierung (nur die 4 Merkmalsbereiche 925, 1225, 1425, 1625 ± 25 cm-1 sind signifikant, Signifikanz-Werte nicht angegeben).
Die Kontingenz-Tabelle (quadratische Diskriminanzanalyse, nicht explizit angegeben) zeigt, dass von 53 Objekten des Cluster 1 nur 52 korrekt Cluster 1 zugeordnet wurden, von den 50 Objekten des Cluster 2 wurde ebenfalls eins falsch dem Cluster 1 zugeordnet, der %CC-Wert ist ~ 98 % (Autoprediction).
Der mittlere %CCj-Wert (Bootstrapping) steigt mit Erhöhung der Merkmal-Zahl bis zum 6. Merkmal gravierend, danach nur gering bis auf ~ 80 %.
Abbildung 5 gibt im 3D-Clusterplot der 3 Merkmale mit höchstem Rang eine visuelle Abschätzung der kritischen Differenzierung (im höher dimensionalen Raum wird dies evtl. günstiger sein).
Zur Verbesserung der Klassifizierung sollte primär ein optimaler Ansatz zur Ermittlung diskreter Merkmale herangezogen werden, die Verwendung des gesamten spektralen Bereichs in Form fester Intervalle (FDA-Procedere) kann nicht empfohlen werden. Für die Extraktion von diskreten Merkmalen aus kontinuierlichen Messreihen (feature extraction) wie z. B. IR-Spektren oder ungetrennter GPC-Chromatogramme gibt es bessere Ansätze (z. B. successive projection, loading spectrum [9]).
 
Zusammenfassung:
Für die Diskriminanzanalyse muss festgehalten werden:
  • sie ist nur im 2-Cluster-Fall bei scharfer Zuordnung ohne Ausreißer sinnvoll,
  • in der Chemie ist die quadratische Diskriminanzanalyse zumeist die Methode der Wahl,
  • die Bestimmung / Verwendung der relevanten Merkmale ist sehr wichtig.
Die quadratische Diskriminanzanalyse bietet sehr gute Klassifizierungen auch in kritischen Aufgabenstellungen bei optimaler Wahl relevanter Merkmale. Die kNN- oder SICMA-Methode sind valide Alternativen zur Diskriminanzanalyse.
Der Einsatz aufwendiger Algorithmen wie z. B. support vector machines, learning vector quantisation oder artificial neuronal networks ist in der Chemie zumeist nicht nötig, sondern birgt zudem die Gefahr einer nicht realen Überinterpretation (overfitting) [5].
 
Anhang
1. Varianz-Kovarianz-Matrix C1 (Objekte in Cluster 1 mit 2 Merkmalen x1, x2)
 
(6)
 
(7)
 
 
(8)
mit n1: Objekt-Zahl in Cluster 1; Merkmale j und k
 
2. Standardisierung xsik (bei sehr unterschiedlichen Merkmalgrößen)
(9)
mit sk: Standardabweichung Merkmal k (Freiheitsgrad n)
 
 
3. Korrelationskoeffizient rxj,xk (für die Merkmale j und k aller Modellobjekte)
 
(10)
 
 
Autor
Eckhard Reh
 
Kontakt   
Prof. em. Dr. Eckhard Reh

Technische Hochschule Bingen
Bingen, Deutschland
info@chemometrie.info
 

 

Literatur

[1] Álvaro C. Neto, et al., Quality control of ethanol fuel: Assessment of adulteration with methanol using 1H-NMR, Fuel, 135, 387-392, 2014; doi:10.1016/j.fuel.2014.07.017

[2] Reh, E., Diskriminanzanalyse, www.chemometrie.info/literatur-titel.html

[3] Cluster Zielsetzung www.chemometrie.info/statistikcluster-zielsetzung.html

[4] María Navarro-Pascual-Ahuir et al, Quality control of fruit juices by using organic acids determined by capillary zone electrophoresis with poly(vinyl alcohol)-coated bubble cell capillaries, Food Chemistry, 18, 596-603, 2015; doi:10.1016/j.foodchem.2015.05.057

[5] Brereton, R.G., Chemometrics for Pattern Recognition, Wiley-VCH, Weinheim, 2009

[6] Reh, E. Chemometrie: Grundlagen der Statistik, Numerischen Mathematik und Software Anwendungen in der Chemie. Walter de Gruyter GmbH & Co KG, 2017

[7] Bruno, P., Caselli, M., Curri, M.L., Genga, A., Striccoli, R, Traini, A., Chemical characterisation of ancient pottery from south of Italy by Inductively Coupled Plasma Atomic Emission Spectroscopy (ICP-AES): Statistical multivariate analysis of data, Anal. Chim. Acta., 410, 193-202, 2000; doi:10.1016/S0003-2670(00)00734-0

[8] Lloyd, G.R., Orr, L.E., Christie-Brown, J., Discrimination between benign, primary and secondary malignancies in lymph nodes from the head and neck utilising Raman spectroscopy and multivariate analysis, Analyst, 138, 3900-3908, 2013; doi:10.1039/C2AN36579K

Kontaktieren

Technische Hochschule Bingen


Jetzt registrieren!

Die neusten Informationen direkt per Newsletter.

To prevent automated spam submissions leave this field empty.