Chemometrie in der Analytischen Chemie

4. Clusteranalyse

  • Abb. 1: Biplot zum Datensatz der Honigproben (Objekt-Nummern der Proben, Merkmale:  Konzentration Cu, Mg, K, P, Ca, Mn, Na, Ba, Zn, Sr, B)Abb. 1: Biplot zum Datensatz der Honigproben (Objekt-Nummern der Proben, Merkmale: Konzentration Cu, Mg, K, P, Ca, Mn, Na, Ba, Zn, Sr, B)
  • Abb. 1: Biplot zum Datensatz der Honigproben (Objekt-Nummern der Proben, Merkmale:  Konzentration Cu, Mg, K, P, Ca, Mn, Na, Ba, Zn, Sr, B)
  • Abb. 2: Dendrogramm zum Datensatz der Honigproben
  • Abb. 3: Dialog kMeans-Berechnung
  • Abb. 4: 3D-Distanzplot des Honig-Datensatz
  • Abb. 5: Biplot zu den Proben von Polygonum cuspidatum
  • Abb. 6: Dendrogramm nach hierarchischer Clusteranalyse von Polygonum cuspidatum.
  • Abb. 7: Distanzplot zu Polygonum cuspidatum Datensatz
  • Tab. 1: Messwerte Element-Konzentrationen Honigproben
  • Tab. 2: Messwerte Konzentrationen Pflanzeninhaltsstoffe Polygonum cuspidatu

Die Clusteranalyse erfreut sich heutzutage vielerlei Anwendung, so beispielsweise bei der Verarbeitung von großen Datenmengen im Internet (big data). Natürlich findet eine solche Ermittlung von Zusammenhängen auch in diversen chemischen Disziplinen ihren Einsatz.

So z.B. in der forensischen Chemie bei der Einordnung gefälschter Medikamente (legales Generikum, kein bzw. zu geringer Wirkstoff, falscher Wirkstoff, falsche Galenik, ... [1]), der Lebensmittelchemie (Unterscheidung von Rum-Sorten [2]) bzw. der Klinischen Chemie (Gruppierung von Herzpatienten [3]).

Einleitung
Ziel der Clusteranalyse ist, für eine Sammlung von Objekten (z. B. Medikamenten-Chargen, Getränke-Proben, Patienten-Blutproben) anhand ihrer gemessenen Merkmale (z. B. Raman-Banden, Aromastoff-Konzentration, Blutparameter) Gruppierungen (Cluster) für Proben mit ähnlichen Eigenschaften zu finden. Anders als bei der Klassifizierung (bei der neue Proben bereits definierten Clustern zugeordnet werden) können bei der Clusteranalyse keine Vorgaben einbezogen werden (wie viele Cluster, welche Merkmale etc.). Dies erfordert daher oftmals ein interaktives Vorgehen, bei dem auf verschiedene Methoden zurückgegriffen wird. Dazu gehören die hierarchische Clusteranalyse, die kMeans- und MASLOC-Methode. Darüber hinaus wird in der Literatur auch die Hauptkomponenten-Analyse herangezogen.

Clusteranalyse
In der Literatur ist zumeist die hierarchische Clusteranalyse eingesetzt. Dabei geht man zunächst von den zwei Objekten aus, die die größte Ähnlichkeit miteinander beziehungsweise den gerinsten Abstand zueineinader haben, diese bilden den ersten Cluster. In der Folge werden sukzessiv je nach Abstand weitere Objekte diesem Cluster zugeordnet oder ein neuer Cluster gebildet. Zur Visualisierung dient häufig ein Dendrogramm (z.B. Abbildung 2) in dem die Abfolge der Zusammenfassungen dargestellt ist. Daraus können erste Informationen zu den Clustern abgelesen werden.
Die kMeans-Methode baut auf willkürlich vorgegebenen Clustern auf, deren Anzahl beispielsweise aus einer vorangegangen hierarchischen Analyse resultiert. Dann werden Objekte zunächst zufällig den Clustern zugeordnet.

Anschließend wird anhand der Abstände zu den verschiedenen Clustern ermittelt, ob das Objekt zu dem anfangs zugeordneten Cluster gehört oder besser zu einem anderen, zu dem der Abstand geringer ist. In der Folge werden die Objekte wiederholt neu zugeordnet, bis keine Verbesserung mehr erreicht wird.
Bei der MASLOC-Methode müssen zuvor die Clusterzahl fest vorgegeben und für jeden Cluster ein repräsentatives Referenzobjekt (centrotype) definiert sein. Daher wird diese Methode zur Clusteranalyse ohne Vorgaben zumeist nicht verwendet.
Die Hauptkomponenten-Analyse ist a priori nicht für die Clusteranalyse vorgesehen, aus der grafischen Darstellung der Hauptkomponenten (z.B. Biplot, Abbildung 1) können aber oft erste Informationen über Clusterzahl und Objektgruppierung getroffen werden.
Da zur Bedeutung der gewählten Merkmale (Signale, Konzentrationen) für die avisierte Cluster-Bildung keine Aussage gemacht werden kann, ist es sinnvoll, generell die aus den Merkmalen abgeleiteten Hauptkomponenten für die Berechnungen zu verwenden (es wird vorausgesetzt, das die 1. Hauptkomponente die größte Variabilität der Daten und damit die größte Bedeutung für die Clusteranalyse beschreibt).
Das detaillierte Vorgehen der angeführten Methoden soll an dieser Stelle nicht ausgeführt werden, hierzu wird auf einschlägige Monographien verwiesen [4, 5].
Resultat der Clusteranalyse ist eine minimale Clusterzahl mit einer optimalen Zuordnung der Objekte entsprechend ihren Merkmalen (z.B. Konzentrationen bzw. Hauptkomponenten). Eine Maßzahl für die Güte der Probenzuordnung ist z.B. der Davies-Bouldin-Index. Bezogen auf 2 Cluster beschreibt dieser den Quotienten des mittleren Abstands aller Objekte in Cluster 1 (Cl1) bzw. Cluster 2 (Cl2) relativ zur Distanz der beiden Cluster:

Der dbi-Wert sollte möglichst klein sein, dies zeigt an, dass die Cluster räumlich eng begrenzt und gut differenziert sind. Die Definition findet sich im Anhang (Gleichung 2), für mehrere Cluster werden die dbi-Werte für alle Paare berechnet und der Mittelwert angegeben. Nachfolgend soll die Thematik an Beispielen erläutert und ein generelles Vorgehen vorgeschlagen werden. Für die Realisierung wird die Software-Implementierung „Cluster“ eingesetzt.

Beispiel: Botanische Herkunft verschiedener Honigproben
In der Publikation von Fernández-Torres [6] wurde mittels ICP-AES die Elementzusammensetzung (P, B, Zn, Mn, ..., Na, K) diverser Honigproben bestimmt (Tabelle 1). Anhand dieser Konzentrationen soll die Herkunft festgestellt und Honigproben mit ähnlichem oder gleichem Ursprung (Eukalyptus, Rosmarin, ...) in einem entsprechenden Cluster zusammengefasst werden.
Da bei der Clusteranalyse die Relevanz der Merkmale nicht bewertet werden kann, ist es empfehlenswert, zunächst eine Hauptkomponentenanalyse durchzuführen.
Zur Festlegung der Hauptkomponenten-Zahl dient die Kreuzvalidierung (Bootstrapping [4, 7]). Im resultierenden Biplot (Abbildung 1), kann man vorab schon näherungsweise erkennen, wie viele Cluster es geben wird (hier: 3 - 4) und welche Objekte vermutlich hierzu gehören. Der nächste Schritt ist die Durchführung der hierarchischen Clusteranalyse, daraus resultiert das Dendrogramm.
Es wird deutlich, dass zuerst die Proben 23 und 24 zusammengefasst wurden, dann kam die Probe 17 hinzu, danach die Proben 19 bis 22, die zusammen vermutlich einen ersten Cluster bilden.
Ein Schnittpunkt einer vertikalen Distanz-Linie mit der Grenzlinie (grau gestrichelt) deutet die Objekte eines Clusters an. Problem der hierarchischen Clusteranalyse ist die Anordnung der Grenzlinie, hier sind viele Varianten in der Literatur beschrieben („Cluster“ verwendet die Mojena-Variante mit diversen Faktoren, vgl. Anhang Gleichung 3.) Empfehlenswert ist der Ausdruck des Dendrogramms und das manuelle Zeichnen einer horizontalen Grenze.
Aus dem Dendrogramm der Honigproben kann man auf vermutlich 3 Cluster schließen. Mit diesen Vorab-Informationen wird die kMeans-Methode benutzt, um eine abschließende Clusteranalyse durchzuführen. Auf Grund der zufälligen Zuordnung der Objekte im 1. Schritt, kann die kMeans-Methode mit anderen Startparametern wiederholt werden (bei einer optimalen Implementierung ist der Algorithmus parallelisierbar, so dass die Berechnung auf einem Mehrkern-Rechner im Hintergrund erfolgt).
Die Software erlaubt diverse Einstellungen für die kMeans-Berechnung wie in der Dialogbox in Abbildung 3 dargestellt (erwartete Clusterzahl: 3 ± 1, jeweils 1000 Wiederholungen).
Um die Güte der jeweiligen kMeans-Berechnung zu bewerten, wird der Davies-Bouldin-Index herangezogen, die beste Cluster-Anordnung wird festgehalten.
Das Resultat der  kMeans-Clusteranalyse sind 3 Cluster mit definiert zugeordneten Proben (mittlerer dbi-Wert = 0,22).
Da die Berechnung von den gewählten Parametern abhängt (hier: Standardisierung der Daten, euklidischer Objektabstand, median-linkage Cluster-Distanz) sollten die Resultate visuell kritisch bewertet werden, z.B. in Form eines Distanzplot, wenn möglich mit einem interaktiven 3D-Grafen. Der resultierende 3D-Distanzplot in Abbildung 4 visualisiert das Ergebnis der durchgeführten Clusteranalyse. Es wird deutlich, wie die Objekte den Clustern zugeordnet sind, so hat z.B. Objekt 3, das Cluster 2 zugeordnet wurde, eine minimale Distanz zu Cluster 2, eine große Distanz zu Cluster 1 und 3. Es kann festgehalten werden, dass in diesem Fall die Clusteranalyse sichere und nachvollziehbare Resultate ergibt. Weiteres Beispiel (Geographische Herkunft eines pflanzlichen Arzeimittels) ist in der online-Version (s.u.).

Beispiel 2: Produktionskontrolle von Proben des japanischen Staudenknöterichs
In diesem Beispiel wird ein Datensatz mit mehreren Proben von Polygonum cuspidatum verschiedener geographischer Herkunft untersucht (Tabelle 2). Polygonum cuspidatum wird häufig in der Pflanzenheilkunde verwendet und enthält diverse Inhaltsstoffe (Gallensäure gaa, Epicatecin epi, Resveratrol res, ...) in  verschiedenen Konzentrationen. Die Quantifizierung erfolgte mittels HPLC-Trennung, die Identifizierung mittels GC-MS [8].
Die Clusteranalyse soll feststellen, ob alle gesammelten Proben diverser Herkunft für die Produktion zusammengeführt werden können oder ob einzelne Chargen sich signifikant unterscheiden (d.h. zu anderen Clustern gehören). Das Vorgehen ist wie in Beispiel 1, zunächst erfolgt eine Hauptkomponenten-
Analyse (gleiche Parameter wie oben), Abbildung 5 zeigt den resultierenden Biplot. In diesem Fall liegen die Proben weit gestreut, dennoch kann man vermuten, dass es ca. 2 bis 3 Cluster geben wird, die Proben 3, 6 sind evtl. deutlich unterschiedlich, verglichen mit den übrigen Proben. Es wird auch deutlich, dass die Inhaltsstoffe nicht optimal gewählt wurden, z.B. die Ladungen (graue Linien im Biplot), von Gallensäure gaa, Physcion phy, Resveratrol
res sind sehr ähnlich, diese Substanzen beschreiben daher vergleichbare Eigenschaften.
Mit optimaler Hauptkomponenten-Zahl (1 Hauptkomponente nach Kreuzvalidierung, Bootstrapping-Variante) lässt die hierarchische Clusteranalyse anschließend auf zwei oder drei Cluster schließen (Abbildung 6, Grenzlinie a bzw. b). Die finale Cluster-Zuordnung liefert anschließend die kMeans-Methode mit 3 Clustern, bei denen die Proben 6 bzw. 5 / 10 / 12 von den übrigen differenziert wurden. Der 3D-Distanzplot verdeutlicht dies.

Zusammenfassung
Die hier genannten Beispiele zeigen, inwieweit die Clusteranalyse heutzutage in der Analytischen Chemie verwendet werden kann. Günstig ist, wenn diverse chemometrische Optionen (diverse Skalierungen, Abstands-, Distanzmaße) und verschiedene Methoden zur Verfügung stehen. Mit Einsatz des Programms „Cluster“ hat sich folgendes Procedere bewährt:

  • Voruntersuchung mittels Hauptkomponentenanalyse und hierarchischer Clusteranalyse,
  • finale Clusteranalyse mit der kMeans-Methode,
  • visuelle Bewertung der Resultate

Insbesondere dem letzten Schritt obliegt eine besondere Bedeutung, da die Resultate oft von den gewählten Parametern (besonders der optimalen Hauptkomponenten-Zahl) abhängen. Sinnvoll ist zudem, wenn die Resultate mit weiteren Probe-Informationen in Zusammenhang gesetzt werden können.

Anhang
a) Davies-Bouldin-Index:

b) Mojena-Grenze:
 

Autoren
David Hornung, Eckhard Reh

Kontakt  
Prof. Dr. E. Reh
Technische Hochschule Bingen
Bingen, Deutschland
info@chemometrie.info

Literatur

[1] Been, F. et al, Profiling of counterfeit medicines by vibrational spectroscopy, Forensic Sci. Int., 211, 83-100 (2011),

[2] Belmonte-Sánchez, J., R., Rum, Classification using fingerprint analysis of volatile fraction by headspace solid microextraction coupled to gas chromatography-mass spectrometry, Talanta, 187, 348-356 (2018)

[3] Horiuchi, Yu et al, Identifying novel phenotypes of acute heart failure using cluster analysis of clinical variables, Int. J. Cardiol., 262, 57-63 (2018)

[4] Reh, E., Chemometrie, Grundlagen der Statistik, numerischen Mathematik und Software-Anwendung in der Chemie, de Gruyter, 2017

[5] Brereton, R.G., Chemometrics, Data Analysis for Laboratory and Chemical Plant, Wiley, 2006

[6] Ferández-Torres, R., et al, Mineral content and botanical origin of Spanish honeys, Talanta, 65, 686-691 (2005)

[7] Reh, E., Validierung Clusteranalyse, www.chemometrie.info/literatur-titel.html

[8] Gao, F. et al., A comprehensive strategy using chromatographic profiles combined with chemometric methods: Application to qualtiy control of Polygonum cuspidatum Sieb. et Zucc., J. Chrom. A, 1466, 67-75 (2016)

Weitere Beiträge zur Chemometrie

Beiträge von Eckhard Reh

 

Jetzt registrieren!

Die neusten Informationen direkt per Newsletter.

To prevent automated spam submissions leave this field empty.