24.10.2014
ForschungUmwelt

Chemometrische Auswertung von Umweltdaten - Teil 1

Grundlegende Methoden der multivariaten Datenanalyse

  • Abb. 1: Fallbeispiel I – „Sedimentproben der Saale“: Dendrogramm der Merkmale.Abb. 1: Fallbeispiel I – „Sedimentproben der Saale“: Dendrogramm der Merkmale.
  • Abb. 1: Fallbeispiel I – „Sedimentproben der Saale“: Dendrogramm der Merkmale.
  • Abb. 2: Fallbeispiel I – „Sedimentproben der Saale“: Dendrogramm der Objekte.
  • Abb. 3: Fallbeispiel II – „Bodenproben der Unterwellenborn-Region“: Clusterimaging der Dendrogramme der Merkmale und der Objekte.
  • Abb. 4: Fallbeispiel I – „Sedimentproben der Saale“: Ergebnisse der Diskriminanzanalyse.

Chemometrische Methoden ermöglichen es, Strukturen oder Zusammenhänge in unübersichtlichen Datenmatrizen aufzudecken, die auf einen gemeinsamen Ursprung zurückzuführen sind. Bei Untersuchungen in der Umwelt werden dabei in der Regel viele verschieden Substanzen bzw. Substanzklassen in einer großen Zahl an Proben nachgewiesen. Durch die erfolgreiche Entwicklung neuer Messtechniken können im Idealfall alle interessierenden Parameter bestimmt werden, woraus sich große Datensätze ergeben.

Hier geht es zu Teil 2: Faktorielle Methoden der multivariaten Datenanalyse

Diese bestehen aus m Merkmalen bzw. Elementen und n Objekten bzw. Proben. Mit einem „einfachen Blick auf die Daten“ können diese Datensätze jedoch nicht sinnvoll ausgewertet und interpretiert werden. Allerdings ist es möglich diese Datensätze mit chemometrischen Methoden im Hinblick auf verschiedenste Fragestellungen sinnvoll zu untersuchen [1].

Ein wichtiger Fokus bei Umweltuntersuchungen liegt dabei auf der Gruppenzugehörigkeit der Merkmale bzw. Objekte. Mittels Clusteranalyse oder auch Clusterimaging lässt sich diese sehr gut veranschaulichen. Ein weiterer Ansatz ist die sinnvolle Merkmalsauswahl zur Trennung verschiedener Klassen und die sich anschließende Zuordnung unbekannter Proben in diese Klassen. Diese Fragestellungen können mit der Diskriminanzanalyse beantwortet werden [1].

Im ersten Teil der chemometrischen Auswertung von Umweltdaten werden diese Methoden anhand zweier verschiedener Fallbeispiele näher erläutert.

Fallbeispiel I – „Sedimentproben der Saale“ [2]
Die Saale ist 427 km lang und einer der drei größten Nebenflüsse der Elbe. Entlang ihrer Fließstrecke wurden 36 Sedimentproben entnommen. Diese wurden kleiner 20 μm gesiebt und im Königswasserauszug 17 Elementgehalte bestimmt. Für die chemometrische Auswertung ergibt sich eine Datenmatrix der Dimension 36 x 17.

Fallbeispiel II –„Bodenproben in der Unterwellenborn-Region“
In der Umgebung des Stahlwerks Thüringen wurden 60 Bodenproben auf einem Gebiet von 12 km2 untersucht.

Im Königswasseraufschluss dieser Proben konnten 15 Elementgehalte bestimmt werden. Für die chemometrische Auswertung ergibt sich eine Datenmatrix der Dimension 60 x 15.

Clusteranalyse & Clusterimaging
Die Methode der Clusteranalyse ermöglicht es, Merkmale oder auch Objekte anhand ihrer Ähnlichkeit in Gruppen zusammenzufassen. Die wichtigste Darstellungsform dafür ist das Dendrogramm. Als Fusionierungsalgorithmus hat sich die Methode nach Ward mit der quadrierten euklidischen Distanz bewährt. Die kombinierte Darstellung des Merkmals- und Objektdendrogrammes ermöglicht eine gleichzeitige Interpretation der Zusammenhänge zwischen den Merkmalen und Objekten und wird als Clusterimaging bezeichnet. [3]

Clusteranalyse
Die Möglichkeiten der Clusteranalyse für die Dateninterpretation sollen anhand des Fallbeispiels I (Dendrogramme in Abbildung 1 und 2) vorgestellt werden.

Im Dendrogramm der Merkmale werden die Elemente entsprechend ihrer Ähnlichkeit zu Clustern fusioniert. Es sind drei gut voneinander getrennte Cluster zu erkennen. In den jeweiligen Clustern verhalten sich die Elemente ähnlich zueinander. Die Elementgehalte in Cluster 1 steigen von der Quelle zur Mündung kontinuierlich an. In Cluster 2 werden die Elemente zusammengefasst, deren Gehalte in den Sedimentproben im Oberlauf erhöht sind. Die hohen Chromgehalte in dieser Region sind durch die ehemalige Chromlederindustrie in Hirschberg zu erklären. Die anderen Elemente werden geogen durch die angrenzenden Mittelgebirge in die Saale eingetragen. In Cluster 3 werden die Elemente vereinigt, die in den Proben im Unterlauf erhöhte Gehalte aufweisen. Die Ursache dafür liegt in der Entwässerung des ehemaligen Kupferschieferbergbaues im Mansfelder Land durch Nebenflüsse der Saale.

Im Dendrogramm der Objekte werden die Probennahmestellen zu sich ähnelnden Probenclustern zusammengefasst. Es ergeben sich vier unterschiedliche Gruppen. In Cluster 1 sind die ersten sechs Proben aus dem Oberlauf und in Cluster 2 die letzten vier Proben aus dem Unterlauf zu finden. In Cluster 3 befinden sich alle Proben des Mittellaufs, die ebenfalls deutlich abgetrennt werden. Im letztem Cluster 4 werden fünf Proben aus dem Unterlauf mit der Probe der Quelle und der nach der Bleilochtalsperre zusammengefasst.

Die Sedimentproben der Saale können mit Hilfe der Clusteranalyse in vier Teilabschnitte eingeordnet werden und diese Trennung kann sinnvoll interpretiert werden. [2]

Clusterimaging
Die Vorteile der zweidimensionalen Darstellung werden anhand des in Abbildung 3 dargestellten Clusterimagings für das Fallbeispiel II näher erläutert.

Die Falschfarbendarstellung ermöglicht eine sehr gute visuelle Darstellung und damit verbundene Interpretation der Datenmatrix. Probennahmestellen mit niedrigen Elementgehalten sind dunkelblau dargestellt, Probennahmestellen mit hohen Elementgehalten rot. Durch diese graphische Veranschaulichung kann man wichtige Aussagen bereits mit einem Blick erfassen. So ist der größte Teil der Probennahmestellen türkis bis dunkelblau eingefärbt. Dies bedeutet, dass geringe Gehalte für viele Elemente an vielen Probennahmestellen vorliegen. Nur wenige Probennahmestellen sind dunkelrot gefärbt und somit stark durch ein oder mehrere Elemente belastet.

Als zweites soll der Elementcluster genauer betrachtet werden. Mittels diesem kann man Elemente geogenen und anthropogenen Ursprungs voneinander trennen. Arsen, Cobalt und Kupfer sind dabei geogenen Ursprungs und ihre Verteilung unterscheidet sich somit erheblich von den weiteren untersuchten Metallen.

Als drittes kann das Probennahmedendrogramm im Mittelpunkt der Interpretation stehen. Bei diesem erfolgt die vollständige Abtrennung der Probennahmestellen, die durch die Eisenindustrie geprägt werden. Auch werden nur wenige Probennahmestellen stark durch die Eisenindustrie beeinflusst.

Mittels dieser einfachen und grundlegenden Methoden der chemometrischen Datenanalyse können bereits erste wichtige Aussagen über einen großen und deshalb unübersichtlichen Datensatz getroffen werden. Auch erfolgt eine informative und übersichtliche Visualisierung der Daten.

Diskriminanzanalyse
Als zweites sollen die Möglichkeiten der Diskriminanzanalyse im Bereich der Umweltanalytik anhand des Fallbeispiels I vorgestellt werden.

Auf Grundlage der Ergebnisse der Clusteranalyse wurden die 36 Sedimentproben vier unterschiedlichen Klassen zugeordnet und die Richtigkeit dieser Klasseneinteilung mittels multivariater Varianz- und Diskriminanzanalyse untersucht (Abb. 4). Mit Hilfe der Vertrauensintervalle (P = 95 %) kann man sehr gut erkennen, dass alle vier Gruppen voneinander getrennt werden und es keine Überlappungen gibt. Mit der Diskriminanzfunktion 1 kann der Oberlauf Teil 1 und der Unterlauf von den beiden anderen Flussabschnitten getrennt werden. Mit der Diskriminanzfunktion 2 kann der Oberlauf Teil 2 vom Mittellauf unterschieden werden. Jede zusätzlich untersuchte Probe kann nun anhand der entsprechenden Klassifikationsfunktion in eine der bestehenden Klassen eingeordnet werden. [2]

Im zweiten Teil dieser chemometrischen Auswertung von Umweltdaten sollen weiterführende Methoden vorgestellt werden, die den Zusammenhang zwischen den Merkmalen nicht nur qualitativ beschreiben, sondern auch quantitative Aussagen über den Einfluss der Merkmale auf das Untersuchungsgebiet ermöglichen.

Referenzen
[1] Einax J.W. et al.: Chemometrics in Environmental Analysis, Wiley-VCH, 1997
[2] Möller S. und Einax J.W.: Microchem. J. 110, 233-238 (2013)
[3] Kowalik C. und Einax J.W.: Acta Hydrochim. Hydrobiol. 34, 425-436 (2006)

Kontakt
Prof. Dr. Jürgen W. Einax
Lehrbereich Umweltanalytik
Institut für Anorganische und Analytische Chemie
Friedrich-Schiller-Universität Jena

Teil 2 des Artikels: Faktorielle Methoden der multivariaten Datenanalyse

 

Autor(en)

Kontaktieren

Universität Jena
Fraunhoferstr. 6
07743 Jena
Telefon: +49 3641 9300

Jetzt registrieren!

Die neusten Informationen direkt per Newsletter.

To prevent automated spam submissions leave this field empty.