26.01.2015
ForschungUmwelt

Chemometrische Auswertung von Umweltdaten - Teil 2

Faktorielle Methoden der multivariaten Datenanalyse

  • Abb. 1: Fallbeispiel I – „Sedimentproben der Saale“: Werte der Faktoren 1 und 2 entlang der Fließstrecke der SaaleAbb. 1: Fallbeispiel I – „Sedimentproben der Saale“: Werte der Faktoren 1 und 2 entlang der Fließstrecke der Saale
  • Abb. 1: Fallbeispiel I – „Sedimentproben der Saale“: Werte der Faktoren 1 und 2 entlang der Fließstrecke der Saale
  • Abb. 2: Fallbeispiel II – „Bodenproben der Unterwellenborn-Region“: Quellenzusammensetzungsprofil
  • Tab. 1: Fallbeispiel I –„Sedimentproben der Saale“: Ergebnisse der Faktorenanalyse
  • Tab. 2: Fallbeispiel II – „Bodenproben der Unterwellenborn-Region“: Ergebnisse der Faktorenanalyse
  • Abb. 3: Fallbeispiel II – „Bodenproben der Unterwellenborn-Region“: Quellenverteilungsprofil
  • Abb. 4: Fallbeispiel II – „Bodenproben der Unterwellenborn-Region“: quellenspezifische Kupferverteilung

Während im ersten Teil der chemometrischen Auswertung von Umweltdaten der Fokus auf der Gruppierung der Merkmale und Objekte lag, werden in diesem Teil die faktoriellen Methoden vorgestellt [1]. Faktorielle Methoden verdichten einerseits die Information des Datensatzes und reduzieren andererseits die Dimension des Datensatzes.

Die mittels Faktorenanalyse erhaltenen Faktoren fassen die Merkmale zu latenten Variablen zusammen, die eine gemeinsame Ursache haben (können). Anschließend kann man mit Hilfe der Quellenmodellierung den Einfluss der Elemente auf das Untersuchungsgebiet quantifizieren. Die Möglichkeiten dieser beiden Methoden werden anhand der im ersten Teil vorgestellten Fallbeispiele näher erläutert.

Faktorenanalyse
Die Faktorenanalyse ist eine wichtige Interpretationshilfe und wird bei Umweltdaten oft mittels Hauptkomponentenextraktion und nachfolgender Varimax-Rotation durchgeführt.

Fallbeispiel I - „Sedimentproben der Saale" [2]
In Tabelle 1 sind die Ergebnisse der Faktorenanalyse für die Elementgehalte in den Saalesedimenten aufgelistet. Zur besseren Interpretation sind nur Faktorladungen > I 0,7 I aufgeführt. Je größer die Faktorladung für ein Merkmal (Element) ist, desto stärker wird der Faktor von dem entsprechenden Merkmal beeinflusst. Faktor 1 wird durch die Merkmale Chrom, Eisen, Scandium, Titan und Vanadium hoch geladen. Im Oberlauf sind die Gehalte am höchsten und können den angrenzenden Mittelgebirgen und der ehemaligen Chromlederindustrie in dieser Region zugeordnet werden. Die Gehalte der Elemente Cadmium, Kupfer, Quecksilber, Blei und Zink hingegen sind in den Proben im Unterlauf am höchsten und haben den größten Einfluss auf Faktor 2. Faktor 3 wird durch die Elemente Calcium, Cobalt und Nickel geprägt. Dabei spielt sowohl der absolute Betrag der Faktorladung als auch das Vorzeichen eine wichtige Rolle. Wenn die Merkmale eines Faktors verschiedene Vorzeichen haben, verhalten sie sich entgegengesetzt: das bedeutet für Faktor 3, dass die Calciumgehalte hoch sind, wenn die Cobalt- bzw.

Nickelgehalte niedrig sind und vice versa. Die Cobalt- und Nickelgehalte sind dabei in den Proben ähnlich verteilt und haben ihren geogenen Ursprung im Thüringer Schiefergebirge. Faktor 4 wird von Arsen und Faktor 5 von Mangan hoch geladen. Der hohe Mangangehalt in der Sedimentprobe unterhalb der Bleilochtalsperre kann auf die unterschiedlichen Sauerstoffverhältnisse innerhalb und außerhalb der Talsperre zurückgeführt werden.

Eine weitere Möglichkeit der Auswertung bietet die Untersuchung und Interpretation der Faktorwerte. Je höher der Faktorwert für eine Sedimentprobe ist, desto größer ist der Einfluss dieses Faktors auf die Probe. Exemplarisch sind in Abbildung 1 die Faktorwerte von Faktor 1 und 2 entlang der Fließstrecke der Saale abgebildet.

Aus Abbildung 1 ist ersichtlich, dass der Oberlauf geogen durch Faktor 1 geprägt wird. Im Unterlauf der Saale steigen die Faktorwerte für Faktor 2 stetig an. Eine Ursache dafür ist der ehemalige Kupferschieferbergbau im Mansfelder Land. Die Interpretation der Faktorwerte bestätigt die Ursachen die anhand der Faktorladungen gefunden wurden. Durch die Faktorenanalyse können die 17 Merkmale auf drei wichtige Faktoren reduziert werden, die bereits einen Großteil der Varianz erklären.

Fallbeispiel II - „Bodenproben der Unterwellenborn-Region" [3]
Mit Hilfe der Faktorenanalyse konnte die Zahl der Dimensionen von 15 auf 6 reduziert werden. In Tabelle 2 sind die wichtigsten Ergebnisse zusammengefasst. Diese sechs Faktoren erklären 96% der Varianz des Datensatzes. Im Vergleich zu den Aussagen der Clusteranalyse ermöglicht die Faktorenanalyse auch quantitative Aussagen. Die größte Varianz im Datensatz wird demzufolge von den Elementen der Eisenindustrie erklärt. Die drei Faktoren, die sich daran anschließen, erklären jeweils deutlich geringere Varianzanteile. Um die Aussagen der Faktorenanalyse besser zu quantifizieren, bietet sich die Methode der Quellenmodellierung an.

Quellenmodellierung
Mit Hilfe der Quellenmodellierung mit absoluten Hauptkomponentenwerten gefolgt von multipler linearer Regression (APCS-MLR) lässt sich der quantitative Einfluss der Elemente auf ein Untersuchungsgebiet sehr genau beschreiben [4]. Dazu wird die Original-Datenmatrix in zwei Matrizen, das sogenannte Quellenverteilungs- und -zusammensetzungsprofil zerlegt. Für das Fallbeispiel II sind diese beiden Profile in den Abbildungen 2 und 3 veranschaulicht [3].

Es sind vier Quellen vorhanden, die dieses Gebiet prägen. Die Quelle „Kalkstein" beeinflusst das Gebiet am stärksten. Sie beschreibt vorwiegend das Verhalten der Mengenelemente Magnesium und Calcium. Die Quelle „Eisenindustrie" hingegen prägt das Verhalten einer Vielzahl von Elementen - sowohl im Mengen- als auch im Spurenbereich - aber dafür nur wenige Probennahmestellen. Die Quellen „Roter Berg" und „Halde" prägen nur wenig Elemente und Probennahmestellen.

Die Kombination der Quellenmodellierung mit der Geostatistik ermöglicht eine Veranschaulichung der Elementverteilung. In Abbildung 4 sind die quellenspezifischen Konturplots exemplarisch für das Element Kupfer veranschaulicht [3].

Die Elementverteilungen, die durch die vier Quellen verursacht werden, unterscheiden sich erheblich voneinander. Die Quelle Kalkstein verursacht zwei Hotspots im Untersuchungsgebiet: einen großen im Osten und einen kleinen im Westen. Die Quelle „Eisenindustrie" verursacht hingegen nur einen Hotspot im Zentrum. Die Konturplots der anderen beiden Quellen sind ebenfalls sehr unterschiedlich. Die Quelle „Roter Berg" verursacht einen Hotspot im Süden und die Quelle „Halde" einen Hotspot südwestlich des Hotspots der Quelle „Eisenindustrie". Die Quellen beeinflussen die Umgebung in Hinblick auf dasselbe Element sehr unterschiedlich. So werden von der Quelle „Roter Berg" bis zu 250 µg/g, von der Quelle „Kalkstein" jedoch nur 14 µg/g Kupfer verursacht. Die Veranschaulichung der quellenspezifischen Elementverteilung ermöglicht somit eine genaue Abschätzung des Gefährdungspotenzials für die Umwelt, nicht nur für die einzelnen Elemente, sondern auch für jede Quelle.

Mittels faktorieller Methoden lassen sich Zusammenhänge zwischen den Merkmalen sehr gut beschreiben und die Information des Datensatzes verdichten. Eine objektive Interpretation des Datensatzes ist möglich.

Referenzen
[1] Möller S. et al.: GIT Labor-Fachzeitschrift 10, 52-54 (2014)
[2] Möller S. und Einax J.W.: Micr. J. 110, 233-238 (2013)
[3] Schaefer K. und Einax J.W.: Clean, submitted manuscript
[4] Mostert M.M. et al.: Geoderma 173-174, 173-183 (2012)

 

Grundlegende Methoden der multivariaten Datenanalyse: www.git-labor.de/forschung/umwelt/
Weitere Beiträge zum Thema: http://www.git-labor.de/search/gitsearch/Chemometrie

 

Autor(en)

Kontaktieren

Universität Jena
Fraunhoferstr. 6
07743 Jena
Telefon: +49 3641 9300

Jetzt registrieren!

Die neusten Informationen direkt per Newsletter.

To prevent automated spam submissions leave this field empty.