ESG-Ratings

Die Vermessung der Nachhaltigkeit

ESG-Ratings spielen eine zentrale Rolle bei der Quantifizierung von Nachhaltigkeit in der Kapitalanlage. Was einfach klingt, ist in der Praxis aber durchaus komplex – und parallel zum Siegeszug der ESG-Kriterien hat auch die Kritik daran zugenommen.

Paul Eubel & Hans-Jörg Naumer

Eine zentrale Rolle bei der Quantifizierung von Nachhaltigkeit spielen in der Kapitalanlage die ESG-Ratings (auch ESG-Scores genannt), die aus einer Aggregation der ESG-Kriterien auf ein zusammenfassendes Rating entstehen. ESG-Ratings sollen es Investoren ermöglichen, die Nachhaltigkeit eines Unternehmens zu bewerten, ähnlich wie ein Kredit-Rating eine Bewertung der Bonität ermöglicht. Sie sind die Grundlage der meisten nachhaltigen Anlagestrategien. Ob man in einem „Best in Class“-Ansatz nur die besten Unternehmen einer Industrie in sein Portfolio aufnimmt, sein Anlageuniversum vorab screent oder eine komplette ESG-Integration vornimmt – ohne ESG-Rating wäre keiner dieser Ansätze umsetzbar.

Was einfach klingt, ist in der Praxis aber durchaus komplex, und parallel zum Siegeszug der ESG-Kriterien hat auch die Kritik daran zugenommen. Das Hauptproblem: Während die Ausfallwahrscheinlichkeit eines Gläubigers genau definiert ist, ist Nachhaltigkeit ein subjektiver Begriff, wie z.B. Berg et al. (2019) feststellen. Anstelle von etablierten Standards, wie es sie bei Finanzkennzahlen gibt, existieren für das ESG-Reporting der Firmen nur Empfehlungen, welche nicht nur im Wettbewerb zueinanderstehen, sondern auch unverbindlich sind.

Dazu kommt die große Anzahl von Anbietern, welche-ESG Ratings veröffentlichen. So konnten Li und Polychronopoulos (2020) zum Jahresende 2019 insgesamt 70 Unternehmen identifizieren, welche in irgendeiner Form ESG-Ratings publizierten. Problematisch dabei ist, dass es zwischen den unterschiedlichen Anbietern teils zu großen Divergenzen kommt. Dabei ist das Problem kein neues. Im Jahr 2018 stellte z.B. K. Allen in der Financial Times fest, dass Tesla durch den Rating-Anbieter MSCI als bestes globales Automobilunternehmen hinsichtlich der ESG-Leistung bewertet wurde, während FTSE Tesla zur selben Zeit als schlechtestes Unternehmen der Branche bewertete und Sustainalytics es im Mittelfeld ansiedelte. Ähnliche Beobachtungen werden auch von Wigglesworth (2018), Doyle (2018) oder Matos (2020) beschrieben.

Durch diese starken Abweichungen wird es schwer, die tatsächliche ESG-Performance eines Unternehmens zu messen, was eine enorme Herausforderung darstellt, nachhaltig zu investieren. Die Implikationen können aber auch über die Grenzen der Kapitalanlage hinausgehen, wenn der Anreiz für Unternehmen, die eigene ESG-Performance zu verbessern, durch den unübersichtlichen Dschungel aus unterschiedlichen Ratings abnimmt und somit der Anreiz für die eigene Transformation abgeschwächt wird. Die OECD (2021) kritisiert, dass es scheint, als würden die Rating-Anbieter weniger Gewicht auf negative Umweltauswirkungen legen, während sie mehr Gewicht auf die Offenlegung von klimabezogenen Unternehmensstrategien und Zielen legen.

Die Diskrepanzen haben System

Eine Auswertung der Literatur aus der jüngeren Vergangenheit kommt zu dem Schluss, dass vor allem unterschiedliche Definitionen und Methodiken zu den starken Diskrepanzen führen. Die folgende Aufgliederung orientiert sich an der von Abhayawansa et al (2021). Andere Analysten strukturieren die Herausforderungen teils anders, die dahinterliegende Idee bleibt jedoch gleich.

Als „Theoretisierungsproblem“ versteht man all jene Probleme, welche durch unterschiedliche Definitionen von ESG-Faktoren, deren Komponenten oder Gewichtungen entstehen. Diese resultieren in der Regel aus den unterschiedlichen Ansichten der Rating-Anbieter, welche Faktoren einen finanziellen Einfluss haben und wie stark dieser ist.

Und selbst, wenn sich die Anbieter über die Faktoren einig sind, besteht das sogenannte „Verhältnismäßigkeitsproblem“, wenn bei der Quantifizierung beispielsweise unterschiedliche Proxys verwenden werden. Aber auch ein unterschiedlich detailliertes Umsetzen der Proxys, wie die Verwendung von binären vs. kontinuierlichen Variablen, manifestiert sich in den Unterschieden. Zusätzlich tendierten die Ratings zu voneinander abweichenden „biases“ (Voreingenommenheiten), abhängig davon, ob ausschließlich öffentliche oder auch private Informationen verwendet wurden.

Berg et al. (2019) finden ähnliche Gründe für die Diskrepanzen, gliedern diese aber etwas anders. Zusätzlich beschreiben die Autoren einen „Rater Effekt“ (analog des sogenannten „Halo Effekt“ in der Psychologie) bei dem Firmen, die in einer Kategorie gut abschneiden, tendenziell bessere Ratings in den anderen Kategorien von derselben Ratingagentur erhalten. Die Autoren erklären darüber ca. 15% der Abweichungen in den Kategorie-Scores.

Zu den Herausforderungen, welche die Rating-Anbieter in ihrer Gesamtheit betreffen, kommt erschwerend hinzu, dass einzelne Rating-Anbieter ganz individuelle Besonderheiten bereithalten. Ein prominentes Beispiel ist Refinitiv (ehemals ASSET4), einer der wichtigsten Datenanbieter, welchem es möglich ist, die bereits veröffentlichten ESG-Scores der letzten fünf Jahre ohne weitere Ankündigung im Nachhinein anzupassen (Sahin et al, 2022). Die rückwärtige Revision einer Unterkategorie des Scores kann durch die Berechnungsmethodik auch die anderen Unterkategorien verändern – ohne dass es hier zu neuen Erkenntnissen gekommen wäre. Solche ESG-Scores werden auch als „nicht-definitiv“ bezeichnet.

ESG-Ratings: Situationsanalyse

Wie also verhält es sich mit den ESG-Ratings? Wie weit weichen sie tatsächlich voneinander ab? Die nachfolgende Betrachtung verdeutlich die Diskrepanzen, die es zwischen den großen Anbietern von ESG-Ratings gibt.

Für unsere Analyse haben wir die ESG-Ratings von vier Anbietern miteinander verglichen. Dabei handelt es sich um die Anbieter Refinitiv (Asset4), MSCI, Sustainalytics und Moody’s (Vigeo-Eris). Um die Aussagekraft unserer Ergebnisse zu erhöhen, haben wir unsere Analysen für jeweils drei auf ESG-Scorings lautende Indizes durchgeführt, welche im Folgenden als Anlageuniversum fungieren. Der größte Index ist dabei der MSCI Welt mit ca. 1.500 Mitgliedern (1.400 bereinigt), gefolgt vom MSCI USA mit ca. 600 Mitgliedern (590 bereinigt) und dem MSCI Europa mit ca. 430 Mitgliedern (400 bereinigt). Alle Ratings wurden am 3. Januar 2022 abgerufen, wodurch unsere Daten den Stand Ende 2021 abbilden. Zusätzlich wurden unsere Datensätze um alle Unternehmen bereinigt, bei denen das Rating von mindestens einem Anbieter gefehlt hat, um die Vergleichbarkeit herzustellen. Insgesamt wurden 1.442 unterschiedliche Firmen erfasst.

In einem ersten Schritt haben wir die Verteilung der Ratings der einzelnen Anbieter für die drei Indizes miteinander verglichen, und das jeweils für die Anlageuniversen „Welt“, „Europa“ und „USA“:

Verteilung der Ratings

Für die einzelnen Verteilungsfunktionen haben wir jeweils den Mittelwert berechnet. Da es uns um die Streuung der Ratings insgesamt geht, gingen alle Unternehmen gleichgewichtet mit ihren Scorings ein. Es erfolgte als z.B. keine Gewichtung nach der Marktkapitalisierung.

Zwei Punkte fallen dabei ins Auge:

Die Verteilungen nehmen je nach Anbieter teils sehr unterschiedliche Formen an. Diese Beobachtung war bereits vorab zu vermuten und ist konsistent mit der Beobachtung teils sehr unkorrelierter Ratings.
Vergleicht man den Mittelwert über die Anlageuniversen hinweg, fällt bei allen Anbietern auf, dass die MSCI Europa Unternehmen jeweils das höchste durchschnittliche Rating und die Unternehmen im MSCI USA das geringste durchschnittliche Rating aufweisen. Diese Beobachtung ist persistent, über alle Anbieter hinweg. Auch wenn man die Unternehmen mit der um den Streubesitz bereinigten Marktkapitalisierung gewichtet, bleiben die regionalen Unterschiede bestehen. Die Frage, ob es sich dabei um einen regionalen Effekt handelt oder der Zusammensetzung unseres Samples geschuldet ist, kann an der Stelle nicht beantwortet werden.

Als nächstes haben wir einfache lineare Regressionen durchgeführt um zu ermitteln, wie stark die Ratings der verschiedenen Anbieter miteinander korrelieren. Als Kenngröße wurde das Bestimmtheitsmaß (R²) gewählt, welches aussagt, wie viel Prozent der Variation in einer Variablen A durch die Variation von Variable B erklärt werden kann. Für die Unternehmen des MSCI Welt lag die Korrelation der verschiedenen Ratings zwischen 17% und 58%. Während die Ratings von Sustainalytics und Moody‘s die höchste Korrelation aufwiesen, war der Zusammenhang zwischen Refinitiv Rating und MSCI Rating mit 17% am schwächsten. Damit ist die Korrelation in unserem Datensatz geringer als beispielsweise bei Berg et al. (2019), welche eine stärkere Korrelation zwischen den ESG-Ratings der einzelnen Anbieter in ihrem Sample beobachten.

Diese Abweichung kann jedoch aufgrund der unterschiedlichen Beobachtungszeiträume zustande kommen. Berg et al. haben 2014 als Basisjahr ihrer Analyse und bestätigen die Ergebnisse für 2017. Die Korrelation liegt bei Berg et al. zwischen 38% und 71%. Vergleicht man die Ergebnisse aus dem MSCI Welt Sample mit denen aus den MSCI Europa und MSCI USA fällt auf, dass die Anbieter mit hoher und geringer Korrelation gleichbleiben. Die Stärke der Korrelation nimmt aber mit der Sample-Größe ab. Der zweitgrößte Index (MSCI USA), gemessen an der Zahl der Titel, weist noch eine Korrelation zwischen 13% und 47% auf. Beim MSCI Europa (dem kleinsten Index) nimmt die Korrelation nochmals deutlich ab und liegt je nach Anbieter zwischen 8% und 40%. Ob der Unterschied regional bedingt ist, oder das Produkt von Zufälligkeit aus einer anderen Sample Konstruktion ist, kann an der Stelle nicht beantwortet werden.

Korrelation der ESG-Rating-Anbieter

Wie stark aber ist das Zusammenspiel zwischen den einzelnen Säulen der Ratings? Da wir die entsprechenden Daten nur für Refinitiv und MSCI haben, beschränken wir uns in der folgenden Analyse auf diese beiden Anbieter.

Betrachtet man die Verteilung der einzelnen Kategorien (E, S & G) sowie den Gesamt-ESG-Score, fällt auf, dass vor allem bei Refinitiv eine große Ähnlichkeit in den Dichtefunktionen besteht. Einzig der „Fat-Tail“ am unteren Ende der Verteilung des Nachhaltigkeits-Scores springt ins Auge. Im Fall von MSCI sind die Unterschiede bei der Verteilung zwischen den Kategorien und dem ESG-Rating besonders auffällig. Auch hier gibt es in der Nachhaltigkeitskategorie eine Häufung am äußeren Rand, nur diesmal im Bereich der besonders hohen Nachhaltigkeitsratings.

Verteilung der einzelnen Kategorien

Die vorab beobachteten Unterschiede zwischen den beiden Ratings (MSCI und Refinitiv) werden bei der Analyse diverser Scatter-Plots, bei denen die Unterkategorien betrachtet werden, noch einmal deutlich. Dafür wird zunächst der Gesamtscore auf die Unterkategorien und dann die Unterkategorien aufeinander bezogen.

Zusammenspiel der ESG-Kategorien

Im Fall von Refinitiv haben die Sub-Scores (E, S & G) einen Erklärungsgehalt für die Variation im ESG-Rating von 67% (E), 75% (S) und 47% (G). Untereinander weisen der E- und der S-Score den stärksten Zusammenhang auf mit einem Erklärungsgehalt von 45%. Die anderen Sub-Scores sind deutlich schwächer korreliert.

Im Fall von MSCI sind die übergeordneten Tendenzen zwar ähnlich, der Zusammenhang wird jedoch deutlich schwächer. So erklären die einzelnen Sub-Scores nur zwischen 30% und 9% des ESG-Scores. Diese schwache Ausprägung kann jedoch teils darauf zurückgeführt werden, dass wir für MSCI ein Industrie-adjustiertes ESG-Rating genommen haben, um die Vergleichbarkeit zu den anderen Anbietern zu gewährleisten. Berechnet man den Zusammenhang der einzelnen Kategorien-Scores mit dem reinen ESG-Rating, lässt sich ein Zusammenhang zwischen 42% und 18% je nach Score ausmachen. Von diesem Effekt ist jedoch nicht der Vergleich der einzelnen Säulen betroffen. Hier liegt der Erklärungsgehalt zwischen 0% und 2%, was zumindest in unserem Sample für MSCI gegen einen Rater-Effekt sprechen würde.

Es geht nicht ohne eigene Analyse

ESG-Ratings haben, spätestens seit der „Responsible Investing Initiative“ von 2006, einen Siegeszug um die Anlagewelt angetreten, der sich immer weiter verstärkt. Die Nachhaltigkeitskriterien spielen dabei eine entscheidende Rolle auch bei der Dekarbonisierung der Wirtschaft. Es geht um „FinanceForFuture“.

Doch wie unsere Analyse zeigt, sind die Ratings nur mit großer Vorsicht und Differenziertheit zu genießen – sowohl bei der individuellen Anlageentscheidung als auch bei einer Betrachtung aus wirtschaftspolitischer Perspektive.

So kann es bei den Unterkategorien (E,S & G) auch innerhalb der jeweiligen Ratinganbieter zu sehr unterschiedlichen Ergebnissen kommen. Eine Firma, die z.B. ein gutes E-Scoring hat, muss dies nicht zwangsläufig in ähnlicher Weise auch für „S“ oder „G“ haben. Im Gegenteil: Die Scatter-Plots zeigen, dass es hier zu starken Abweichungen kommen kann.

Wer den gesamten Score interpretieren will, muss also unterhalb der Oberfläche die einzelnen Scoring-Bestandteile untersuchen und im Zweifelsfall entscheiden, welcher Bestandteil der für ihn wichtigste ist. Wie und von welchem Anbieter ESG-Ratings eingesetzt werden, ist dabei nicht trivial. Es kann zu erheblichen Unterscheidungen bei der Berechnung der Scorings kommen, wie unsere Berechnungen zeigen – mit den entsprechenden Konsequenzen für die Anlageentscheidung.

Wer Nachhaltigkeit in seinem Portfolio inkludieren will, tut also gut daran, nicht nur die Unterschiede der einzelnen Scorings zu verstehen, sondern die Ratings für die Unternehmen, als Teil einer aktiven Anlageentscheidung, auch einer eigenen Analyse zu unterziehen. Nur so kann sichergestellt werden, dass sie zu den eigenen Nachhaltigkeitszielen passen.

Zu den Autoren:

Paul Eubel studiert Wirtschaftswissenschaften an der Justus-Liebig-Universität Gießen mit Schwerpunkt Finance.

Hans-Jörg Naumer leitet Global Capital Markets & Thematic Research bei Allianz Global Investors. Im Sommer 2022 ist sein Buch Essential „Green Growth“ bei SpringerGabler erschienen.