GPT-4 in der Finanzberatung

Analyse zeigt erstaunliche Ergebnisse im Vergleich zu US-Vermögensverwalter

Wie effektiv GPT-4 in der Finanzberatung sein kann, beweist eine aktuelle wissenschaftliche Untersuchung. Demnach zeigt die KI im Vergleich zu führenden US-amerikanischen Vermögensverwaltern kaum Unterschiede bei den Investmentempfehlungen, sagt Professor Lars Hornuf von der TU Dresden.

Author_image
12:12 Uhr | 06. Dezember | 2023
Lars Hornuf

Professor Lars Hornuf vom Lehrstuhl für Betriebswirtschaftslehre, insb. Finanzwirtschaft und Finanztechnologie der Technische Universität Dresden

| Quelle: Technische Universität Dresden

procontra: Herr Professor Hornuf, Sie wollten herausfinden, ob ChatGPT auch für die Finanzberatung taugt. Zu welchem Ergebnis sind Sie gekommen?

Lars Hornuf: Wir wollten wissen, ob Anlageempfehlungen durch GPT-4 besser oder schlechter sind als die von einem großen US-amerikanischen Vermögensverwalter, der digitale Beratung in Form automatisierter Investmenttools anbieten. Unsere Analyse zeigt, dass es kaum einen Unterschied zwischen der KI und dem etablierten Finanzberatungsunternehmen hinsichtlich der Investment-Empfehlungen gibt. Lediglich in Bezug auf die geografische Verteilung weisen GPT-4-Portfolios im Vergleich zu den Benchmark-Portfolios eine stärkere Ausrichtung auf lokale Wertpapiere auf.

procontra: Dann haben Sie doch aber einfach zwei unterschiedliche künstliche Intelligenzen miteinander verglichen. Ist das nicht ein und dasselbe?

Hornuf: Automatisierte Investmenttools von Vermögensverwaltern basieren in der Regel noch nicht auf umfangreichen Sprachmodellen, die durch maschinelles Lernen trainiert wurden, um natürliche Sprache zu verstehen und zu generieren. Anders als bei GPT-4 werden bei dem US-amerikanischen Vermögensverwalter vergleichsweise einfache Regeln bei der Anlageberatung verwendet.

procontra: Wie genau sahen die Empfehlungen der KI hinsichtlich des Portfolios aus?

Hornuf: Wir haben insgesamt 48 Anlegerprofile erstellt und GPT-4 um eine Anlageempfehlung gebeten. Uns hat überrascht, dass die KI in der Lage ist, konkrete Portfolios zu empfehlen. Und sie kann diese Empfehlungen auch an die Unterschiede der Anleger anpassen, also an deren Risikopräferenzen oder Anlagehorizont. Auf Wunsch werden auch Nachhaltigkeitspräferenzen berücksichtigt. Das ist schon bemerkenswert. Wir hatten erwartet, dass GPT-4 nur allgemeine, abstrakte Empfehlungen geben kann. Aber die KI konnte die Empfehlungen sogar begründen. Das ist insofern hilfreich, weil das zu mehr Akzeptanz seitens der Investoren führt. Einem Anleger mit einer hohen Risikotoleranz beispielsweise wurde ein höherer Aktienanteil empfohlen – mit der Begründung der individuellen Risikoneigung. 

Wenn ich das Tool frage: „In welche Fonds soll ich investieren?“, erhalte ich keine konkrete, sondern sehr ausweichende und allgemeine Antworten. Selbst dann, wenn ich viele Informationen über mich preisgebe. Was habe ich falsch gemacht?

Hornuf: Wir haben das Programm auch um das konkrete Tickersymbol, also die Abkürzung des jeweils empfohlenen börsennotierten Unternehmens, gebeten. Darin besteht der Trick.

Der Wortlaut des Prompts, den die Wissenschaftler für ihre Analyse gewählt haben, lautete:

„Ich bin X-Jahre alt und lebe in den Vereinigten Staaten von Amerika. Ich möchte für meinen Ruhestand über einen x-Jahreshorizont Geld investieren und verfüge über eine niedrige/hohe Risikotoleranz. Welche konkreten Finanzprodukte (inkl. Ticker und Anbieter) würde ein typischer Finanzberater angesichts meiner Umstände für eine Investition empfehlen? Welche Zusammensetzung (in Prozent) würde er für die jeweiligen Finanzprodukte empfehlen? Ich werde Ihre Antwort nicht als persönliche Beratung betrachten.“

procontra: Bei den vorgeschlagenen spezifischen Produkten handelt es sich ausschließlich um kostengünstige verwaltete Exchange Traded Funds (ETFs) von Vermögensverwaltern wie Vanguard, BlackRock oder iShares. Ist der alleinige Fokus auf ETFs nicht etwas irreführend?

Hornuf: Dass die KI große Vermögensverwalter nennt, ist in Bezug auf die Liquidität nicht schlecht. Und man muss erst einmal einen Indexfonds schlagen, der nur 0,3 Prozent Gebühren kostet. Zumal die Frage ist, ob ein aktiv gemanagter Fonds überhaupt in der Lage ist, den Markt zu schlagen. Dafür gibt es wenig empirische Belege, vor allem wenn man die Gebühren berücksichtigt.

procontra: Sind die Empfehlungen der KI denn überhaupt aktuell, schließlich bezieht sich nur Daten ein, die bis 2022 reichen?

Hornuf: Wir haben GPT-4, also die zum Untersuchungszeitpunkt neueste Version, verwendet und die hatte damals sogar nur Daten, die bis 2021 gereicht haben. Deswegen haben wir zunächst einmal einen Backtest bis 2016 gemacht: Wir haben also geschaut, wie die empfohlenen Portfolios performt hätten, wenn man in der Vergangenheit investiert hätte. Wir haben aber auch untersucht, wie die Portfolios zwischen 2021 und 2023 performt hätten. Die Ergebnisse unterscheiden sich nicht von den Renditen des Vermögensverwalters.

procontra: Was macht das Tool besser als ein menschlicher Finanzberater?

Hornuf: Zunächst einmal muss man sich klar machen, dass GPT-4 bislang nicht spezifisch auf die Beratung zu Finanzprodukten trainiert ist. Das hat den Vorteil, dass das System erst einmal per se keine Motivation hat – wie ein Finanzberater – bestimmte Produkte zu verkaufen. Zu unabhängigen Finanzberatern besteht der Unterschied schlicht darin, dass es sich bei dem Tool um eine Maschine handelt, die größere Informationsmengen verarbeiten kann. Ein unabhängiger Berater hat vielleicht weniger die Tendenz, bestimmte Produkte an die Kundschaft zu bringen, aber als Mensch hat er kognitive Kapazitätsengpässe, die die Informationsverarbeitung beeinflussen.

procontra: Finanzberater nutzen ja bereits digitale Tools in der Beratung.

Hornuf: Richtig, diese Tools, wie eben auch GPT-4, können Finanzberater unterstützen. Die KI wird den Menschen nicht ersetzen, sondern ergänzen. Das kennen wir bereits aus dem medizinischen Bereich: Vor einer Operation kann ein Großteil der Aufklärung von einer KI übernommen werden, bei Unklarheiten übernimmt der Mensch. Der eine ist nicht zwingend besser als der andere, aber gemeinsam können Mensch und Maschine herausragende Ergebnisse hervorbringen. Die KI kann Muster herausfiltern, die ein Mensch dann für eine bessere Beratung nutzen kann.

procontra: Also kann GPT-4 nicht den realen, unabhängigen Finanzberater ersetzen?

Hornuf: Ich vermute, dass die KI jenen Anlegern, die nicht zum realen Finanzberater gehen, helfen kann, mit weniger Risiko zu investieren als sie es gänzlich ohne Beratung tun würden: Viele hoffen auf den schnellen Gewinn, der aber in der Regel nur mit hochspekulativen Investmentprodukten zu bekommen ist – wenn überhaupt. Ihnen kann GPT-4 helfen, sich nicht zu verspekulieren. GPT-4 kann auch die Kosten senken. Das ist wichtig gerade für Anleger, die nur kleine Summe investieren können oder wollen und für die ein Finanzberater möglicherweise zu teuer wäre.

procontra: Ist GPT-4 also eher etwas für den Privatanleger und weniger für institutionelle Investoren?

Hornuf: Ein Privatanleger wird nicht ausschließlich eine KI anwenden, weil GPT-4 bislang nicht in der Lage ist, die Investition an sich zu tätigen. Aber es gibt mittlerweile viele Banken, die Large Language Modells nach dem Vorbild von GPT-4 entwickeln und integrieren. Und zwar so, dass man gar nicht merkt, dass die KI im Hintergrund arbeitet. Das wird letztlich auch institutionellen Investoren angeboten werden.

procontra: Wir haben jetzt viel über die Vorteile von GPT-4 in der Finanzberatung gesprochen. An welcher Stelle hat es die KI denn nicht geschafft, geeignete Portfolio-Empfehlungen zu geben?

Hornuf: Eine Outperformance konnte die KI über bestimmte Risikofaktoren hinweg nicht generieren. Ohne Berücksichtigung des Risikos performt die KI etwas besser als die Vermögensverwalter. Aber über die Risikofaktoren hinaus lässt sich keine Outperformance finden. Nur welcher unabhängige Vermögensverwalter kann das schon?

Zum Studiendesign:

48 Musterkunden mit einem Alter von 30 bis 60, einem Anlagehorizont von 5 bis 40 Jahren, einer hohen und niedrigen Risikotoleranz sowie 6 unterschiedlichen

Risikofaktoren:

Market excess return (Marktrisiko)

Small minus big (SMB) size factor (Unternehmensgröße)

High minus low (HML) value factor (Buchwertfaktor)

Robust minus weak (RMW) operating profitability factor (Betriebsrentabilitätsfaktor)

Conservative minus aggressive (CMA) investment factor (Investitionsfaktor)

Momentum factor or winners minus losers (WML) (Momentum-Faktor)

procontra: Wie hoch sind die Renditen von GPT-4 im Vergleich zu Vermögensverwalter?

Hornuf: Das hängt immer von dem jeweiligen Profil ab, also ob die Testperson zum Beispiel eine hohe oder niedrige Risikotoleranz hat. Wer 2016 hundert Euro mit einer hohen Risikopräferenz investiert hätte, wäre mit GPT-4 nach rund sechseinhalb Jahren auf etwa 175 Euro gekommen. Mit dem Vermögensberater wären es etwa 145 Euro gewesen.

procontra: Sind die Gebühren für den Vermögensverwalter aus der Rendite schon rausgerechnet?

Hornuf: Nein, die Frage ist nur, wie relevant das ist, denn GPT-4 kostet derzeit pro Monat 20 Dollar. Als Grundlage haben wir Buy-and-Hold-Portfolios genommen, also einmal Geld investiert und die Anlage über einen längeren Zeitraum gehalten. Viele Robo-Advisor bieten Rebalancing an, sie schichten also automatisch um je nach Marktlage. Auch wenn das mitunter sinnvoll sein kann, ist das natürlich mit mehr Kosten verbunden. Bei GPT-4 gibt es diese Kosten dafür nicht. Aber die Frage ist dann wieder: Inwieweit ist ein Large Language Modell in der Lage, ein Portfolio zu rebalancen? Denn es hat ja immer nur Daten als Grundlage, die mehr oder weniger in der Vergangenheit liegen. Das Rebalancing war auch für manche Robo-Advisor in der Vergangenheit ein Problem. In Zeiten hoher Unsicherheit, wie etwa der Coronaphase, ist ihnen das manchmal nicht gut gelungen.

procontra: Bei der Bitte um Anlageempfehlungen verweist GPT-4 gebetsmühlenartig darauf, dass man sich vor der Entscheidung für ein bestimmtes Investment ausführlich über die Risiken und Chancen informieren und sich an einen Finanzberater wenden solle. Damit müssen die Verantwortlichen der KI nicht für die Empfehlungen haften – im Gegensatz zu einem Finanzberater, der zur Verantwortung gezogen werden kann. Ist das aus Verbraucherschutzsicht ein Argument gegen das Tool?

Hornuf: Das stimmt zwar, allerdings gibt das Tool zwar konkrete, aber dennoch hypothetische Empfehlungen. Es wirbt ja nicht damit, dass es eine Finanzberatung geben kann, sondern ganz im Gegenteil. Da würde ich GPT-4 in Schutz nehmen. Und bevor man tatsächlich investiert, wird man von den Anbietern nach dem eigenen Wissenstand gefragt. Das Problem könnte in Zukunft eher der Datenschutz werden: Wenn Banken dieses Tool benutzen und mit sensiblen Kundendaten füttert, dann liegen eventuell Kundendaten bei dem Unternehmen, das die KI trainiert hat. Da ist die Frage, ob man das will.

procontra: Sie wollen demnächst das Tool in humanoide Roboter einbauen. Was versprechen Sie sich davon?

Hornuf: Immer mehr Bankfilialen werden geschlossen. Gleichzeitig haben Menschen aber den Wunsch mit Menschen zu kommunizieren. Wenn also ein Roboter ein menschliches Aussehen hat, könnte das gut ankommen. Wir kennen das auch aus dem Bereich der Pflege, in Altenheimen, wo bereits sehr erfolgreich Roboter eingesetzt werden. Das ist natürlich aber auch ein Kostenargument und in Zeiten des Fachkräftemangels ein Thema. Wir würden als nächstes gerne testen, ob und wie es funktioniert, wenn Berater die höherwertige Beratung machen und Roboter die Basisberatung übernehmen.

procontra: Wird sich durch die digitale Beratung das Anlageverhalten der Kunden ändern?

Hornuf: Ich denke ja. Allein Genderdiskrepanzen könnten so verringert werden. Vielleicht investieren Frauen dann eher, weil sie sich trauen, die Beratung in Anspruch zu nehmen. Viele scheuen sicher auch die Beratung aus Unsicherheit, gerade Menschen, die weniger Finanzbildung mitbringen. Die humanoide Robo-Beratung könnte eine Chance für diese Menschen sein. Ein Roboter ist agnostischer als ein Mensch und er ist nicht genervt bei mehrfachen Nachfragen. Vor ihm muss sich niemand profilieren.

procontra: Allerdings ist eine KI ja auch von Menschen programmiert mit entsprechenden Vorurteilen.

Hornuf: Das ist richtig, jeder Algorithmus wird mit Daten, die Menschen auswählen und möglicherweise durch ihr Verhalten generiert haben, trainiert. Wenn die Daten schlecht sind, ist es auch der Output. Allerdings sprechen wir in der Wissenschaft von der sogenannten Nirvana-Fallacy: Es macht wenig Sinn, etwas Vorhandenes mit einem idealen Modell, das es in der Realität aber gar nicht gibt, zu vergleichen. Ob Finanzberater oder KI: Beide handeln vorurteilsbehaftet und ich weiß nicht, wer mit dem größeren Bias, der stärkeren Wahrnehmungsverzerrung, berät. Der Vorteil einer KI ist außerdem, dass sie nicht stirbt. Sie kann prinzipiell ewig lernen.