Ein blick in unser Unternehmen

Kontaktieren Sie uns, um mehr über Eucon und unsere Lösungen für digitalisierte Prozesse zu erfahren.


Kontaktieren Sie uns

DEALBREAKER DATA: Warum wir bei KI-Modellen mehr über Daten als über Algorithmen sprechen sollten

Künstliche Intelligenz (KI) und die damit verbundene Technologie Machine Learning (ML) sind längst in der Versicherungsbranche angekommen und ihr enormes Potenzial in aller Munde. Scheinbar Unmögliches – wie vollautomatische Bilderkennung – erscheint damit im Bereich des Möglichen. Die Anwendung von KI auf eine relevante Menge an Schadenarten und -klassen im Tagesgeschäft ist aber oft eine andere Frage. Dennoch ist das Interesse an diesen vermeintlich neuen Technologien wie KI und ML mit Recht groß. Das zeigt sich nicht nur an der Fülle von Artikeln, die dazu die Fachzeitschriften der Versicherungsbranche beherrschen. Auch auf der Agenda der einschlägigen Branchenevents der Versicherungswirtschaft darf das Thema KI nicht mehr fehlen. Aber wo funktionieren KI-basierte Modelle schon heute erfolgreich und vor allem: Was braucht es, um sie in Betrieb zu nehmen? Wir verraten Ihnen, worauf es bei erfolgreichen KI-basierten Modellen wirklich ankommt. Dieser Gastartikel von Michael Rodenberg, Geschäftsführer Eucon Digital GmbH steht als PDF zum Download zur Verfügung.

DEALBREAKER DATA: Warum wir bei KI-Modellen mehr über Daten als über Algorithmen sprechen sollten

VERSICHERER STELLEN WEICHEN FÜR KI

Die Finanz- und Versicherungsbranche zählt schon heute zu den „digital Fortgeschrittenen“ und auch in den nächsten Jahren wird ein weiterer Digitalisierungsschub erwartet.  Dafür sprechen auch Investitionen in flexible IT-Infrastrukturen, die es braucht, um die digitale Transformation anzugehen. So waren die IT-Ausgaben der Versicherer 2018 mit 4,7 Mrd. € so hoch wie nie zuvor. Investiert wird vor allem in Anwendungs- und Systementwicklung, u.a. zur Ablösung der Altsysteme, sowie in Server- und Cloud-Lösungen.  Die Weichen für digitale Transformation werden also gerade gestellt und KI dabei als größter Treiber angesehen.  Besonders KI-Kenner setzen hohe Erwartungen in KI und versprechen sich positive Auswirkungen auf die Wettbewerbsfähigkeit, Flexibilität, Produktqualität, Arbeitsqualität sowie auf Produktivität und Effizienz.  Auch in der Versicherungsbranche setzt KI enorme Potenziale frei. Im Schadenmanagement funktionieren KI-basierte Modelle – allen voran das Machine Learning – schon heute zuverlässig und verbessern das Kundenerlebnis nachhaltig. 

KI: ZWISCHEN HYPE UND ECHTEM POTENZIAL-HEBEL

Wer glaubt, Machine Learning sei angesichts des aktuellen Hypes eine junge Technologie, der irrt sich gewaltig. In speziellen Anwendungsbereichen wie der optischen Zeichenerkennung (OCR) ist ML bereits seit Jahrzehnten im Einsatz. Die erste ML-Anwendung, die einer breiten Öffentlichkeit bekannt wurde, war der Spam-Filter in den 1990er Jahren. Heute ist ML Kern vieler Spitzentechnologien und leistet z.B. bei der Smartphone-Spracherkennung oder dem Ranking von Suchergebnissen im Internet gute Dienste.

Doch was kann ML für die Versicherungsbranche tun? Enorme Potenziale werden z.B. mit KI-basierten Modellen zur Prozessautomatisierung gehoben. Vor allem die sogenannte „Gut-Fall-Prognose“ sorgt im Schadenmanagement für beschleunigte Abläufe und eine effizientere Schadenbearbeitung. Bearbeitungszeiten können bis zu 80 % verringert werden, indem der manuelle Prüfaufwand reduziert wird.  Die manuelle Bearbeitung von Schadendokumenten kostet Zeit und Geld und ist nicht bei jedem Schaden nötig. Doch bei welchem Schaden man sich die Prüfung durch Sachbearbeiter, Gutachter oder Prüfdienstleister „sparen“ kann, ist die entscheidende – oft nicht einfache – Frage. Denn wird genau der falsche Teil der Fälle manuell begutachtet, nimmt der Versicherer nicht erkanntes Einsparpotenzial in Kauf. Eine Lösung dieses Problems bietet die intelligente Schadenprognose. Mithilfe von Algorithmen des maschinellen Lernens kann frühzeitig die Wahrscheinlichkeit ermittelt werden, ob eine manuelle Prüfung sinnvoll ist oder der Schaden sogar automatisiert freigegeben werden kann. Fachkräfte können sich auf die komplexen Fälle konzentrieren – Kunden bekommen schneller Feedback und auch alle Folgeprozesse beschleunigen sich.

Doch wie funktionieren KI-basierte Modelle? Was ist die Grundlage für ein erfolgreiches KI-basiertes Modell wie die „Gut-Fall-Prognose“? Denn eine Software, die diese Algorithmen enthält, reicht leider nicht für einen produktiven Einsatz im Tagesgeschäft.

VERGESST DIE MODELLE! KÜMMERT EUCH UM EURE DATEN

Beim Machine Learning kommt es im Wesentlichen auf zwei Dinge an: den Lernalgorithmus und die Daten, mit denen dieser trainiert wird. Mögliche Fehlerquellen sind hier entweder das Auswählen eines schlechten Algorithmus oder die Nutzung schlechter Daten.

Bei der Frage nach der Wichtigkeit des Algorithmus im Vergleich zu Daten kamen die Forscher Banko und Brill im Jahr 2001 bei Microsoft zu beeindruckenden Ergebnissen. Sie veranschaulichen, dass es bei einer komplexen Aufgabe wie der Unterscheidung von Sprache weniger auf den maschinellen Lernalgorithmus als auf die Daten ankommt. So kamen unterschiedliche, teilweise sehr primitive Algorithmen zu einem ähnlich guten Ergebnis, sofern diese mit genügend Daten trainiert werden. „Die Ergebnisse legen nahe, dass wir unsere Entscheidung über das Investieren von Zeit und Geld in die Entwicklung von Algorithmen gegenüber der Entwicklung eines Datenkorpus neu bewerten sollten.“ Zu der Einschätzung der Überlegenheit von Daten kamen auch Halevy/Norvig/Pereira in dem 2009 erschienenen Artikel „The Unreasonable Effectiveness of Data“.

DATEN SIND NICHT GLEICH DATEN

Daten sind zentral für die Leistungsfähigkeit KI-basierter Modelle. Aber: Daten sind nicht gleich Daten. Für das Antrainieren des ML-Modells müssen sie in entsprechender Beschaffenheit vorliegen, damit diese erfolgreich funktionieren. Ein KI-basiertes Modell lernt anhand von Beispielen und Daten aus abgeschlossenen Fällen. Daher werden historische Daten für das Training benötigt. Bei der Gut-Fall-Prognose werden beispielsweise Schadenfälle genutzt, die zuvor in der manuellen Prüfung durch Experten beurteilt wurden. Um diese Schadenfälle als Trainingsmenge für das Modell nutzen zu können, wird ein fachliches Verständnis des manuellen Prüfprozesses benötigt. Dieses erlangen Data Scientisten im Austausch mit den Prüfexperten. Daten verstehen und richtig interpretieren sind zentrale Voraussetzungen, um zu entscheiden, welche Daten in die Trainingsmenge einfließen, damit ein leistungsfähiges Modell entsteht. Für spezielle Bereiche ist es auch schon möglich, dass sich Modelle basierend auf den aktuellsten Daten selbst trainieren. Data Scientisten kommen hier bei der Evaluation des Modells ins Spiel, die das Modell übernehmen oder manuell weiterentwickeln.

Neben Trainingsdaten, die zur Modellerstellung und dem Training dienen, werden zusätzlich auch unabhängige Validations- und Testdaten zur Evaluation des Modells benötigt. Generell sind bei der Beschaffenheit von Daten wiederum zwei Faktoren entscheidend: Die Datenquantität und die Datenqualität.

DATENQUANTITÄT: JE MEHR, DESTO BESSER!?

Wie groß muss die Datenmenge für ein aussagekräftiges und stabiles KI-Modell sein? Viele wünschen sich darauf eine einfache Antwort, aber eine allgemeine Faustformel gibt es leider nicht. Jeder Case ist individuell. Die benötigte Datenmenge hängt von verschiedenen Faktoren ab wie der Datenqualität und Komplexität der Fragestellung, die das Modell abbilden soll. Schon bei einfachen Aufgaben sind Tausende von Datensätzen erforderlich, damit maschinelle Lernverfahren zuverlässig arbeiten. Bei komplexeren Fragestellungen, z.B. bei der Bild- oder Spracherkennung, benötigt man unter Umständen Millionen von Beispielen. Hinzu kommt, dass nicht nur eine ausreichend große Datenmenge für die Modellentwicklung und -validierung zur Verfügung stehen muss, sondern auch für die fortlaufende Evaluation des Modells. Denn die Modell-Performance sinkt mit der Zeit, daher ist eine Qualitätssicherung während des produktiven Einsatzes des KI-Modells unverzichtbar. Der Grund hierfür sind sich verändernde Umweltbedingungen und damit auch sich verändernde Schadenbilder: „Da die Modelle mit historischen Daten trainiert werden, beginnt jedes Modell sofort nach der Erstellung zu altern und weicht immer mehr von der Realität ab, je älter es wird. Somit muss die Modell-Performance kontinuierlich evaluiert werden, um Veränderungen aufzuspüren – und daraufhin eingreifen zu können“, so Dr. Antje Fitzner, Data Scientistin bei der Eucon Digital. Auch können bereits durch das Modell beurteilte Vorgänge nicht für die stetige Weiterentwicklung verwendet werden. Die Nutzung dieser Fälle würde vorhandene Fehler verstärken, indem sich das Modell zunehmend selbst bestätigt. Es erfordert also sehr viele und immer neue Daten, um es aktuell zu halten und an Veränderungen anzupassen.

Die Frage nach der ausreichenden Datenmenge kann nur eine vorherige Analyse beantworten. Indem die Leistungsfähigkeit eines Modells bei abnehmender Trainingsdatenmenge analysiert wird, lässt sich auswerten, wie groß die Datenmenge mindestens sein muss, um ein zuverlässiges Modell zu erhalten. „Bei der Durchführung dieses Tests für eines unserer Modelle zur Gut-Fall-Prognose zeigte sich, dass bis zu einer Reduktion auf ca. 30 % der Ausgangsdatenmenge die Leistung relativ konstant geblieben ist. Es reichte also bereits ein Drittel der Datenmenge für ein zuverlässiges Modell“, berichtet Janera Kronsbein, Produktmanagerin für KI-basierte Lösungen bei der Eucon Digital. Dieses Ergebnis konnte durch die gute Datenlage erzielt werden: „Durch unsere Historie als Digitalisierungspartner im Schadenmanagement können wir Millionen von Datensätzen in das ML-Modell der Gut-Fall-Prognose einfließen lassen. Die Datenbasis erweitert sich täglich um aktuelle Daten.“

Auch Versicherer haben mitunter große Mengen an Daten, aber oft sind die Daten nicht in der Qualität vorhanden, dass sie für KI-basierte Modelle genutzt werden können. Und damit kommen wir zum nächsten wichtigen Faktor: der Datenqualität.

DATENQUALITÄT: KORREKT, AKTUELL UND REPRÄSENTATIV – DAS MACHT DEN UNTERSCHIED

Der größte Datenpool ist unbrauchbar, wenn die Qualität nicht stimmt. Denn die Qualität der verfügbaren Daten ist für den maschinellen Lernprozess zentral, weil das KI-System anhand der Daten und Beispiele lernt. Die KI muss aus den Daten Gemeinsamkeiten erkennen, die beispielsweise Gut-Fälle aufweisen. Erst wenn das System diese Gemeinsamkeiten zuverlässig erlernt hat, kann es zukünftig neue Fälle eigenständig verarbeiten.

Einige Versicherer haben kaum verwertbare Daten in ihren Systemen erfasst. Andere haben große Datenmengen in Datalakes oder -warehouses. Jedoch sind diese oft nicht ohne Weiteres für das Trainieren von KI-Modellen geeignet – zumindest nicht ohne eine vorherige Datenaufbereitung oder professionelle Fachdatenextraktion. Fast jede dritte Versicherung bewertet die Qualität ihrer erfassten und bearbeiteten Kundendaten als niedrig oder eher niedrig. Vor allem unvollständige und mehrfach angelegte Kundendaten sind ein andauerndes Problem. Vollständige, strukturierte und korrekte (d.h. um Fehler bereinigte) Datensätze sind allerdings zentrale Voraussetzung für die Anwendung von KI. Denn das Modell verlässt sich blind auf Qualität und Korrektheit der Daten, mit denen es antrainiert wird.

Bei der Datenqualität sind aber auch Repräsentativität und Alter der Daten wichtig.

Zunächst zum Aspekt Repräsentativität: Die genutzten Trainingsdaten müssen die Gesamtheit und damit das breite Spektrum der Daten und Vorgänge abbilden. Relevante Eigenschaften sind hierbei z.B. bei der Gut-Fall-Prognose Aspekte wie Schadentyp (Leitungswasser/Sturm etc.) oder die Beleghöhe (in €). Im genannten Beispiel ist die Daten-Varietät durch die Vielzahl von Schäden aus unterschiedlichen Bereichen gegeben, so dass alle Faktoren repräsentiert sind.

Nun zum Alter der Daten: Die Frage, wie alt Datensätze sein dürfen, um ein aktuelles Modell zu gewährleisten, muss ebenfalls zuvor in einem Pretest untersucht werden. Der Einfluss des Alters wird von verschiedenen Faktoren wie der Abhängigkeit der Inputdaten von allgemeinen und saisonalen Trends beeinflusst. Für den konkreten Anwendungsfall der Gut-Fall Prognose werden keine Datensätze genutzt, die älter sind als 3-5 Jahre. „Unsere Analysen haben gezeigt, dass wir durch die Einbeziehung mehrerer Zyklen kurzfristige Schwankungen ausgleichen und gleichzeitig für langfristige Trends die aktuellsten Entwicklungen abbilden.“ – so Janera Kronsbein.

FAZIT: DATEN GEBEN DEN (ALGO-)RHYTHMUS VOR

KI-basierte Modelle können durch Algorithmen des maschinellen Lernens Enormes leisten. Im Schadenmanagement sorgen sie für eine effizientere Schadenbearbeitung und beschleunigte Prozesse. Aber: Die erzielten Ergebnisse sind nur so gut wie die Daten, mit denen ein Modell trainiert wird. Neben dem Verständnis für Daten und deren richtige Interpretation kommt es hier vor allem auf eines an: auf eine große Menge an qualitativen Daten.

 

Dieser Beitrag erschien erstmals in der Ausgabe Nr. 3/2020 "Schadenmanagement mittels Daten und KI" im Themendossier der Versicherungsforen Leipzig.

Verfasst von Eucon Digital GmbH