Home
Insights
Data & Databases
LLMs als Datenmotor

Fabian Deitelhoff

15. Jul 2024

Lesedauer 20 Min.

LLMs als Datenmotor

Datenmigrationen mit Python und Sprachmodellen, Teil 2

Große Sprachmodelle bieten zahlreiche Möglichkeiten, um bei der Migration von Daten zu unterstützen und damit die Funktionalität von Sprachen wie Python zu erweitern.

Einen wesentlichen Fortschritt in den letzten Jahren stellt die Entwicklung und Anwendung großer Sprachmodelle (Large Language Models, LLMs) wie beispielsweise GPT-3, GPT-4 oder Llama 3 dar. Diese Modelle haben das Potenzial, vielfältige Aufgaben zu automatisieren, zu optimieren oder allgemein zu unterstützen. Dazu zählen auch komplexe Prozesse wie die Datenmigration.Große Sprachmodelle bieten in diesem Kontext eine Vielzahl von Vorteilen. Sie können nicht nur dabei helfen, die Komplexität der Datenmigration zu verringern, sondern auch die Genauigkeit und Effizienz des Prozesses zu erhöhen. Ein Hauptanwendungsbereich ist die automatische Datenbereinigung und -transformation. LLMs lassen sich nutzen, um unstrukturierte oder semistrukturierte Daten in strukturierte Formate zu konvertieren, Dubletten zu erkennen und zu eliminieren sowie Inkonsistenzen in den Daten zu identifizieren und zu korrigieren.Dabei sind Sprachmodelle alles andere als der goldene Hammer, der sich auf alle Arten von Problemen ohne Schwierigkeiten anwenden lässt. Auch LLMs haben ihre Nachteile und sollten gut überlegt an spezifischen Stellen zum Einsatz kommen. Dieser zweite Artikel der zweiteiligen Serie gibt einen Überblick über die Möglichkeiten von Sprachmodellen bei der Datenmigration und zeigt auf, was funktioniert und wo Schwierigkeiten lauern.

Large Language Models

Large Language Models (LLMs) oder große Sprachmodelle sind spezialisierte KI-Systeme, die darauf trainiert sind, menschliche Sprache zu verstehen und zu generieren. Diese Technologie basiert auf neuronalen Netzwerken, insbesondere auf einer Architektur, die als Transformer bekannt ist. Diese Modelle sind mit enormen Datenmengen trainiert, die aus Büchern, Artikeln, Websites und anderen textbasierten Quellen bestehen. Durch das Training lernen sie, Muster, Zusammenhänge und sogar den Kontext innerhalb von Texten zu erkennen und entsprechend darauf zu reagieren.Die Funktionsweise von LLMs lässt sich in zwei Hauptprozesse unterteilen: das Training und die Inferenz. Während der Trainingsphase lernt das Modell mit einer Vielzahl von Beispieltexten. Das Ziel ist es, das Modell so zu trainieren, dass es die Wahrscheinlichkeit der nächsten Wortfolge basierend auf den vorangegangenen Worten vorhersagen kann. Bei der Inferenz verwendet das Modell dieses trainierte Wissen, um auf Eingabefragen zu antworten, Texte zu generieren oder Übersetzungen anzufertigen, indem es die gelernten Sprachmuster anwendet.LLMs sind in der Lage, eine Vielzahl von Aufgaben zu bewältigen, darunter die Beantwortung offener Fragen, das Erstellen von Inhalten, die Übersetzung von Sprachen und sogar die Generierung von Code. Genau diese Aufgaben lassen sich auch in Datenmigrationen sinnvoll und gewinnbringend nutzen. Insbesondere ihre Fähigkeit, kontextbezogene und nuancierte Texte zu produzieren, macht sie besonders wertvoll für Anwendungen, die mit Daten und Datenformaten hantieren müssen.

LLMs motivieren – sinnvoll oder Nonsens?

Oft ist davon zu lesen, Sprachmodelle bei einer Aufgabenstellung zu motivieren, beispielsweise durch eine Belohnung. Das soll die Ergebnisse verbessern und generell für bessere Antworten sorgen.Die Frage nach der „Motivation“ bei Sprachmodellen wie GPT-3 oder BERT ist allerdings metaphorisch zu verstehen, da diese Modelle keine Emotionen oder Bewusstsein besitzen, wie es bei Menschen der Fall ist. Stattdessen bezieht sich die Motivation bei LLMs auf die Mechanismen und Techniken, die verwendet werden, um diese Modelle dazu zu bringen, bestimmte Aufgaben effektiv und effizient zu erfüllen. In diesem Kontext bedeutet Motivation die Gestaltung von Anreizstrukturen innerhalb des Trainingsprozesses, die das Modell dazu bringen, die gewünschten Ergebnisse zu liefern.In der Praxis ist die Motivation eines LLM durch die Verwendung von Anreizstrukturen wie Belohnungsfunktionen im Rahmen des maschinellen Lernens zu erreichen. Diese Modelle sind auf großen Datenmengen trainiert, wobei sie Belohnungen (oder positive Feedbacksignale) erhalten, wenn sie die richtigen Antworten oder Lösungen generieren. Dieser Prozess ist vergleichbar mit dem Lernen durch Verstärkung, bei dem das Modell lernt, bestimmte Verhaltensweisen zu „bevorzugen“, die zu höheren Belohnungen führen. In der Praxis gibt es dazu unterschiedliche Ansätze:LLMs lassen sich zunächst durch kontinuierliches Feedback und die Anpassung ihrer Trainingsdaten motivieren, um ihre Leistung zu verbessern. Dies kann durch die Analyse der Ausgaben des Modells und die entsprechende Anpassung der Eingabedaten oder des Trainingsalgorithmus erfolgen, um bessere Ergebnisse zu erzielen.Ein weiterer Ansatz ist die Feinabstimmung von LLMs auf spezifische Aufgaben oder Domänen. Durch das Training auf spezialisierten Datensätzen lässt sich das Modell motivieren, in bestimmten Bereichen wie juristischer Textanalyse oder medizinischer Diagnostik besser zu performen.Ähnlich wie bei der Verhaltensverstärkung in der Psychologie lassen sich LLMs durch belohnungsbasiertes Lernen trainieren, bei dem sie für korrekte Antworten oder Lösungen belohnt werden. Dies fördert die Entwicklung von Strategien, die das Modell dazu bringen, die gewünschten Ausgaben zu generieren.

Verschiedene Modelle für unterschiedliche Zwecke

GPT-3, entwickelt von OpenAI, ist eines der bekanntesten LLMs mit über 175 Milliarden Parametern. Es ist schnell, kosteneffizient und lässt sich für unterschiedliche Anwendungsfälle einsetzen, darunter das Verfassen von Artikeln, das Generieren von kreativen Texten und das Beantworten von Kundenanfragen. GPT-3 hat durch seine Fähigkeit, kohärente und kontextbezogene Texte zu generieren, breite Anwendung in der Geschäftswelt gefunden. In der Zwischenzeit gibt es zahlreiche Weiterentwicklungen, wie GPT-3.5 (Turbo), GPT-4 (Turbo) [1] und das am 14. Mai 2024 vorgestellte Modell GPT-4o [2]. GPT-4 ist beispielsweise gut geeignet, um Skripte oder Code zu generieren, die für die Datenmigration benötigt werden, wie beispielsweise SQL-Abfragen oder ETL-Prozesse (Extract, Transform, Load).BERT (Bidirectional Encoder Representations from Transformers) [3] wurde von Google entwickelt und ist bekannt für seine Fähigkeit, die Bedeutung des Kontexts in Texten zu verstehen. BERT wird häufig in Suchmaschinen und für Aufgaben eingesetzt, die ein tiefes Verständnis der Sprache erfordern, wie zum Beispiel die Sentiment-Analyse. Durch seine bidirektionale Natur kann BERT den Kontext von Wörtern besser erfassen, was zu präziseren Ergebnissen bei der Informationsgewinnung führt. BERT hat ein bidirektionales Verständnis, was bedeutet, dass es den Kontext eines Wortes sowohl von links als auch von rechts betrachtet. Dies ist besonders nützlich für das Verständnis und die Bereinigung von Textdaten.Microsoft hat Turing-NLG [4] entwickelt, um eine breite Palette von Anwendungen, darunter Textzusammenfassung, Übersetzung und E-Mail-Verwaltung, zu realisieren. Es ist auch ein Schlüsselwerkzeug in Microsofts Produktivitätssoftware, wie etwa in Microsoft 365, um natürlichsprachliche Abfragen zu unterstützen.T5 [5] oder Text-to-Text Transfer Transformer ist ebenfalls von Google und darauf ausgelegt, verschiedene NLP-Aufgaben in ein einheitliches Text-zu-Text-Format umzuwandeln. Dieses Modell lässt sich für eine Vielzahl von Aufgaben nutzen, darunter Textklassifikation, Zusammenfassung und Fragebeantwortung.Diese Modelle sind nur einige Beispiele für die Vielfalt und Leistungsfähigkeit von LLMs. Im Kontext dieses Artikels kommt primär GPT-4 zum Einsatz, um Daten und Datenformate zu analysieren, zu transformieren und um strukturierte Informationen aus unstrukturierten Datenquellen herauszulösen. Allesamt Aufgaben, die im Kontext von Datenmigrationen relevant sind und viel Aufwand einsparen können.

Sprachmodelle in der Planungsphase

Die Planungsphase der Datenmigration ist entscheidend für die Überführung von Unternehmensdaten, Anwendungen und IT-Prozessen in eine neue Umgebung. Sprachmodelle bieten neue Möglichkeiten, diesen Prozess effizienter zu gestalten. Sie spielen eine wichtige Rolle bei der Analyse und Planung von Migrationsstrategien und bei der Erstellung von Migrationsplänen und -skripten.Sprachmodelle analysieren große Mengen an Dokumentation und Daten, um relevante Informationen zu extrahieren. Sie identifizieren beispielsweise Abhängigkeiten zwischen Anwendungen, die für die Migrationsplanung wichtig sind. Ein praktisches Beispiel ist die Analyse von Legacy-Systemdokumentationen, um einen Überblick über Datenstrukturen und Abhängigkeiten zu gewinnen, was die Planung einer effizienten Migrationsstrategie unterstützt.Zudem bieten Sprachmodelle einen Mehrwert durch die automatische Generierung von Migrationsplänen und -skripten, die spezifisch auf die Bedürfnisse eines Unternehmens zugeschnitten sind. Sie erzeugen detaillierte Schritt-für-Schritt-Pläne und Skripte für die Migration, die die Vor- und Nachbereitung, Datenübertragung und Validierung der Ergebnisse umfassen.Die Nutzung von Sprachmodellen in der Datenmigrationsplanung beschleunigt den Prozess, erhöht die Genauigkeit und minimiert Risiken. Dennoch erfordert die erfolgreiche Anwendung eine sorgfältige Überwachung und Anpassung, um sicherzustellen, dass die generierten Pläne und Skripte den Unternehmenszielen entsprechen.

Datenbereinigung und Datenorganisation

Die Fähigkeit von Sprachmodellen, komplexe Sprachdaten zu verstehen und zu verarbeiten, macht sie besonders nützlich für Aufgaben der Datenbereinigung und -organisation. LLMs helfen bei der Textextraktion und -transformation, bei der Datenvalidierung und Fehlerbehebung, bei der Integration in bestehende Migrationswerkzeuge sowie der automatischen Klassifizierung und Anreicherung von Daten.Ein Beispiel für den Einsatz von LLMs ist, Text aus unstrukturierten Datenquellen zu extrahieren und in eine strukturierte Form zu überführen. Dies ist besonders nützlich in Bereichen, wo Daten aus verschiedenen Quellen wie PDFs, Bildern oder Online-Quellen aggregiert werden sollen. Listing 1 zeigt dazu ein Beispiel mit GPT und Pandas in Python. Hierbei extrahiert das Sprachmodell angegebene Informationen aus einem Text. Zum Teil funktioniert das auch mit regulären Ausdrücken. Diese sind allerdings deutlich strukturierter, was einerseits ein Vorteil sein kann, wenn sich die relevanten Textstellen gut abbilden lassen. Andererseits ist das ein Nachteil, weil ein Sprachmodell auch mit vielen Sonderfällen gut zurechtkommt, zum Teil bereits, ohne diese im Prompt konkret angeben zu müssen. Hier sind Tests in der Praxis mit realen Daten notwendig, um den richtigen Weg auszuloten.

Listing 1: Strukturierte Daten über ein Sprachmodell erfassen

import openai
import pandas as pd
# Stellen Sie sicher, dass Sie Ihren OpenAI-API-
# Schlüssel hier einfügen
openai.api_key = 'Ihr-API-Schlüssel'
# Beispieltext, der aus einer unstrukturierten Quelle 
# extrahiert wurde
text = "Name: John Doe, Alter: 30, \
 Beruf: Softwareentwickler"
# Anfrage an GPT-3 senden, um den Text zu 
# strukturieren
response = openai.Completion.create(
 engine="davinci",
 prompt="Extrahiere die Felder und Werte aus dem \
 folgenden Text: " + text,
 max_tokens=64
)
# Extrahierte Daten in einen DataFrame laden
data = eval(response['choices'][0]['text'])
df = pd.DataFrame([data])
print(df)

Listing 2 zeigt ein weiteres Beispiel aus der Praxis, etwas abgewandelt, um den Umfang zu reduzieren. Der dargestellte Code demonstriert die Nutzung von GPT-2 für die Extraktion von Datumsangaben aus Text. Nach dem Import der notwendigen Bibliotheken lädt der Code das GPT-2-Modell und den dazugehörigen Tokenizer. Das Modell und der Tokenizer sind zentral für die Verarbeitung der Eingabe und Erzeugung der Ausgabe. Sobald diese geladen sind, wird eine Funktion extract_date_details definiert, die einen Datums-String als Eingabe nimmt. Innerhalb dieser Funktion wird ein Prompt erstellt, der das Datum enthält und das Modell auffordert, Tag, Monat und Jahr zu extrahieren.

Listing 2: Datumsangaben extrahieren

from transformers import GPT2LMHeadModel, 
 GPT2Tokenizer
# Modell und Tokenizer laden
model_name = "gpt-2"
model = GPT2LMHeadModel.from_pretrained(model_name)
tokenizer = GPT2Tokenizer.from_pretrained(
 model_name)
def extract_date_details(date_string):
 # Das Modell verwendet einen Prompt, um 
 # Informationen zu extrahieren
 prompt = f"What is the day, month, and year of \
 the date {date_string}?"
 inputs = tokenizer.encode(
 prompt, return_tensors="pt")
 
 # Generiere die Antwort vom Modell
 outputs = model.generate(inputs, max_length=50, 
 num_return_sequences=1)
 text = tokenizer.decode(outputs[0], 
 skip_special_tokens=True)
 
 # Drucke die generierte Antwort
 print(text)
# Beispieldatumsangaben
dates = ["12th January 2023", "23.08.2021", 
 "March 15, 2019"]
# Extrahiere Details für jede Datumsangabe
for date in dates:
 extract_date_details(date)

Die Funktion nutzt den Tokenizer, um den Prompt in ein Format umzuwandeln, das vom Modell verarbeitet werden kann. Diese codierte Eingabe wird dann dem Modell übergeben, welches daraufhin eine Antwort generiert. Die maximale Länge der Antwort ist auf 50 Tokens begrenzt, um die Genauigkeit und Relevanz der Antwort zu gewährleisten.Nach der Generierung der Antwort decodiert der Tokenizer das Token zurück in lesbaren Text, wobei spezielle Tokens, die nicht zum eigentlichen Text gehören, übersprungen werden. Das Ergebnis ist ein klarer, verständlicher Text, der die extrahierten Datumskomponenten enthält. Zum Schluss definiert der Code eine Liste von Datumsangaben als Resultat. Dieses Beispiel lässt sich wie dargestellt auch mit anderen Tools umsetzen. In der Praxis hat sich aber gezeigt, dass die Datumsangaben eine sehr hohe Varianz besitzen. Oft folgten die Daten keiner konkreten Formatierung oder es wurden Datumsspannen in sehr unterschiedlichen Formaten angegeben. Hier haben bei einem Proof of Concept (PoC) reguläre Ausdrücke und andere Bibliotheken zur Datums- und Zeitverarbeitung schnell versagt. Das Sprachmodell, in der letzten Ausbaustufe kam GPT-4 zum Einsatz, hat dagegen alle Datumsangaben problemlos erkennen und in eine Liste extrahieren können.LLMs lassen sich auch zur Überprüfung der Genauigkeit und Konsistenz von Daten einsetzen. Sie sind in der Lage, Inkonsistenzen oder Fehler in Datensätzen zu erkennen, die menschliche Bearbeiter möglicherweise übersehen würden. Ein Beispiel zur Fehlererkennung mit BERT und Pandas findet sich in Listing 3. Zuerst importiert der Code die erforderlichen Bibliotheken und Module, einschließlich BertForSequenceClassification für das Modell, BertTokenizer für die Tokenisierung des Texts, Torch für Tensoroperationen und Pandas für die Datenverarbeitung. Das Modell und der Tokenizer laden die vortrainierte bert-base-uncased-Version. Ein Pandas-DataFrame df wird erstellt, der Beispiele für Texte enthält. Die Funktion validate_text tokenisiert den Text, führt ihn durch das BERT-Modell und berechnet die Wahrscheinlichkeit, dass der Text eine negative Sentiment-Klassifizierung hat. Diese Wahrscheinlichkeiten speichert der Code in der DataFrame und gibt sie anschließend aus.

Listing 3: Die Klassifikation von Daten mittels BERT

from transformers import 
 BertForSequenceClassification, BertTokenizer
import torch
import pandas as pd
# Modell und Tokenizer laden
model = BertForSequenceClassification.from_pretrained(
 'bert-base-uncased')
tokenizer = BertTokenizer.from_pretrained(
 'bert-base-uncased')
# Datenbeispiel
data = {'text': ['Dies ist ein guter Tag.', 
 'Dies ist kein guter Tag']}
df = pd.DataFrame(data)
# Daten validieren
def validate_text(text):
 inputs = tokenizer(text, return_tensors="pt", 
 padding=True)
 outputs = model(**inputs)
 predictions = torch.nn.functional.softmax(
 outputs.logits, dim=-1)
 return predictions[:, 1].item() 
 # Wahrscheinlichkeit, dass der Text negativ ist
df['validity'] = df['text'].apply(validate_text)
print(df)

Die Integration von LLMs in bestehende Datenmigrationswerkzeuge kann den Prozess der Datenübertragung und -transformation erheblich verbessern. LLMs können automatisch Skripte generieren, die spezifische Migrationsschritte ausführen, basierend auf den Anforderungen des Zielumfelds. Hierzu zeigt Listing 4 ein Beispiel.

Listing 4: Erzeugen eines Skripts

# Angenommen, wir haben ein LLM, das für die Generierung von Code trainiert ist
script_prompt = "Schreibe ein Python-Skript, das Daten von einer SQL-Datenbank zu MongoDB migriert."
response = openai.Completion.create(engine="davinci-codex", prompt=script_prompt, max_tokens=150)
print(response['choices'][0]['text'])

Automatische Klassifizierung und Anreicherung von Daten

LLMs lassen sich zur automatischen Klassifizierung und Anreicherung von Daten einsetzen, indem sie zusätzliche Informationen aus externen Quellen extrahieren oder durch das Erkennen von Mustern in den Daten neue Kategorien oder Tags zuweisen. Listing 5 zeigt dazu ein Beispiel für die Klassifizierung mit GPT-3.

Listing 5: Das Anreichern von Daten über einen Prompt

# Beispiel für die Nutzung von GPT-3 zur Klassifizierung von Kundendaten
data = {'Kundenanfrage': ['Ich habe ein Problem mit meinem Produkt', 'Wie kann ich ein neues Konto erstellen?']}
df = pd.DataFrame(data)
def classify_request(text):
 prompt = f"Klassifiziere die folgende Kundenanfrage: {text}"
 response = openai.Completion.create(engine="davinci", prompt=prompt, max_tokens=64)
 return response['choices'][0]['text'].strip()
df['Kategorie'] = df['Kundenanfrage'].apply(classify_request)
print(df)

Diese Vorgehensweise lässt sich auf andere Anwendungsfälle adaptieren, die vielleicht auf den ersten Blick nichts mit dieser Implementierung und Nutzung zu tun haben. Beispielsweise sind in einer realen Datenmigration Trainerdaten in einer Datenbank mit Trainern für Schulungen angefallen. Diese Daten der Trainer enthalten unstrukturierte Bewertungen in Textform, die im neuen System auf eine Skala abgebildet werden sollten. Hier war GPT-4 als Sprachmodell sehr nützlich, da die Texte pro Trainer zusammengefasst, klassifiziert und in eine vorbereitete Skala überführt werden konnten. Das war recht einfach zu implementieren und hat viel manuellen Aufwand eingespart.Das Beispiel ist auch aus einem anderen Blickwinkel gut, denn diese Aufgaben erfordern nicht zwingend Sprachmodelle. Listing 6 zeigt ein ähnliches Beispiel mit Hoteldaten und Hotelbewertungen. Der Code nutzt die Bibliotheken Pandas und TextBlob [6], um Hoteldaten zu verarbeiten und eine Sentiment-Analyse durchzuführen. Ein Dictionary enthält die Namen, Adressen und Bewertungen von Hotels. Diese Daten werden in einen Pandas-DataFrame konvertiert. Eine Funktion namens bewertung_in_sterne berechnet die Polarität der Bewertungen mit TextBlob und wandelt den Durchschnittswert in eine Sternebewertung um, die von 1 bis 5 reicht. Der Code fügt dann diese Sternebewertungen dem DataFrame hinzu. Schließlich wird der DataFrame auf die relevanten Spalten Name, Adresse und Sternebewertung reduziert, um eine klare Übersicht der Hotelbewertungen zu erhalten. Das zeigt, dass ein Sprachmodell für die Bewertung beziehungsweise die Umwandlung der Bewertung nicht zwingend notwendig ist. Ein solches Modell kann aber dabei helfen, die initialen Bewertungen aus einem Korpus an Informationen herauszulösen, wenn die Daten unstrukturiert vorliegen.

Listing 6: Die Klassifikation von Hotelbewertungen

import pandas as pd
from textblob import TextBlob
# Hoteldaten
hotels = {
 "Name": ["Hotel A", "Hotel B", "Hotel C", 
 "Hotel D", "Hotel E", "Hotel F", "Hotel G", 
 "Hotel H", "Hotel I", "Hotel J"],
 "Adresse": [
 "Musterstraße 1, 10115 Berlin", 
 # ...
 ],
 "Bewertungen": [
 ["Sehr sauber und freundliches Personal. Die 
 Lage ist perfekt!", "Zimmer waren komfortabel, 
 aber das Frühstück war enttäuschend."],
 # ...
 ]
}
# DataFrame erstellen
df = pd.DataFrame(hotels)
# Funktion zur Sentiment-Analyse
def bewertung_in_sterne(bewertungen):
 polarities = []
 for bewertung in bewertungen:
 tb = TextBlob(bewertung)
 polarities.append(tb.sentiment.polarity)
 
 avg_polarity = sum(polarities) / len(polarities)
 
 # Polarität in Sterne umwandeln: -1 bis 1 in 1 bis 
 # 5 Sterne
 sterne = round((avg_polarity + 1) * 2.5)
 return sterne
# Sternebewertungen berechnen
df["Sternebewertung"] = df["Bewertungen"].apply(bewertung_in_sterne)
df = df[["Name", "Adresse", "Sternebewertung"]]

Integration von LLMs in Migrationsprozesse

Die Integration von LLMs in bestehende Migrationsprozesse stellt eine gute Möglichkeit dar, die Effizienz und Genauigkeit dieser Prozesse zu verbessern. Diese Integration ist in der Praxis allerdings selten ohne Herausforderungen zu bewerkstelligen. Zu den technischen Schwierigkeiten gehören die Skalierung der Modelle, die Sicherstellung der Datenqualität, die Antwortqualität sowie das Antwortformat der Modelle und die Integration in bestehende IT-Systeme.LLMs erfordern erhebliche Rechenressourcen, insbesondere bei der Verarbeitung großer Datensätze. Eine Lösung kann die Verwendung von Cloud-basierten Diensten sein, die elastische Skalierungsmöglichkeiten bieten. Beispielsweise können Dienste wie Amazon SageMaker oder Google Cloud AI genutzt werden, um LLMs effizient zu skalieren. In der Praxis ist die Nutzung vorhandener Schnittstellen, beispielsweise zu OpenAI, eine gute Variante, die Rechenressourcen problemlos und aufwandsgerecht einzukaufen. In vielen Fällen lohnt es sich nicht, die Sprachmodelle selbst zu hosten. Insbesondere gilt das, wenn die Migrationen nicht sehr häufig durchgeführt werden. Dann ist es günstiger, vorhandene Infrastruktur bei Anbietern zu nutzen.Die Qualität der von LLMs generierten Daten ist ständig zu überwachen, um Fehler und Inkonsistenzen zu minimieren. Automatisierte Qualitätssicherungstools und regelmäßige Überprüfungen sind hierbei essenziell. Das betrifft insbesondere automatische Prozesse. Hier sind die Erzeugnisse von Sprachmodellen zu prüfen, ob die Antworten noch immer den erwarteten Daten entsprechen. Zudem lässt sich über das Prompting mitgeben, welches Format ein Modell erzeugen soll. Alternativ stehen hier Funktionalitäten wie Funktionsaufrufe oder Bibliotheken zur Verfügung, die Antworten von Sprachmodellen verarbeiten und die gewünschten Informationen herauslösen. Das ist wichtig und kann den Einsatz von Sprachmodellen trüben. Wenn die Antwortqualität nicht stimmt oder das Format nicht eingehalten wird, ist das in einem Prozess der Datenmigration eine entscheidende Schwachstelle.Die Integration von LLMs erfordert oft eine Anpassung bestehender IT-Systeme. APIs und Middleware-Lösungen können hierbei helfen, die LLMs nahtlos in die bestehende Infrastruktur zu integrieren. Diese Integration ist aber nur dann sinnvoll, wenn die Migrationen konstant durchzuführen sind. Für einmalige Aktionen reicht es häufig aus, einzelne Skripte einzusetzen, die eher als Wegwerfware anzusehen sind.Ein Beispiel für die erfolgreiche Anwendung von LLMs ist die automatisierte Migration von Codebasen zwischen verschiedenen Programmiersprachen. Tools wie GPT-Migrate nutzen LLMs, um bestehenden Code zu analysieren und in eine andere Sprache zu übersetzen. Dies reduziert den manuellen Aufwand erheblich und minimiert Fehlerquellen. Listing 7 zeigt, wie hier Sprachmodelle tendenziell Unterstützung bieten können. Der Code definiert die Funktion migrate_code, die source_code und target_language als Parameter nimmt. Diese Funktion formuliert eine Aufforderung, um den gegebenen Quellcode in die Zielsprache zu übersetzen. Dafür wird das Modell davinci-codex von OpenAI verwendet, das über die Completion.create-Methode aufgerufen wird. Die Antwort ist auf 500 Tokens begrenzt. Nach Erhalt der Antwort extrahiert die Funktion den übersetzten Code, entfernt unnötige Leerzeichen und gibt ihn zurück. Diese Umwandlung funktioniert für Daten ebenfalls sehr gut.

Listing 7: Das beispielhafte Umwandeln von Code

import openai
def migrate_code(source_code, target_language):
 prompt = f"Translate the following code to \
 {target_language}:\n{source_code}"
 response = openai.Completion.create(
 engine="davinci-codex",
 prompt=prompt,
 max_tokens=500
 )
 return response.choices[0].text.strip()
# Beispielcode in Java
java_code = """
public class HelloWorld {
 public static void main(String[] args) {
 System.out.println("Hello, World!");
 }
}
"""
# Code nach Python migrieren
python_code = migrate_code(java_code, "Python")
print(python_code)

Ein weiteres Beispiel ist die Verwendung von LLMs zur Unterstützung der Datenmigration und -transformation. LLMs lassen sich einsetzen, um komplexe Datenstrukturen zu verstehen und entsprechende Transformationslogik zu generieren. Listing 8 zeigt dazu ein Beispiel für die automatische Generierung von Transformationslogik. Nach dem Import wichtiger Bibliotheken definiert der Code die Funktion generate_transformation, die zwei Parameter annimmt: data_model und target_model. Diese Funktion erstellt eine Aufforderung zur Generierung eines Skripts, das Daten von einem gegebenen Datenmodell zu einem Zielmodell transformiert. Sie nutzt die Completion.create-Methode des davinci-codex-Modells von OpenAI, um eine entsprechende Transformation basierend auf der angegebenen Aufforderung zu generieren. Die maximale Anzahl an Tokens für die Antwort ist dabei auf 500 festgelegt. Der generierte Text wird bereinigt und zurückgegeben.

Listing 8: Erzeugen eines Transformationsskripts über ein Sprachmodell

import openai
def generate_transformation(data_model, target_model):
 prompt = f"Generate a data transformation script \
 from the following data model to \
 {target_model}:\n{data_model}"
 response = openai.Completion.create(
 engine="davinci-codex",
 prompt=prompt,
 max_tokens=500
 )
 return response.choices[0].text.strip()
# Beispiel eines Datenmodells
data_model = "id: integer, name: string, age: integer"
# Transformationslogik nach einem neuen Modell 
# generieren
transformation_logic = generate_transformation(
 data_model, "new_model: id, full_name, age_group")
print(transformation_logic)

Sprachmodelle in der Nachbearbeitung

Die Nachbearbeitung der Migration ist ein entscheidender Schritt, um die Langlebigkeit und Effizienz der migrierten Systeme zu gewährleisten. Sprachmodelle spielen hierbei eine zunehmend wichtige Rolle, indem sie die Dokumentation und Berichterstattung automatisieren, die Analyse der Migrationsergebnisse unterstützen und bei der langfristigen Wartung und den Updates der Systeme helfen. Sprachmodelle können automatisch Berichte generieren, die die durchgeführten Aktionen und deren Ergebnisse zusammenfassen. Listing 9 zeigt ein Beispiel, um die Berichterstellung mit GPT-3 und Pandas in Python zu automatisieren. Das funktioniert in der Praxis gut, ist allerdings darauf angewiesen, dass die Informationen eines Berichts bereits so vorliegen, dass sie über Skripte und das Sprachmodell zu verarbeiten sind. Das ist nicht immer gegeben. Andererseits ist das ein guter Punkt, bei der Migration Logdateien zu erstellen, die dann im nächsten Schritt durch Python-Skripte und Sprachmodelle interpretierbar sind.

Listing 9: Erzeugen eines Berichts auf Basis von Daten in einem DataFrame

import openai
import pandas as pd
# API-Key für OpenAI einrichten
openai.api_key = 'Ihr-API-Schlüssel'
# Daten, die dokumentiert werden sollen
data = {
 'Prozess': ['Datenextraktion', 'Datenbereinigung', 
 'Datenmigration'],
 'Status': ['abgeschlossen', 'abgeschlossen', 
 'abgeschlossen'],
 'Zeit': ['2 Stunden', '3 Stunden', '5 Stunden']
}
df = pd.DataFrame(data)
# Funktion, um einen automatisierten Bericht zu 
# generieren
def generate_report(df):
 summary = "Bericht zur Migration: \n"
 for index, row in df.iterrows():
 summary += f"Prozess: {row['Prozess']}, Status: 
 {row['Status']}, Dauer: {row['Zeit']}. \n"
 response = openai.Completion.create(
 engine="davinci",
 prompt=summary + "Fasse die Migration zusammen \
 und gib Empfehlungen.",
 max_tokens=150
 )
 return response.choices[0].text.strip()
# Bericht generieren
report = generate_report(df)
print(report)

Denn nach der Migration ist es wichtig, die Ergebnisse zu analysieren, um festzustellen, ob die Ziele erreicht wurden und wo Verbesserungen möglich sind. Sprachmodelle helfen dabei, Daten zu analysieren und Optimierungsvorschläge zu generieren. In Listing 10 ist dazu ein Beispiel zu sehen, um Daten in einem DataFrame zu analysieren und Optimierungsvorschläge mittels des GPT-Modells zu erzeugen. Das funktioniert in der Praxis ebenfalls nur dann, wenn die Daten bereits strukturiert in einem DataFrame vorliegen und sich überhaupt erst gut durch das Sprachmodell analysieren lassen. In vielen Fällen sind weitere Schritte und Tools notwendig, um diese Vorschläge auf eine solide Basis zu stellen. Das kann den angesprochenen Vorteil in der Praxis stark schrumpfen lassen oder sogar umkehren, sodass der Einsatz von Sprachmodellen zu komplex ist.

Listing 10: Die Analyse von Migrationsdaten für Optimierungsvorschläge

# Annahme: Wir haben bereits einen DataFrame `df` mit 
# den Migrationsergebnissen
def analyze_results(df):
 analysis_prompt = 
 "Analyse der Migrationsergebnisse: \n"
 analysis_prompt += df.to_string() + "\n"
 analysis_prompt += "Identifiziere Probleme und \
 schlage Optimierungen vor."
 
 response = openai.Completion.create(
 engine="davinci",
 prompt=analysis_prompt,
 max_tokens=200
 )
 return response.choices[0].text.strip()
# Ergebnisse analysieren
optimization_suggestions = analyze_results(df)
print(optimization_suggestions)

Weiterentwicklungen

Mit der Weiterentwicklung von Sprachmodellen und dem Ökosystem rundherum, insbesondere durch Ansätze wie Agenten, LangChain [7] und LangGraph [8], eröffnen sich neue Möglichkeiten zur Optimierung von Datenmigrationsprozessen. Agentenbasierte Modelle in LLMs sind darauf ausgerichtet, autonom zu handeln und Entscheidungen zu treffen, die auf umfangreichen Textdaten basieren. Im Kontext der Datenmigration lassen sich solche Agenten dazu nutzen, den Migrationsprozess zu steuern, indem sie autonom Entscheidungen über die besten Vorgehensweisen treffen. Beispielsweise könnten Agenten die Qualität der migrierten Daten in Echtzeit überwachen und automatisch Korrekturen vornehmen, wenn sie Inkonsistenzen oder Fehler erkennen. Dies reduziert die Notwendigkeit menschlicher Eingriffe und beschleunigt den Migrationsprozess.LangChain, eine Technologie, die darauf abzielt, LLMs für sequenzielle Entscheidungsfindung zu nutzen, kann besonders nützlich in der Phase der Datenmigration sein. LangChain ermöglicht es LLMs, nicht nur einzelne Datenpunkte zu analysieren, sondern komplette Prozessketten zu verstehen und zu optimieren. In der Datenmigration lässt sich LangChain einsetzen, um den gesamten Migrationspfad zu planen und zu optimieren, von der Extraktion und Bereinigung der Daten bis hin zur Integration in das Zielsystem. Dies könnte besonders vorteilhaft sein, um sicherzustellen, dass alle Schritte der Migration effizient und fehlerfrei durchlaufen werden. In der Praxis stehen die dafür notwendigen Daten nicht immer zur Verfügung. Sequenzielle Entscheidungen sind hier bei der Datenanalyse dennoch von Vorteil und einen Test wert.LangGraph ist eine Erweiterung, die es ermöglicht, mehrere Ketten oder Akteure über zyklische Berechnungsschritte hinweg mit regulären Python- oder JavaScript-Funktionen zu koordinieren und zu kontrollieren. Eines der zentralen Konzepte von LangGraph ist der Zustand. Jede Graphenausführung erzeugt einen Zustand, der zwischen den Knoten im Graphen weitergegeben wird, während sie ausgeführt werden, und jeder Knoten aktualisiert diesen internen Zustand mit seinem Rückgabewert nach der Ausführung. Die Art und Weise, wie der Graph seinen internen Zustand aktualisiert, wird entweder durch den gewählten Graphentyp oder eine benutzerdefinierte Funktion definiert. Dadurch lassen sich komplexere Prozesse abbilden.

Ungünstige Anwendungsfälle

Trotz ihrer vielseitigen Einsatzmöglichkeiten gibt es spezifische Kontexte, insbesondere in der Datenmigration, in denen der Einsatz von LLMs nicht empfohlen ist. Einer der Hauptgründe, warum LLMs nicht für die Datenmigration eingesetzt werden sollten, liegt in der kritischen Bedeutung der Datenqualität. Datenmigration beinhaltet oft den Transfer von Daten zwischen verschiedenen Speichersystemen, Formaten oder Datenbanken. Die Qualität dieser Daten ist entscheidend, da sie direkte Auswirkungen auf die Geschäftsprozesse und Entscheidungsfindungen hat. LLMs, die auf großen Datenmengen trainiert werden, können zwar Muster und Zusammenhänge in Daten erkennen, jedoch ist ihre Fähigkeit, die Genauigkeit und Integrität der migrierten Daten zu gewährleisten, begrenzt. Was für kleinere Datenmengen funktionieren kann, muss daher für umfangreiche Datensätze nicht zwingend ebenfalls mit gleicher Qualität funktionieren.Ein Beispiel hierfür ist die Migration von Kundendatenbanken. Wenn ein LLM zur Automatisierung dieses Prozesses eingesetzt wird, besteht das Risiko, dass wichtige Details oder Nuancen in den Daten verloren gehen oder falsch interpretiert werden. Dies kann zu fehlerhaften Kundenprofilen führen, die wiederum die Kundenbeziehungen und das Marketing negativ beeinflussen können.Die Transformation von Daten ist ein weiterer kritischer Aspekt der Datenmigration, der oft eine präzise Anpassung und Manipulation von Daten erfordert, um sie an neue Strukturen oder Formate anzupassen. LLMs sind in ihrer aktuellen Form nicht in der Lage, komplexe logische oder strukturelle Transformationen durchzuführen, die in vielen Migrationsprojekten erforderlich sind. Sie sind hervorragend darin, Text basierend auf dem Kontext zu generieren oder zu interpretieren, aber die Anwendung von spezifischen Transformationsregeln oder die Durchführung von Datenbereinigungen, die über einfache Textmanipulationen hinausgehen, liegt außerhalb ihrer Reichweite.Ein konkretes Beispiel ist die Migration von Finanzdaten, bei der Währungsumrechnungen, die Anpassung von Datumsformaten und die Konsolidierung von Datensätzen aus verschiedenen Quellen erforderlich sind. Diese Aufgaben erfordern eine präzise Logik und oft auch spezifisches Fachwissen, das LLMs derzeit nicht bieten können.Die Vielfalt der Datenformate und die Notwendigkeit, diese während der Migration zu konvertieren oder zu erhalten, stellen eine weitere Herausforderung dar. Obwohl LLMs beeindruckende Fähigkeiten in der Verarbeitung natürlicher Sprache zeigen, sind sie weniger geeignet für den Umgang mit nicht textbasierten Datenformaten wie Bildern, Videos oder komplexen Tabellenkalkulationen. Die Migration solcher Daten erfordert spezialisierte Werkzeuge und Ansätze, die die Einzigartigkeit jedes Formats berücksichtigen und sicherstellen, dass keine Informationen verloren gehen.Ein Beispiel hierfür ist die Migration von medizinischen Aufzeichnungen, die oft Bilder, beispielsweise Röntgenbilder, handschriftliche Notizen und strukturierte Daten umfassen. Die Fähigkeit, all diese verschiedenen Formate korrekt zu migrieren und zu integrieren, geht über die Kapazitäten aktueller LLMs hinaus.Bei der Migration von sensiblen oder personenbezogenen Daten, wie Gesundheitsinformationen oder Finanzdaten, die strengen Datenschutzbestimmungen unterliegen (zum Beispiel DSGVO, HIPAA), könnte der Einsatz von LLMs problematisch sein. Diese Modelle benötigen oft Zugang zu den Daten, um trainiert zu werden oder um Analysen durchzuführen, was Datenschutzprobleme aufwerfen kann, insbesondere wenn die Daten die Infrastruktur des Unternehmens verlassen oder wenn das Modell von Dritten bereitgestellt wird.LLMs sind zudem in der Regel auf die Verarbeitung und Analyse von Textdaten ausgerichtet. Bestehen die zu migrierenden Daten hauptsächlich aus nichttextuellen Informationen, wie etwa Bildern, Audioaufnahmen oder komplexen numerischen Datensätzen, könnten LLMs weniger effektiv oder ungeeignet sein. Hier sind multimodale Modelle sinnvoll.Der Einsatz von LLMs kann technisch komplex und kostenintensiv sein, insbesondere in Bezug auf die erforderliche Rechenleistung und Speicherung. Kleinere Organisationen oder Projekte mit begrenzten Ressourcen könnten es schwierig finden, diese Technologie effizient zu nutzen, und einfacher gestaltete, weniger ressourcenintensive Lösungen könnten vorzuziehen sein.Für einige Datenmigrationsaufgaben könnte der Einsatz von LLMs eine Überdimensionierung darstellen, besonders wenn die Aufgaben einfach sind und auch durch weniger fortschrittliche Technologien effektiv gelöst werden können. Zum Beispiel könnten einfache Skripte oder bestehende Datenmanagement-Tools ausreichend sein, um Daten von einem Format in ein anderes zu konvertieren oder Duplikate zu entfernen.Obwohl LLMs sehr leistungsfähig sind, können sie in Situationen, in denen sie mit völlig neuen oder unbekannten Datenformaten oder Kontexten konfrontiert werden, unzuverlässige Ergebnisse liefern. In solchen Fällen könnte die Abhängigkeit von LLMs zu fehlerhaften Migrationsprozessen führen, wenn das Modell nicht richtig angepasst oder trainiert wurde.In jedem Fall ist es wichtig, die spezifischen Anforderungen und Rahmenbedingungen der Datenmigration sorgfältig zu bewerten, bevor die Entscheidung für den Einsatz von LLMs getroffen wird. Die spezifischen Anforderungen an Datenqualität, Transformationen und die Handhabung verschiedener Datenformate erfordern oft spezialisierte Werkzeuge und menschliches Fachwissen. Der Einsatz von LLMs in diesen Kontexten könnte zu ungenauen, unvollständigen oder fehlerhaften Datenmigrationen führen, die erhebliche negative Auswirkungen auf ein Unternehmen haben können. Es ist daher entscheidend, die Stärken und Grenzen von LLMs zu verstehen und sie entsprechend einzusetzen, um die bestmöglichen Ergebnisse zu erzielen.

Fazit

Zugegeben, nach der ersten Nutzung von Sprachmodellen in Datenmigrationsprozessen saß ich sehr zwiegespalten vor meinem Code. Die verschiedenen Formen derUnterstützung bei der Analyse von Code, Daten und Datenformaten finde ich bis heute sehr beeindruckend. Schon über kürzere Prompts lässt sich einiges an Wissen generieren, und die Vorschläge, die mir zuletzt GPT-4 erzeugt hat, waren gut bis sehr gut.Die Nutzung funktioniert nach meinen Erfahrungen am besten bei der Analyse von Daten und Datenformaten sowie für Vorschläge, wie sich diese Datenformate verarbeiten und transformieren lassen, beispielsweise im Kontext von Python und Pandas. Die von mir genutzten Modelle hatten keine Probleme, Python-Code zu erzeugen, der Pandas nutzt, sodass eine effiziente Analyse und die Verarbeitung von Daten und Datenformaten möglich waren.Problematisch war dabei immer die Zuverlässigkeit der Antworten, sowohl was die Antwortqualität betrifft wie auch die Antwortformate. Bei den Prozessen zur Datenanalyse und Datenmigration ist es zwingend notwendig, dass die Antworten zuverlässig und vorhersehbar eintreffen und dass das Format so ist, dass es sich deterministisch weiterverarbeiten lässt. Wenn beispielsweise ein JSON-Format als Antwort erwartet wird, dann muss dieses auch vorliegen. Und das, ohne dass ein Modell wie GPT vorher noch einen einleitenden Satz voranstellt. Über ein effizientes Prompting war das möglich und die Antworten wurden später durch benutzerdefinierte Funktionen erzeugt, die über das API von zum Beispiel GPT-4 eingebunden waren.Als abschließendes Fazit bleibt festzuhalten: Die Unterstützung bei der Datenmigration durch Sprachmodelle ist möglich und an vielen Stellen sinnvoll. Erfahrungsgemäß lassen sich viele Daten durch die Modelle analysieren und transformieren. Der Einsatz sollte aber wohldosiert und an überprüfbaren Stellen zum Einsatz kommen, damit hinterher bei der Analyse der Zieldaten keine Überraschungen durch zum Beispiel eine schlechte Datenqualität auffallen.

Projektdateien herunterladen

Fussnoten

Website zu GPT-4,
Website mit der Ankündigung zu GPT-4o,
Research-Seite von Google zu BERT,
Website zu Turing-NLG von Microsoft,
Website zu T5 von Google,
Dokumentation zur Bibliothek TextBlob,
Dokumentation zu LangChain,
Dokumentation zu LangGraph,

Neueste Beiträge

Testing & Quality

Hierarchische Testdata-Builder - Testdata-Builder, Teil 1

Lesbare Tests bei tiefen Objekthierarchien mit dem Collection-Builder-Pattern.

4 Minuten

Alexander Rampp

5. Nov 2025

Mehr erfahren

Artificial Intelligence

Generative AI und Python - Python und AI, Teil 4

Generative KI mit Python nutzen und so die Basis für eigene Anwendungen schaffen.

7 Minuten

Dr. Veikko Krypczyk

11. Nov 2025

Mehr erfahren

Developer Events

DDC hakt nach: Hör auf, Dich über Verbindungsstrings zu ärgern

Die App läuft lokal wie geschmiert, aber sobald Backend-Services ins Spiel kommen, stottert die Maschine. Connection Strings, die nicht wollen. Emulator-Konfigurationen, die nerven. Johan Smarius erklärt im Interview und auf der .NET Developer Conference 2025, wie es anders - und viel besser geht.

4 Minuten

DWX Redaktion

10. Nov 2025

Mehr erfahren

Miscellaneous

Das könnte Dich auch interessieren

Data & Databases

Intelligenter und widerstandsfähiger

Das ist neu in PostgreSQL 18.

5 Minuten

Klaus Aschenbrenner

22. Okt 2025

Data & Databases

Pflichterfüllung - Strukturierte elektronische Rechnungen (E-Invoicing) mit .NET selbst implementiert

.NET-Entwickler können die ab 2025 im B2B-Markt einsetzende Pflicht zur strukturierten elektronischen Rechnungsstellung und -annahme mit Open-Source-Lösungen erfüllen.

17 Minuten

Holger Schwichtenberg

9. Dez 2024

Development Tools

Wexflow: .NET Open Source Workflow-Engine - CodeProject

Wexflow ist eine quelloffene und plattformübergreifende Workflow-Engine und Automatisierungsplattform, die darauf abzielt, wiederkehrende Aufgaben zu automatisieren.

2 Minuten

Bernhard Lauer

5. Jan 2024