Home
Insights
Testing & Quality
Software testen: Lass die KI mal machen

Christian Sender

10. Dez 2025

Lesedauer 4 Min.

Software testen: Lass die KI mal machen

Software testen mit Unit-Tests, Teil 1

NUnit versus MSTest versus xUnit.

Was können GitHub Copilot, ChatGPT, Microsoft Copilot, DeepSeek und Konsorten heute tatsächlich? Klar ist, die Ergebnisse einer noch so intensiven Befragung der künstlichen Helferlein bedürfen sorgfältiger Kontrolle. Um aber mal einen groben Überblick über die Fähigkeiten der gängigen Test-Frameworks zu bekommen, ist ein naiver Ansatz womöglich geeignet.

Die Quelltexte finden Sie im GitHub-Repository zu diesem Artikel im Branch „KI“.

Ein erster Prompt

Lassen wir GitHub Copilot mal ganz unbefangen ein paar Tests generieren. Ein einfacher Prompt lautet so:

Schreibe Unit-Tests für die Klasse Calculator.cs. Schließe Grenzfälle mit ein und 
beachte ebenfalls, dass bestimmte Werte zu Exceptions führen können. 
Benutze xUnit als Testframework.

Die zu testende Klasse implementiert die Schnittstelle aus Listing 1.

Listing 1: Die ICalculator-Schnittstelle

public interface ICalculator
{
    int Add(int a, int b);
    int Subtract(int a, int b);
    int Multiply(int a, int b);
    int Divide(int a, int b);
}

So ganz zufrieden kann man mit dem Ergebnis nicht sein: Sämtliche möglichen Überschreitungen des Wertebereichs eines Int32 wurden nicht bedacht. Lediglich die Division durch null wurde als Grenzfall erkannt. Ihre Kollegen würden Ihnen Ihren Feature-Branch im Review um die Ohren hauen angesichts der nicht beachteten Akzeptanzkriterien.

Gnade vor Recht

Nun gut, noch lange kein Grund, irgendwelche künstlich intelligenten Copiloten zu verteufeln. Wagen wir einen Versuch mit ChatGPT und NUnit.

Schreibe Unit-Tests für die Klasse Calculator.cs, die die Schnittstelle ICalculator.cs implementiert. 
Schließe Grenzfälle mit ein und beachte ebenfalls, dass bestimmte Werte zu Ausnahmen führen können. 
Beachte ebenso die Wertebereiche einer 32-Bit-Ganzzahl. Leite die Test-Methoden-Namen von den 
Methodennamen der Schnittstelle ab.
Benutze NUnit als Testframework. Und dies ist die Schnittstelle: [siehe Listing 1]

Positiv fällt auf, dass nun auch der gültige Wertebereich beachtet wird. Störend ist nur, dass ChatGPT hier nicht weiß (und auch nicht wissen kann), dass die Version 4.x von NUnit verwendet werden soll, die hat keine Assert.AreEqual-Methode. Hier hätte ClassicAssert.AreEqual verwendet werden müssen. Das ließe sich allerdings mit GitHub Copilot schnell beheben. Außerdem bietet ChatGPT hier direkt an, TestCase-Attribute zu verwenden, um Tests zusammenzufassen.

Geben wir Microsofts Copilot mal eine Chance

Um keine bösen Überraschungen zu erleben, wird der Prompt noch genauer formuliert:

Schreibe Unit-Tests für die Klasse Calculator.cs, die die Schnittstelle ICalculator.cs implementiert. 
Schließe Grenzfälle mit ein und beachte ebenfalls, dass bestimmte Werte zu Ausnahmen führen können. 
Beachte ebenso die Wertebereiche einer 32-Bit-Ganzzahl. 
Leite die Test-Methoden-Namen von den Methodennamen der Schnittstelle ab.
Benutze MSTest, Version ^3.6, als Testframework. Und dies ist die Schnittstelle: [siehe Listing 1]

Hier lässt sich das Ergebnis kompilieren, im Gegensatz zum vorherigen Versuch. Ebenso positiv ist zu bemerken, dass sowohl ChatGPT als auch Microsoft Copilot beachtet haben, dass der minimale Wert einer 32-Bit-Ganzzahl vom absoluten Betrag her um eins größer ist als der maximale Wert. Folglich löst die Division eines Int32.MinValue durch -1 eine Ausnahme aus, was auch überprüft wird:

public void Divide_MinValueByMinusOne_ShouldThrowOnOverflow()
{
    Assert.Throws<OverflowException>(() => _calculator.Divide(int.MinValue, -1));
}

Zunächst musste sich der Autor wundern, dass keine der Testmethoden, die eine Overflow Exception hätten auslösen sollen, dies auch getan haben. Und noch mehr wundern musste sich der Autor über die Tatsache, dass die verwendeten Projektvorlagen nicht so konfiguriert sind, dies auch zu tun. Erst der Haken bei Auf arithmetischen Überlauf prüfen bewirkte, dass alle Tests erfolgreich durchgeführt wurden (Bild 1).

Ausnahmen wurden nicht ausgelöst (Bild 1)

Fazit

Wie eingangs angedeutet, bedürfen die Ergebnisse der künstlichen Assistenten einer genaueren Überprüfung. Der Autor möchte behaupten, bei dieser trivialen Aufgabe mit manueller Konstruktion der Tests schneller gewesen zu sein als die bemühten Maschinen. Ein grundsätzliches tiefes Misstrauen gegenüber allem, was auch nur ansatzweise behauptet, klüger als der Benutzer zu sein, hat bisher verhindert, tiefer in die Materie eingestiegen zu sein. Auch aus rein empirischer Sicht wagt der Autor zu behaupten, dass es meistens schiefgeht, wenn die digitalen Besserwisser meinen, es wirklich besser zu wissen. Dennoch soll hier nicht ausgeschlossen werden, dass bei entsprechend komplexen Aufgaben durchaus brauchbare Ergebnisse erzielt werden können. Berührungsängste sind nicht angebracht, aber ein gesundes Misstrauen gepaart mit sehr genauer Untersuchung der Ergebnisse ist absolut notwendig.

Inhalt

Ein erster Prompt
Gnade vor Recht
Geben wir Microsofts Copilot mal eine Chance
Fazit

Neueste Beiträge

Artificial Intelligence

GitHub Copilot mit Markdown-Dateien steuern

GitHub Copilot liest Markdown-Dateien, die an bestimmten Orten im System oder im Projekt liegen. Wer diese Dateien gezielt einsetzt, gibt Copilot dauerhaften Kontext – ohne ihn bei je-dem Chat-Start neu erklären zu müssen.

5 Minuten

Olaf Lischke

22. Jun 2026

Mehr erfahren

Artificial Intelligence

Cursor als KI-Turbo für Fluent UI Blazor - Die KI-IDE Cursor in der Praxis, Teil 4

Die auf VS Code basierende KI-IDE Cursor eignet sich für die Entwicklung mit Microsoft Fluent UI Blazor. Für eine effizientere Arbeit mit dem KI-Agenten existiert inzwischen ein MCP-Server aus dem Fluent-UI-Blazor-Umfeld.

7 Minuten

Frank Simon

24. Jun 2026

Mehr erfahren

Artificial Intelligence

Sicherheit, Offline-Betrieb und Recovery mit Cursor - Die KI-IDE Cursor in der Praxis, Teil 3

Cursor schützt Code durch den Privacy Mode und verhindert so das Training von Modellen mit Nutzerdaten. Während die KI-Rechenleistung primär cloudbasiert ist, erfolgt das Indexing der Codebase lokal. Ausfallsicherheit und Recovery werden durch Multi-File-Undo-Workflows gewährleistet.

8 Minuten

Frank Simon

17. Jun 2026

Mehr erfahren

Das könnte Dich auch interessieren

Testing & Quality

Warum moderne Anwendungen neue Messmethoden brauchen - Real User Monitoring im Wandel

Die Kombination aus Real User Monitoring und einer umfassenden Observability-Strategie ermöglicht es, Frontend-Interaktionen mit den zugrunde liegenden Systemprozessen zu verknüpfen. KI-gestützte Observability hilft dabei, die Telemetriedaten auszuwerten und komplexe Zusammenhänge sichtbar zu machen.

6 Minuten