Home
Insights
Hardware
CUDA mit C#

Bernd Marquardt

13. Mai 2019

Lesedauer 8 Min.

CUDA mit C#

Vollgas mit der GPU, Teil 3

Mit der Bibliothek Hybridizer C#-Code auf der GPU starten.

Nachdem in den ersten beiden Teilen dieser Artikelserie [1, 2] erläutert wurde, wie man mit C/C++ und Python auf der Grafikkarte (GPU) rechnen kann, soll dieses Mal die Programmiersprache C# ins Rennen gehen.In allen Beispielfällen dieses Artikels wird die CUDA-Bibliothek von Nvidia verwendet. Zudem wird die Bibliothek Hybridizer von Altimesh vorgestellt, die es erlaubt, den Code für die schnellen Rechenfunktionen der GPU direkt mit C# zu formulieren.Grundsätzlich ist es möglich, mit C# über den Interoperabilitätsmechanismus des .NET Frameworks auf die Grafikkarte im Rechner zuzugreifen. Die Optionen reichen von P/Invoke (DllImportAttribute) bis hin zu Wrapper-Klassen, die in C# instanziert und benutzt werden können. In beiden Fällen müssen allerdings größere Teile des Codes in C/C++ erstellt werden.Einfacher geht es hingegen mit der Bibliothek Hybridizer. Sie erlaubt es, C#-Code direkt auf der GPU auszuführen. Hybridizer wird in mehreren Versionen angeboten. Die hier eingesetzten Hybridizer Essentials [3] können kostenlos im akademischen und studentischen Bereich benutzt werden. Hobbyprogrammierer können ebenfalls eine kostenlose Version bekommen. Für professionelle Nutzer liegt der Preis aktuell bei 200 Euro pro Nutzer und Rechner.Der Rechner braucht zudem eine CUDA-taugliche Nvidia-Grafikkarte (mehr dazu in [1]), das CUDA-SDK [4] in einer Version größer oder gleich 8.0 sowie Microsoft Visual Studio ab Version 2012.Bei der kostenlosen Installation von Hybridizer wird einfach der Download installiert. Danach kann man Visual Studio starten und im Menüpunkt Hybridizer den Befehl License Settings aufrufen. Dort wählen Sie die gewünschte Version aus und erhalten eine E-Mail, welche die erforderliche Subscription-ID enthält. Diese ID müssen Sie dann im geladenen Dialog eintragen. Die kostenlose Lizenz gilt drei Monate und kann dann erneuert werden.In den folgenden Beispielprogrammen werden das CUDA-SDK 9.1 und Microsoft Visual Studio 2015 benutzt.

Der erste Einstieg

Im ersten Beispiel soll etwas Integer-Mathematik ausgeführt werden. Nach der Installation von Hybridizer stehen in Visual Studio mehrere Projektvorlagen im Ordner Visual C# | Altimesh zur Auswahl. Wichtig ist es, die korrekte Vorlage für die installierte CUDA-Version zu benutzen, damit das Programm korrekt ausgeführt werden kann, weil sonst die passenden CUDA-Bibliotheken nicht gefunden werden.Mithilfe der Vorlagen erstellen Sie ein Startprogramm – siehe Listing 1. In der Main-Methode des Listings werden zunächst zwei Integer-Arrays deklariert und mit Daten gefüllt. In diesem einfachen Beispiel enthalten die Arrays nur fünf Datenelemente.

Listing 1: Ein erstes Beispiel

using Hybridizer.Runtime.CUDAImports; 
using System; 
using System.Threading.Tasks; 

namespace HybridizerSample1 
{ 
  class Program 
  { 
    [EntryPoint] 
    public static void Run(int N, int[] a, int[] b) 
    { 
      // Parallel-Syntax wie mit C# (TPL) 
      Parallel.For(0, N, i => 
      { 
        a[i] += 3 * b[i]; 
        a[i] -= b[i] / 2 + 10; 
      }); 
    } 

    static void Main(string[] args) { 
      const int N = 5; 
      int[] a = { 1, 2, 3, 4, 5 }; 
      int[] b = { 10, 20, 30, 40, 50 }; 
      // Name der Grafikkarte ermitteln 
      cudaDeviceProp prop; 
      cuda.GetDeviceProperties(out prop, 0); 
      Console.WriteLine(prop.name); 

      HybRunner runner = HybRunner.Cuda(); 

      // Erzeuge einen Wrapper, um die GPU-Methoden 
      // aufzurufen (anstelle der normalen 
      // C#-Methoden) 
      dynamic wrapped = runner.Wrap(new Program()); 

      // Kernel der auf GPU ausführen 
      wrapped.Run(N, a, b); 

      // Ergebnisse ausgeben 
      for(int i = 0; i < N; i++) 
      { 
        Console.WriteLine("{0}: {1}", i, a[i]); 
      } 
    } 
  } 
}

Um tatsächlich eine Performance-Steigerung beim Rechnen auf einer GPU zu erzielen, müssen allerdings wesentlich mehr Daten verarbeitet werden. Je mehr Daten, desto besser! Gleichzeitig gilt es zu berücksichtigen, dass die Übertragung der Daten in den Speicher der GPU etwas Zeit kostet und dadurch die Performance verschlechtert wird. Für ein einführendes Beispiel taugen die kleinen Arrays aber sehr gut.Im darauffolgenden Codeteil soll hier beispielhaft der Name der Grafikkarte mithilfe von cuda.GetDeviceProperties abgefragt werden. Die Variable cuda wird mit der Bibliothek Hybridizer.Runtime.CUDAImports zur Verfügung gestellt, die im Projekt als Referenz und als Namensraum eingefügt ist. Die Variable prop ist vom Typ cudaDeviceProp und liefert vielfältige Informationen über das installierte CUDA-System und die dazugehörige Grafikkarte.Nun wird die Instanz runner vom Typ HybRunner angelegt, die im Prinzip eine CUDA-Laufzeitumgebung zur Verfügung stellt. Über diese Variable wird dann auch eine Hüllklasse (Wrapper) erzeugt, welche die Logik abbildet, die auf der Grafikkarte laufen soll.Jetzt kann der Kernel auf der GPU mit wrapped.Run(...) gestartet werden. In den runden Klammern werden die erforderlichen Parameter angegeben. Hier sind das die beiden Arrays a und b sowie die Anzahl der Elemente N in den Arrays.Die Run-Methode ist blockiert, bis die Berechnungen auf der GPU komplett ausgeführt wurden. Es handelt sich also um einen synchronen Aufruf. Danach können die Ergebnisse der Berechnung im Konsolenfenster ausgegeben werden.Der Code, der auf der GPU ausgeführt werden soll, befindet sich also in der Run-Methode, die als statische Methode ohne Rückgabewert mit den entsprechenden Parametern implementiert wird. Wichtig ist in diesem Fall das Attribut [EntryPoint], das der Hybridizer-Bibliothek sagt, welche Methode als CUDA-Kernel auf der GPU ausgeführt werden soll. Diese Methode kann außedem weitere Funktionen aufrufen, die ebenfalls zum Kernel gehören und auf der GPU ausgeführt werden.Der weitere Code in der Run-Methode sieht eigentlich so aus, wie eine Parallel.For-Schleife, die mit der normalen Task Parallel Library (TPL) aus dem .NET Framework programmiert wurde. Die Syntax ist identisch, allerdings wird diese Parallel-Schleife dann in eine CUDA-Parallel-Variante von Hybridizer umgesetzt. Darum muss im Programm auch der Namensraum System.Threading.Tasks bereitgestellt werden.In der Parallel-Schleife der Run-Methode werden nun einfach einige Integer-Berechnungen durchgeführt. Das Programm kann ganz normal in Visual Studio gestartet und ausgeführt werden.Hier noch ein kleiner Tipp: Wenn Sie am CUDA-Code nach dem Attribut [EntryPoint] etwas ändern, und auch beim ersten Übersetzen, müssen Sie mit Visual Studio das gesamte Projekt übersetzen, ansonsten wird die erforderliche CUDA-DLL nicht neu erstellt.Selbstverständlich können Sie im GPU-Code der Run-Methode auch mathematische Funktionen aus dem .NET-Namensraum Math benutzen. Hierzu zählen trigonometrische Funktionen wie Sin, Cos, Tan, et cetera, außerdem Pow, Exp, Log und viele andere mehr. Das Beispiel in Listing 2 zeigt eine Berechnung mit trigonometrischen Funktionen. Vielleicht erinnern Sie sich noch an Ihre Schulzeit: Damals haben wir folgende Beziehung gelernt:

Listing 2: Etwas mehr Mathematik

using Hybridizer.Runtime.CUDAImports; 
using System; 
using System.Threading.Tasks; 

namespace HybridizerSample2 
{ 
  class Program 
  { 
    [EntryPoint] 
    public static void Run(
      int N, double[] a, double[] b) { 
        Parallel.For(0, N, i => 
        { 
          // Sin(x*x) + Cos(x*x) = 1 
          b[i] = Math.Pow(Math.Sin(a[i]), 2) + 
            Math.Pow(Math.Cos(a[i]), 2); 
      }); 
    } 

    static void Main(string[] args) { 
      const int N = 1000; 
      double[] a = new double[N]; 
      double[] b = new double[N]; 

      for (int i = 0; i < N; i++) { 
        a[i] = (double)i * 2.0 * Math.PI / 1000.0; 
      } 

      // CUDA-Kernel starten 
      HybRunner runner = HybRunner.Cuda(); 
      dynamic wrapped = runner.Wrap(new Program()); 
      wrapped.Run(N, a, b); 

      // Ausgabe einiger Ergebnisse 
      Console.WriteLine("{0}  {1}  {2}  {3}  {4}", 
        b[0], b[2], b[50], b[100], b[N - 1]); 
    } 
  } 
}


sin<sup>2</sup>(x) + cos<sup>2</sup>(x) = 1

Hier kann x ein beliebiger Winkel zwischen 0 und 360 Grad – oder besser zwischen 0 und 2*π – sein. Das Quadrat des Sinus dieses Winkels plus dem Quadrat des Cosinus des Winkels ergibt immer 1, egal welcher Winkel benutzt wird. Somit kann man das Rechenergebnis des folgenden Beispielprogramms sehr leicht überprüfen.Der Aufbau des Programms in Listings 2 ist analog zum ersten Beispiel. In der Kernel-Funktion Run wird im Array b die oben gezeigte Funktion mit den Eingabedaten aus Array a durchgerechnet. Somit sollte in jedem Array-Element von b die Zahl 1 stehen.In der Main-Methode werden zunächst die Ausgabedaten im Array a gespeichert. Diese Werte liegen im Bereich von 0 bis etwa 6,283 (= 2*π) in 1 000 Schritten. Nach dem Aufruf des CUDA-Kernels mit den Parametern a, b und N werden einige Testergebnisse ausgegeben.

Und wieder: Die Matrixmultiplikation

Nun soll die altbekannte Matrixmultiplikation mit Hybridizer implementiert werden, wie das bereits in den beiden ersten Folgen dieser Artikelserie gemacht wurde. Die Multiplikation zweier Arrays (Matrizen) ist in vielen wissenschaftlichen und technischen Bereichen sehr wichtig und leicht zu implementieren.Zunächst wird in Listing 3 eine Standard-Implementierung des Algorithmus in C# vorgestellt. Die hier angewendete Variante arbeitet mit linearen Arrays. Das heißt, ein quadratisches Array mit der Größe von 5 x 5 Elementen wird auf ein eindimensionales Feld mit 25 Elementen abgebildet. Dabei ist dann etwas Indexrechnung erforderlich, die Datenübergabe ist dagegen sehr einfach.

Listing 3: Matrixmultiplikation mit C#

using System; 
using System.Diagnostics; 

namespace ConsoleApplication1 
{ 
  class Program 
  { 
    static void matMult(int N, float[] a, 
      float[] b, float[] c) 
    { 
      for (int i = 0; i < N; i++) 
      { 
        for (int j = 0; j < N; j++) 
        { 
          int ind = i * N + j; 
          float cc = 0.0f; 

          for (int k = 0; k < N; k++) 
          { 
            // Index-Berechnung für lineare Arrays 
            int ind1 = i * N + k; 
            int ind2 = k * N + j; 
            // Entspricht: c[i,j] += a[i,k] * b[k,j] 
            cc += a[ind1] * b[ind2]; 
          } 

          c[ind] = cc; 
        } 
      } 
    } 

    static void Main(string[] args) 
    { 
      Stopwatch sw = new Stopwatch(); 
      const int N = 1024; 
      float[] a = new float[N * N]; 
      float[] b = new float[N * N]; 
      float[] c = new float[N * N]; 

      // Initialisierung 
      for (int i = 0; i < N; i++) 
      { 
        for (int j = 0; j < N; j++) 
        { 
          int ind = i * N + j; 
          a[ind] = (float)ind / (float)(N * N); 
          b[ind] = (float)ind / (float)(N * N); 
          c[ind] = 0.0f; 
        } 
      } 

      sw.Start(); 
      matMult(N, a, b, c); 
      sw.Stop(); 

      // Ausgabe einiger Testergebnisse 
      for (int i = 0; i < 3; i++) 
      { 
        for (int j = 0; j < 3; j++) 
        { 
          int ind = i * N + j; 
          Console.WriteLine(c[ind]); 
        } 
      } 

      Console.WriteLine(
        "Zeit: {0} msek", sw.ElapsedMilliseconds); 
    } 
  } 
}

Der Code erklärt sich im Prinzip von selbst. In der Methode matMult befindet sich die bekannte Dreifachschleife für die Multiplikation der beiden Arrays. Es müssen drei Indizes berechnet werden, um auf die linearen Arrays a, b und c an den korrekten Stellen zuzugreifen. In der Main-Methode wird die Größe der Arrays definiert, die dann deklariert und initialisiert werden.Die Zeit für die Ausführung der Matrixmultiplikation wird mit der .NET-Klasse Stopwatch gemessen und nach einigen Testwerten ausgegeben. Die entsprechende CUDA-Variante finden Sie in Listing 4.

Listing 4: Matrixmultiplikation mit Hybridizer

using Hybridizer.Runtime.CUDAImports; 
using System; 
using System.Threading.Tasks; 
using System.Diagnostics; 

namespace HybridizerSample3 
{ 
  class Program 
  { 
    [EntryPoint] 
    public static void Run(
      int N, float[] a, float[] b, float[] c) 
    { 
      // Zwei Schleifen zusammengefasst 
      Parallel2D.For(0, N, 0, N, (i, j) => 
      { 
        int ind = i * N + j; 
        float cc = 0.0f; 

        for (int k = 0; k < N; k++) 
        { 
          // Index-Berechnung für lineare Arrays 
          int ind1 = i * N + k; 
          int ind2 = k * N + j; 
          // c[i,j] += a[i,k] * b[k,j] 
          cc += a[ind1] * b[ind2]; 
        } 

        c[ind] = cc; 
      }); 
    } 

    static void Main(string[] args) 
    { 
      Stopwatch sw = new Stopwatch(); 
      const int N = 1024; 
      float[] a = new float[N * N]; 
      float[] b = new float[N * N]; 
      float[] c = new float[N * N]; 

      // Initialisierung 
      for(int i = 0; i < N; i++) { 
        for (int j = 0; j < N; j++) 
        { 
          int ind = i * N + j; 
          a[ind] = (float)ind / (float)(N * N); 
          b[ind] = (float)ind / (float)(N * N); 
          c[ind] = 0.0f; 
        } 
      } 

      // CUDA-Kernel starten 
      // Bei großen Arrays muss die Thread- und Block- 
      // Verteilung in CUDA richtig gesetzt werden 
      // Hier: 32*32 Threads/Block, 16*16 Blöcke/Grid 
      HybRunner runner = 
        HybRunner.Cuda().SetDistrib(
        32, 32, 16, 16, 1, 0); 
      dynamic wrapped = runner.Wrap(new Program()); 
      // Der erste Aufruf dauert länger! 
      // wrapped.Run(N, a, b, c); 
      sw.Start(); 
      wrapped.Run(N, a, b, c); 
      sw.Stop(); 

      // Ausgabe einiger Testergebnisse 
      for (int i = 0; i < 3; i++) 
      { 
        for (int j = 0; j < 3; j++) 
        { 
          int ind = i * N + j; 
          Console.WriteLine(c[ind]); 
        } 
      } 

      Console.WriteLine(
        "Zeit: {0} msek", sw.ElapsedMilliseconds); 
    } 
  } 
}

Auch in dieser Variante werden eindimensionale Daten-Arrays verwendet. In der Kernel-Methode, die auf der GPU ausgeführt werden soll, wird hier jedoch eine Parallelschleife benutzt, die zwei Schleifenindizes verwaltet:

Parallel2D.For(0, N, 0, N, (i, j) => 
{ 
  //... 
}

Es handelt sich also um eine „zweidimensionale“ Schleife, welche die beiden äußeren Indizes der drei Standard-Multiplikationsschleifen verarbeitet. Natürlich müssen für diese Parallel2D-Schleife zwei Startwerte und zwei Endwerte angegeben werden. Man erhält dafür die beiden Laufvariablen als Lambdaparameter i und j, die dann in der weiteren Berechnung genutzt werden können.Im Inneren der Parallel2D-Schleife bleibt nun nur noch die k-Schleife mit der Summierung übrig. Es werden also zu einem bestimmten Zeitpunkt der Berechnung immer viele Hundert Matrixelemente im Array c gleichzeitig in den GPU-Threads berechnet. Wie viele Threads tatsächlich benutzt werden, hängt von der Leistungsfähigkeit der Grafikkarte ab.In der inneren k-Schleife werden nun die für den Zugriff auf die Arrays a und b benötigten Indizes ermittelt und die Summierung durchgeführt. Das Ergebnis aus der for-Schleife wird im Array c an der richtigen Stelle abgelegt.Der erste Teil der Main-Methode (Deklarieren und Initialisieren) ist identisch mit der schon erläuterten C#-Version des Programms.Beim Aufbau der CUDA-Laufzeitumgebung gibt es aber etwas Besonderes. Da mit dem Beispielprogramm auch sehr große Arrays verarbeitet werden können, muss man sich um die Verteilung der Threads pro Block und der Blöcke pro Grid kümmern. Werden die Standardeinstellungen benutzt, wird das Programm eventuell nicht korrekt arbeiten. Wie die CUDA-Bibliothek mit Threads, Blöcken und Grids arbeitet, wurde in [1] erläutert. Mit der Hybridizer-Bibliothek wird mit der Methode SetDistrib(...) die Verteilung von Threads und Blöcken gesteuert:


HybRunner runner = HybRunner.Cuda().SetDistrib( 
  32, 32, 16, 16, 1, 0);

Hier werden 32 x 32 Threads (= 1 024 Threads) pro Block benutzt. Jedes CUDA-Grid kann 16 x 16 Blöcke bei der Berechnung nutzen.Danach wird der Wrapper erstellt, und dann kann der Kernel mit der Matrixgröße und den drei Arrays aufgerufen werden. Schließlich werden am Ende des Programms einige Testergebnisse und die Laufzeit für die Multiplikationsroutine ausgegeben. Außerdem ist im Code noch eine auskommentierte Programmzeile vorhanden, die beachtet werden sollte:


// Der erste Aufruf dauert länger! 
// wrapped.Run(N, a, b, c); 
sw.Start(); 
wrapped.Run(N, a, b, c); 
sw.Stop();

Wie schon in [1] erwähnt wurde, ist der erste Aufruf eines CUDA-Kernels etwas langsamer, da der Code noch für die Ausführung auf der GPU vorbereitet werden muss. Dies ist beim zweiten Aufruf nicht mehr notwendig. Darum wird die Zeitmessung des Beispiels aus Listings 4 zweimal durchgeführt: Einmal mit nur einem Run-Aufruf und dann mit zwei aufeinanderfolgenden Run-Aufrufen. Hier wird jedoch nur die Ausführungszeit des zweiten Kernel-Aufrufs gemessen. Die Messergebnisse, die ich auf einen Standard-Notebook mit der Grafikkarte Nvidia GeForce MX 150 erhalten habe, werden in Bild 1 dargestellt.

Die Ergebnisse des Tests sind eindeutig. Mit der Hybridizer-Bibliothek wird das Programm knapp 30-mal so schnell ausgeführt. Außerdem wurde im Beispiel nur die einfachste Variante der Matrixmultiplikation implementiert. Mit etwas optimiertem Code können die Ergebnisse wahrscheinlich noch verbessert werden. Mögliche Erweiterungen wurden bereits in [1] vorgestellt.

Zusammenfassung

Nun kann man auch direkt aus C# auf Nvidia-Grafikkarten zugreifen, um schnelle Berechnungen auf der GPU auszuführen. Diese Erweiterung ist nicht uninteressant, aber die Bibliothek ist nicht Teil des .NET Frameworks, sondern muss von einem Drittanbieter zugekauft werden. Für alle C#-Programmierer, die sich jedoch zum Beispiel aus Zeitgründen nicht in die Programmiersprache C für den direkten Zugriff auf CUDA einarbeiten wollen, steht mit Hybridizer von Altimesh eine Alternative zur Verfügung.

Projektdateien herunterladen

Fussnoten

Bernd Marquardt, Vollgas mit der GPU, Teil 1, Rechnen mit CUDA, dotnetpro 4/2019, Seite 68 ff.,
Bernd Marquardt, Vollgas mit der GPU, Teil 2, CUDA mit Python, dotnetpro 5/2019, Seite 76 ff.,
Hybridizer Essentials,
CUDA-Download,

Inhalt

Der erste Einstieg
Und wieder: Die Matrixmultiplikation
Zusammenfassung

Miscellaneous

Neueste Beiträge

Data & Databases

Common Table Expressions (CTEs) - Acht Kostbarkeiten in T-SQL, Teil 6

Sind CTEs elegante Zwischentabellen oder nur temporäre Illusionen?

7 Minuten

Thorsten Kansy

9. Feb 2026

Mehr erfahren

Data & Databases

Vektorfunktionen mit pgvector in PostgreSQL - Indizes & Co. in PostgreSQL, Teil 6

Bei der Vektorsuche legt PostgreSQL mit pgvector den Schwerpunkt auf Kombinierbarkeit: Vektoren werden zu sortierbaren Werten, <-> wird zu einem erstklassigen Ordnungsoperator und HNSW wird zu einer weiteren Indexzugriffsmethode, die der Planer berücksichtigen kann.

6 Minuten

Klaus Aschenbrenner

11. Feb 2026

Mehr erfahren

Data & Databases

Räumliche Daten mit PostGIS in PostgreSQL - Indizes & Co. in PostgreSQL, Teil 5

Funktionen wie generierte Spalten, LATERAL-Joins und indexbewusste Operatoren ermöglichen in PostGIS räumliche Abfragen, die auch bei zunehmender Komplexität deklarativ, lesbar und performant bleiben.

6 Minuten

Klaus Aschenbrenner

4. Feb 2026

Mehr erfahren

Das könnte Dich auch interessieren

Hardware

Elektronische Schaltkreise im Browser simulieren - Simulation

Statt mit Steckfeld oder Lötkolben kann man auf dieser Website Schaltungen per Drag and Drop zusammenstellen und deren Verhalten testen.

2 Minuten

Tilman Börner

26. Jul 2018

UI/UX

UIs für Linux - Bedienoberflächen entwickeln mithilfe von C#, .NET und Avalonia

Es gibt viele UI-Frameworks für .NET, doch nur sehr wenige davon unterstützen Linux. Avalonia schafft als etabliertes Open-Source-Projekt Abhilfe.

16 Minuten

Roland König

16. Jun 2025

UI/UX

C#-.NET-Apps mit WinUI 3 - Komponentenbasierte Apps mit Fluent/FAST, Teil 3

Microsoft macht mit WinUI 3 ein natives User-Experience-Framework für Windows verfügbar, dessen Komponenten auf dem Microsoft-eigenen Design-System Fluent 2 basieren.

23 Minuten

Frank Simon

13. Mai 2024