Eckdaten

  • Company: NVIDIA
  • Company Size: ~29.600 Mitarbeiter (2024)
  • Location: Santa Clara, California
  • AI Tool Used: Deep Reinforcement Learning (DRL) mit Graph Neural Networks (GNNs)
  • Outcome Achieved: Floorplanning eines 2,7M-Zellen-Chips mit 320 Makros in 3 Stunden vs. monatelangem manuellen Aufwand

Möchten Sie ähnliche Ergebnisse mit KI erzielen?

Lassen Sie uns gemeinsam die richtigen KI-Lösungen für Ihr Unternehmen identifizieren und implementieren.

Die Herausforderung

In Halbleiterfertigung ist das Chip-Floorplanning — die Aufgabe, Makros und Schaltungen auf einem Die anzuordnen — berüchtigt komplex und NP-schwer. Selbst erfahrene Ingenieur:innen verbringen Monate damit, Layouts iterativ zu verfeinern, um Leistung, Performance und Fläche (PPA) auszubalancieren, wobei sie Kompromisse wie Minimierung der Leiterlänge, Dichtebeschränkungen und Routbarkeit austarieren.[1] Traditionelle Werkzeuge kämpfen mit dem explosiven kombinatorischen Suchraum, insbesondere bei modernen Chips mit Millionen von Zellen und Hunderten von Makros, was zu suboptimalen Entwürfen und verzögerter Markteinführung führt.

NVIDIA erlebte dieses Problem besonders beim Entwurf leistungsstarker GPUs, bei denen ungünstige Floorplans den Stromverbrauch erhöhen und die Effizienz von KI-Beschleunigern beeinträchtigen. Manuelle Prozesse limitierten die Skalierbarkeit für 2,7 Millionen Zellen-Designs mit 320 Makros und drohten Engpässe in ihrer Roadmap für beschleunigtes Rechnen zu verursachen.[2] Die Überwindung des menschintensiven Trial-and-Error war entscheidend, um die Führungsposition bei KI-Chips zu halten.

Die Lösung

NVIDIA setzte Deep Reinforcement Learning (DRL) ein, um Floorplanning als sequentiellen Entscheidungsprozess zu modellieren: Ein Agent platziert Makros nacheinander und lernt optimale Strategien durch Ausprobieren. Graph Neural Networks (GNNs) kodieren den Chip als Graph, erfassen räumliche Beziehungen und sagen Auswirkungen von Platzierungen voraus.[3]

Der Agent nutzt ein Policy-Netzwerk, das auf Benchmarks wie MCNC und GSRC trainiert wurde, mit Belohnungen, die Half-Perimeter Wirelength (HPWL), Stau und Überlappungen bestrafen. Proximal Policy Optimization (PPO) ermöglicht effiziente Explorationen, die auf verschiedene Designs übertragbar sind. Dieser KI-gesteuerte Ansatz automatisiert, was Menschen manuell tun, kann aber weit mehr Konfigurationen durchsuchen.[4]

Quantitative Ergebnisse

  • Designzeit: 3 Stunden für 2,7M Zellen vs. Monate manuell
  • Chip-Größe: 2,7 Millionen Zellen, 320 optimierte Makros
  • PPA-Verbesserung: Besser oder vergleichbar mit menschlichen Entwürfen
  • Trainingseffizienz: Unter 6 Stunden Gesamtaufwand für Produktionslayouts
  • Benchmark-Erfolg: Übertrifft auf MCNC/GSRC-Suiten
  • Beschleunigung: 10–30 % schnellere Schaltungen in verwandten RL-Designs

Bereit, Ihr Unternehmen mit KI zu transformieren?

Buchen Sie eine kostenlose Beratung, um zu erfahren, wie KI Ihre spezifischen Herausforderungen lösen kann.

Implementierungsdetails

RL-Framework und Chip-Repräsentation

NVIDIAs Lösung definiert Chip-Floorplanning als Markov Decision Process (MDP). Der Zustand ist die aktuelle partielle Platzierung, dargestellt als Graph: Knoten für Makros/Zellen, Kanten für Netze/Verbindungen. Ein graph convolutional neural network (GCNN) verarbeitet dies und liefert Embeddings für Policy- und Value-Netzwerke.[1] Aktionen umfassen die Auswahl von Position/Orientierung für das nächste Makro aus einem diskreten Aktionsraum, was eine effiziente Exploration von Layouts ermöglicht.

Belohnungen sind multiobjektiv: negatives HPWL (Summe der Halbperimeter der Netze), Dichte-Strafen für Überlappungen und Stau-Scores aus Routing-Schätzern. Das lenkt den Agenten zu Pareto-optimalem PPA.[2]

Training-Pipeline

Das Training beginnt auf kleinen Benchmarks (MCNC/GSRC) mit Sequence-Pair- oder Slicing-Tree-Codierungen und skaliert mittels Curriculum Learning zu größeren Instanzen. Proximal Policy Optimization (PPO), ein model-freier RL-Algorithmus, stabilisiert das Training über Millionen von Episoden. NVIDIA nutzte NVIDIA GPUs für parallele Rollouts und erreichte Konvergenz in Tagen.[3] Transfer Learning von synthetischen Daten bootstrapt Policies für reale Chips.

Für den Zielchip dauerte das Fine-Tuning nur Stunden; der Agent erzeugte 10–100 Layouts, die nach geschätzter Qualität gerankt wurden. Menschliche Expert:innen wählen aus und überprüfen, wodurch der Loop geschlossen wird.

Skalierung zur Produktion

Das System bewältigte NVIDIAs 2,7 Millionen Zellen GPU-Block mit 320 Makros in 3 Stunden und produzierte Layouts, die in Leiterlänge (geschätzt 15–20 % Reduktion), Routability (100 % Erfolg) und Flächenausnutzung konkurrenzfähig waren. Integriert in EDA-Flows wie Innovus iteriert es mit detaillierter Platzierung.[4]

Herausforderungen wie die Explosion des Aktionsraums wurden durch hierarchische Platzierung (grob-zu-fein) und GNN-Attention-Mechanismen für langfristige Abhängigkeiten gelöst. Validierung auf separaten Benchmarks bestätigte die Generalisation.[5]

Integration und Tools

Aufgebaut auf PyTorch und NVIDIAs cuGraph für GNNs läuft die Pipeline auf DGX-Systemen. Nach der Platzierung stellen Standard-DRC/LVS die Herstellbarkeit sicher. Diese End-to-End-Automatisierung verkürzte Designzyklen und ermöglichte schnellere Iterationen für Blackwell-/Hopper-Architekturen.

Interesse an KI für Ihre Branche?

Entdecken Sie, wie wir Ihnen bei der Implementierung ähnlicher Lösungen helfen können.

Ergebnisse

NVIDIAs DRL-Floorplanner lieferte transformative Ergebnisse und optimierte einen Produktionschip-Block mit 2,7 Millionen Zellen und 320 Makros in nur 3 Stunden — gegenüber Monaten menschlicher Arbeit — und erzeugte Layouts, die in PPA-Metriken überlegen waren.[1] Die Leiterlänge sank deutlich, was die Signalintegrität verbesserte; Leistungsaufnahme wurde durch kürzere Verbindungen optimiert; und die Performance profitierte von besserer Timing-Closure. Auf Standardbenchmarks erreichte die Lösung Gleichstand oder übertraf Expertendesigns: z. B. eine 15%ige HPWL-Reduktion bei großen GSRC-Fällen, 100% routbare Outputs und schnellere Konvergenz gegenüber Simulated-Annealing-Baselines.[2] Die skalierte Bereitstellung beschleunigte NVIDIAs GPU-Tapeouts und trug zu rekordverdächtiger KI-Trainingsleistung auf Blackwell-Plattformen bei.[6] Die Auswirkungen reichen branchenweit: kürzere Designzyklen steigern die Wettbewerbsfähigkeit angesichts der Nachfrage nach KI-Chips. NVIDIA berichtet von einer 10x Beschleunigung in der Makroplatzierung, mit laufenden Verbesserungen durch MoE-Architekturen für noch größere Dies. Diese RL-Innovation festigt NVIDIAs Vorsprung im Bereich accelerated computing.[3]

Kontaktieren Sie uns!

0/10 min.

Direkt Kontaktieren

Your Contact

Philipp M. W. Hoffmann

Founder & Partner

Adresse

Reruption GmbH

Falkertstraße 2

70176 Stuttgart

Kontakt

Social Media