Implementierungsdetails
RL-Framework und Chip-Repräsentation
NVIDIAs Lösung definiert Chip-Floorplanning als Markov Decision Process (MDP). Der Zustand ist die aktuelle partielle Platzierung, dargestellt als Graph: Knoten für Makros/Zellen, Kanten für Netze/Verbindungen. Ein graph convolutional neural network (GCNN) verarbeitet dies und liefert Embeddings für Policy- und Value-Netzwerke.[1] Aktionen umfassen die Auswahl von Position/Orientierung für das nächste Makro aus einem diskreten Aktionsraum, was eine effiziente Exploration von Layouts ermöglicht.
Belohnungen sind multiobjektiv: negatives HPWL (Summe der Halbperimeter der Netze), Dichte-Strafen für Überlappungen und Stau-Scores aus Routing-Schätzern. Das lenkt den Agenten zu Pareto-optimalem PPA.[2]
Training-Pipeline
Das Training beginnt auf kleinen Benchmarks (MCNC/GSRC) mit Sequence-Pair- oder Slicing-Tree-Codierungen und skaliert mittels Curriculum Learning zu größeren Instanzen. Proximal Policy Optimization (PPO), ein model-freier RL-Algorithmus, stabilisiert das Training über Millionen von Episoden. NVIDIA nutzte NVIDIA GPUs für parallele Rollouts und erreichte Konvergenz in Tagen.[3] Transfer Learning von synthetischen Daten bootstrapt Policies für reale Chips.
Für den Zielchip dauerte das Fine-Tuning nur Stunden; der Agent erzeugte 10–100 Layouts, die nach geschätzter Qualität gerankt wurden. Menschliche Expert:innen wählen aus und überprüfen, wodurch der Loop geschlossen wird.
Skalierung zur Produktion
Das System bewältigte NVIDIAs 2,7 Millionen Zellen GPU-Block mit 320 Makros in 3 Stunden und produzierte Layouts, die in Leiterlänge (geschätzt 15–20 % Reduktion), Routability (100 % Erfolg) und Flächenausnutzung konkurrenzfähig waren. Integriert in EDA-Flows wie Innovus iteriert es mit detaillierter Platzierung.[4]
Herausforderungen wie die Explosion des Aktionsraums wurden durch hierarchische Platzierung (grob-zu-fein) und GNN-Attention-Mechanismen für langfristige Abhängigkeiten gelöst. Validierung auf separaten Benchmarks bestätigte die Generalisation.[5]
Integration und Tools
Aufgebaut auf PyTorch und NVIDIAs cuGraph für GNNs läuft die Pipeline auf DGX-Systemen. Nach der Platzierung stellen Standard-DRC/LVS die Herstellbarkeit sicher. Diese End-to-End-Automatisierung verkürzte Designzyklen und ermöglichte schnellere Iterationen für Blackwell-/Hopper-Architekturen.