astakom, Jakarta – NVIDIA resmi merilis pembaruan besar untuk pustaka komunikasi GPU mereka, NVIDIA Collective Communications Library (NCCL) versi 2.26, yang membawa peningkatan signifikan dari sisi performa, monitoring, serta keandalan dalam pemrosesan paralel berskala besar.
NCCL adalah pustaka komunikasi inti untuk pelatihan AI multi-GPU dan multinode, yang mendukung berbagai jalur komunikasi seperti PCIe, NVLink, maupun jaringan. Dalam versi terbaru ini, NCCL 2.26 menghadirkan sejumlah fitur baru yang sangat relevan untuk pengembang AI, ilmuwan data, dan praktisi komputasi berkinerja tinggi (HPC).
Baca juga
Beberapa sorotan penting dari pembaruan NCCL 2.26 meliputi:
- Optimasi PAT (Parallel Aggregation Trees): Algoritma PAT kini menjalankan langkah komputasi dan eksekusi pada warp yang berbeda, mempercepat proses di lingkungan dengan banyak pohon paralel.
- Implicit Launch Order: Mencegah deadlock saat beberapa komunikasi terjadi pada satu perangkat secara bersamaan, dengan pelacakan otomatis urutan peluncuran kernel.
- Dukungan Profiler GPU dan Jaringan: Kini pengguna dapat memantau aktivitas kernel dan plugin jaringan secara lebih detail, memberikan visibilitas end-to-end terhadap proses komunikasi.
- QoS Plugin Jaringan: Pengguna dapat mengatur prioritas lalu lintas jaringan antarkomunikator, penting dalam pelatihan model besar seperti LLM yang menggabungkan pipeline dan data parallelism.
- Peningkatan RAS (Reliability, Availability, Serviceability): Deteksi lebih akurat terhadap mismatch operasi kolektif, pelaporan status komunikasi yang lebih jelas, dan pembersihan sumber daya yang lebih stabil.
Tak hanya itu, versi ini juga menyertakan berbagai perbaikan bug dan peningkatan kecil, seperti dukungan NIC langsung, penambahan timestamp pada log, dan deteksi yang lebih baik untuk lingkungan container.
Menurut rilis resmi NVIDIA yang dikutip oleh Astakom, “NCCL 2.26 dirancang untuk menjawab kebutuhan komunikasi AI modern yang semakin kompleks dan masif, sekaligus meningkatkan kemudahan debugging serta efisiensi jaringan.”
Untuk informasi teknis lebih lanjut atau kode sumber, pengguna dapat mengunjungi GitHub resmi NCCL atau menyaksikan sesi on-demand NCCL, The Inter-GPU Communication Library Powering Multi-GPU AI di ajang GTC 2025.