Потребление 1,8 кВт ускорителем Nvidia Vera Rubin — это ещё цветочки. Будущие ускорители для ИИ будут потреблять до 15 кВт — таков прогноз KAIST

3 часов назад 2

[unable to retrieve full-text content]

Мощность ускорителей для ИИ неуклонно растет, а вместе с ней растет и энергопотребление. Некоторые отраслевые источники полагают, что Nvidia рассматривает тепловую мощность на уровне 6000–9000 Вт для своих GPU следующих поколений, но эксперты из KAIST, ведущего корейского исследовательского института, считают, что потребление ускорителей для ИИ в течение следующих 10 лет увеличится до 15 360 Вт. Как следствие, им потребуются новые системы охлаждения.

Фото: Nvidia

До недавнего времени для AI GPU хватало обычных систем охлаждения — с радиаторами и вентиляторами, но уже в GPU Blackwell потребляемая мощность увеличилась до 1200 Вт, а в Blackwell Ultra — до 1400 Вт, это делает практически обязательным применение систем жидкостного охлаждения. Ситуация с отведением тепла осложнится с выходом AI GPU Rubin (TDP — 1800 Вт), а TDP Rubin Ultra, с увеличенным количеством чиплетов GPU и модулей HBM, достигнет 3600 Вт. Исследователи из KAIST считают, что Nvidia и ее партнеры перейдут на жидкостное охлаждение чипа в GPU Rubin Ultra, но уже в GPU Feynman придется использовать что-то более мощное, так как TDP увеличится до 4400 Вт.

В KAIST прогнозируют, что модули AI GPU (тот же Nvidia Feynman) будут потреблять 4400 Вт, а другие источники полагают, что TDP Feynman Ultra может возрасти до 6000 Вт. Такие экстремальные температуры вернут нас в старые добрые времена майнинга, когда ускорители полностью погружали в теплоноситель, то есть использовали иммерсионное охлаждение. Кроме того, ожидается, что AI GPU нового поколения и их модули HBM получат специальные каналы в кремниевой подложке для большей эффективности отвода тепла. Они будут объединены с теплопроводящими соединительными слоями и датчиками температуры, встроенными в базовый кристалл модуля HBM, для мониторинга температуры в реальном времени.

Ожидается, что возможностей иммерсионного охлаждения будет хватать до 2032 года, архитектуры GPU post-Feynman увеличат TDP до 5920 Вт (post-Feynman) или даже 9000 Вт (post-Feynman Ultra).

Следует отметить, что основными потребителями энергии в модуле GPU являются вычислительные чиплеты. Однако, поскольку количество стеков HBM увеличится до 16 с поколения post-Feynman, а энергопотребление на стек увеличится до 120 Вт с HBM6, энергопотребление памяти составит около 2000 Вт — то есть только на память будет приходится минимум треть или четверть всего теплового пакета.

Исследователи из KAIST предполагают, что к 2035 году энергопотребление AI GPU увеличится примерно до 15 360 Вт, что потребует встроенных структур охлаждения как для вычислительных модулей, так и для памяти.

Прочитайте статью целиком