Тел.: +86-18025912990 |Электронная почта: wst01@winsharethermal.com
Вы здесь: Дом » Новости » Блог » 10 основных причин, по которым жидкостное охлаждение непосредственно на кристалле необходимо для серверов искусственного интеллекта

10 основных причин, по которым жидкостное охлаждение непосредственно на кристалле необходимо для серверов искусственного интеллекта

Просмотры:0     Автор:Pедактор сайта     Время публикации: 2025-11-28      Происхождение:Работает

Жидкостное охлаждение непосредственно на кристалле необходимо для серверов искусственного интеллекта, поскольку это единственный коммерчески жизнеспособный метод управления экстремальным нагревом, выделяемым современными ускорителями искусственного интеллекта, обеспечивающий более высокую плотность вычислений, устойчивую пиковую производительность и значительно повышенную энергоэффективность по сравнению с традиционным воздушным охлаждением. По мере ускорения революции в области искусственного интеллекта вычислительные требования, предъявляемые к центрам обработки данных, стремительно растут. Этот всплеск вызван все более мощными графическими процессорами и специальными процессорами искусственного интеллекта, которые, выполняя триллионы вычислений в секунду, также генерируют беспрецедентное количество отходящего тепла. Обычные методы воздушного охлаждения достигают физического предела, что делает прямое охлаждение (D2C) или прямое жидкостное охлаждение (DLC) не просто вариантом, а основополагающим требованием для создания инфраструктуры искусственного интеллекта следующего поколения.

Прямоугольник 346241299

Что такое жидкостное охлаждение непосредственно на чипе?

Прежде чем углубляться в то, почему это так важно, давайте проясним, что мы подразумеваем под жидкостным охлаждением непосредственно на кристалле . В отличие от общего охлаждения на уровне помещения или стойки, D2C представляет собой узконаправленный подход. Он включает в себя «холодную пластину», которая располагается непосредственно над самыми горячими компонентами сервера — в первую очередь процессорами и, что более важно для искусственного интеллекта, графическими процессорами или специальными ASIC. Непроводящая охлаждающая жидкость (например, специальная водно-гликолевая смесь) циркулирует по микроканалам внутри этой охлаждающей пластины, поглощая тепло с невероятной эффективностью. Эта нагретая жидкость затем перекачивается из сервера в блок распределения охлаждающей жидкости (CDU), который передает тепло в более крупный водяной контур объекта, прежде чем охлажденная жидкость возвращается в чип. Эта система с замкнутым контуром представляет собой прецизионный инструмент для отвода тепла, намного превосходящий простую продувку воздухом радиатора.

10 основных причин, по которым охлаждение D2C необходимо для искусственного интеллекта

Переход на охлаждение D2C не является вопросом предпочтений; это ответ на фундаментальную физику высокопроизводительных вычислений. Вот десять основных причин, почему он необходим для современных серверов искусственного интеллекта.

1. Укрощение беспрецедентных тепловых нагрузок от ускорителей искусственного интеллекта

Единственная наиболее веская причина для охлаждения D2C — это высокая теплоотдача аппаратного обеспечения искусственного интеллекта. Современный ускоритель искусственного интеллекта, такой как NVIDIA H100 или AMD Instinct MI300X , имеет расчетную тепловую мощность (TDP) более 700 Вт, а будущие поколения, по прогнозам, преодолеют порог в 1000 Вт. Стандартный сервер искусственного интеллекта часто содержит восемь таких ускорителей, что приводит к тепловой нагрузке более 5,6 кВт только от графических процессоров, а также к дополнительному нагреву от процессоров, памяти и сетевых компонентов. Воздушное охлаждение принципиально неспособно эффективно рассеивать такой уровень концентрированного тепла. Воздух — плохой проводник тепла, а необходимые массивные радиаторы и высокоскоростные вентиляторы были бы физически непрактичными и оглушительно громкими.

Прямое охлаждение чипа позволяет избежать неэффективности воздушного охлаждения. Жидкость в тысячи раз эффективнее поглощает и передает тепло, чем воздух. Помещая заполненную жидкостью холодную пластину в непосредственный контакт с чипом, тепло немедленно и эффективно отводится от его источника. Это предотвращает перегрев и позволяет этим невероятно мощным процессорам работать в безопасных пределах температуры — задача, которую воздушное охлаждение больше не может надежно выполнять в таком масштабе.

2. Открытие и поддержание максимальной производительности чипа

Что происходит, когда мощный чип становится слишком горячим? В нем задействован механизм самосохранения, называемый термическим дросселированием . Чип намеренно замедляет свою тактовую частоту, чтобы уменьшить выделение тепла и предотвратить повреждение. Для рабочих нагрузок ИИ это катастрофично. Сервер искусственного интеллекта с термическим регулированием не обеспечивает производительность, для которой он был разработан, а это означает, что обучение моделей занимает больше времени, а запросы на вывод обрабатываются медленнее. Это напрямую влияет на рентабельность инвестиций и производительность вычислений. По сути, если вы охлаждаете высококлассный AI-сервер высшего уровня, вы, скорее всего, не получите его полной номинальной производительности.

Поскольку жидкостное охлаждение непосредственно на кристалле поддерживает гораздо более низкую и стабильную рабочую температуру, оно эффективно устраняет тепловое регулирование. Это позволяет ускорителям искусственного интеллекта работать на максимальной тактовой частоте в течение продолжительных периодов времени. Результатом является последовательная, предсказуемая и максимальная производительность. Вы получаете каждый FLOPS (операцию с плавающей запятой в секунду), за который вы заплатили, гарантируя, что ресурсоемкие задачи, такие как обучение модели большого языка (LLM), будут выполнены в кратчайшие сроки.

3. Значительное увеличение плотности стоек и вычислений.

Как масштабировать возможности ИИ? Вы добавляете больше серверов. При воздушном охлаждении огромная тепловая мощность и физическое пространство, необходимое для воздушного потока, ограничивают количество мощных серверов искусственного интеллекта, которые вы можете разместить в одной стойке центра обработки данных. Стойка, заполненная серверами искусственного интеллекта с воздушным охлаждением, может легко превысить 30–40 кВт, что является пределом для многих традиционных конструкций центров обработки данных. Чтобы выйти за рамки этого, необходимо значительное пространство между стойками и массивные энергоемкие кондиционеры для компьютерных залов (CRAC).

Жидкостное охлаждение непосредственно на кристалле разрушает эти ограничения. Эффективно отводя тепло от источника, D2C позволяет повысить плотность мощности стойки до 100 кВт, 200 кВт или даже выше . Это означает, что вы можете разместить больше серверов и, следовательно, больше графических процессоров на одном физическом пространстве. Такое увеличение плотности вычислений имеет решающее значение для создания мощных суперкластеров ИИ. Это позволяет организациям максимизировать вычислительную мощность существующего центра обработки данных, откладывая или избегая необходимости дорогостоящего нового строительства.

4. Сокращение энергопотребления и снижение PUE

Охлаждение центра обработки данных — это огромный расход энергии. В традиционном помещении с воздушным охлаждением значительная часть общего бюджета энергии расходуется на вентиляторы внутри серверов и большие блоки CRAC, которые охлаждают и циркулируют воздух по всему помещению. Это крайне неэффективный процесс. Непосредственное охлаждение чипа является хирургически точным, оно воздействует только на тепловыделяющие компоненты и использует среду (жидкость), требующую гораздо меньше энергии для перемещения заданного количества тепловой энергии.

Этот прирост эффективности отражен в ключевом отраслевом показателе: эффективности использования энергии (PUE) . PUE — это отношение общей мощности объекта к мощности ИТ-оборудования. Идеальный PUE равен 1,0. Центры обработки данных с воздушным охлаждением часто имеют коэффициент PUE от 1,4 до 1,6, что означает, что 40-60% энергии используется для охлаждения и других накладных расходов. Благодаря жидкостному охлаждению D2C, которое позволяет снизить энергопотребление на охлаждение более чем на 90 %, центры обработки данных могут достичь коэффициента PUE 1,1 или даже ниже. Это приводит к значительному сокращению счетов за электроэнергию и значительному повышению операционной эффективности.

5. Снижение совокупной стоимости владения (TCO)

Хотя первоначальные капитальные затраты (CapEx) на внедрение решения с жидкостным охлаждением могут быть выше, чем для традиционной установки с воздушным охлаждением, долгосрочная экономия эксплуатационных расходов (OpEx) создает убедительные аргументы в пользу более низкой совокупной стоимости владения (TCO) . Основной движущей силой этой экономии является резкое снижение энергопотребления, как обсуждалось выше.

Кроме того, повышенная плотность стоек приводит к значительному снижению совокупной стоимости владения. Вмещая больше вычислительной мощности в меньшее пространство, организации могут уменьшить площадь своего центра обработки данных, потенциально снижая затраты, связанные с недвижимостью, строительством и физической инфраструктурой. Упрощенная инфраструктура охлаждения на уровне объекта (меньше или меньше блоков CRAC) также со временем способствует снижению затрат на техническое обслуживание и эксплуатацию.

6. Повышение надежности и срока службы оборудования.

Экстремальные температуры и частые, большие колебания температуры являются врагами электронных компонентов. Они вызывают физическую нагрузку на кремний, паяные соединения и печатные платы, что приводит к более высокому уровню выхода из строя компонентов и сокращению общего срока службы. Воздушное охлаждение с его менее стабильным управлением температурой подвергает компоненты воздействию таких суровых условий, особенно при тяжелых и переменных рабочих нагрузках искусственного интеллекта.

Жидкостное охлаждение непосредственно на кристалле обеспечивает гораздо более стабильную тепловую среду. Он поддерживает температуру чипа на постоянно низком уровне и сводит к минимуму колебания между холостым ходом и полной нагрузкой. Такое снижение термического напряжения значительно повышает надежность и долговечность дорогих ускорителей искусственного интеллекта и других серверных компонентов. Меньшее количество отказов компонентов означает увеличение времени безотказной работы, снижение затрат на замену и более надежную инфраструктуру искусственного интеллекта.

7. Обеспечение более тихой и безопасной среды центра обработки данных

Любой, кто стоял рядом со стойкой с серверами искусственного интеллекта с воздушным охлаждением под нагрузкой, может подтвердить оглушительный шум. Тысячи маленьких высокоскоростных вентиляторов, необходимых для перемещения достаточного количества воздуха, создают среду с высоким уровнем шума, которая не только неприятна, но и может потребовать защиты органов слуха персонала. Такой уровень шума может затруднить и сделать неприятным проведение диагностики и технического обслуживания на месте.

Заменив большинство этих серверных вентиляторов практически бесшумной системой перекачки жидкости, охлаждение D2C значительно снижает окружающий шум в центре обработки данных. Это создает гораздо более безопасную и комфортную рабочую среду для технических специалистов и инженеров. Уменьшение количества вращающихся с высокой скоростью деталей также незначительно снижает потенциальную точку механического повреждения.

8. Перспективная инфраструктура для оборудования нового поколения

Тенденция роста TDP чипов не замедляется. Ускорители искусственного интеллекта завтрашнего дня будут еще мощнее и будут генерировать еще больше тепла, чем сегодняшние модели. Центры обработки данных, спроектированные с учетом ограничений воздушного охлаждения, окажутся неспособными внедрить это оборудование следующего поколения без полной и дорогостоящей модернизации своей инфраструктуры охлаждения.

Инвестиции в жидкостное охлаждение непосредственно на кристалле сегодня — это шаг в будущее . Надежная инфраструктура жидкостного охлаждения, включая необходимую сантехнику и блоки CDU, представляет собой масштабируемое решение. Он предназначен для того, чтобы выдерживать тепловые нагрузки не только серверов искусственного интеллекта текущего поколения, но и тех, которые прогнозируются на ближайшие пять-десять лет. Эти стратегические инвестиции гарантируют, что центр обработки данных сможет оставаться на переднем крае технологий искусственного интеллекта, не сталкиваясь с «тепловой стеной», которая блокирует будущие обновления.

9. Обеспечение устойчивости и достижение целей экологически чистых вычислений

Огромный энергетический след ИИ вызывает растущую обеспокоенность корпораций и общества в целом. Отрасль центров обработки данных находится под растущим давлением с целью стать более устойчивой и сократить выбросы углекислого газа. Огромная экономия энергии, обеспечиваемая жидкостным охлаждением D2C, напрямую решает эту проблему. Снижая PUE центра обработки данных, жидкостное охлаждение значительно снижает его общее энергопотребление и, следовательно, выбросы углекислого газа.

Кроме того, современные системы жидкостного охлаждения могут обеспечить повторное использование или рекуперацию тепла. Тепло, уловленное серверами в теплой жидкости, можно использовать для других целей, например для обогрева близлежащих офисных зданий или других промышленных процессов. Это превращает отходящее тепло из проблемы, от которой необходимо избавиться, в ценный ресурс, создавая экономику замкнутого цикла и расширяя границы экологически чистых вычислений.

10. Расширение местоположения центров обработки данных и гибкость климата

Традиционные центры обработки данных с воздушным охлаждением часто строятся в прохладном северном климате, чтобы воспользоваться преимуществом «свободного охлаждения» наружного воздуха, что помогает снизить энергетическую нагрузку на чиллеры. Это географическое ограничение может ограничить возможности развертывания инфраструктуры искусственного интеллекта, потенциально увеличивая задержку из-за ее размещения вдали от крупных населенных пунктов или источников данных.

Поскольку жидкостное охлаждение непосредственно на кристалле является автономной и высокоэффективной системой, оно гораздо меньше зависит от внешнего климата. Центр обработки данных с жидкостным охлаждением может эффективно работать в более теплых и влажных местах без значительных энергозатрат. Такой агностицизм местоположения дает организациям свободу строить свои центры обработки данных искусственного интеллекта там, где они больше всего нужны — ближе к пользователям, ближе к возобновляемым источникам энергии или в ключевых стратегических бизнес-центрах, независимо от местного климата.

Воздушное охлаждение и жидкостное охлаждение непосредственно на чипе: прямое сравнение

Чтобы обобщить ключевые различия, в этой таблице представлено прямое сравнение наиболее важных показателей работы центров обработки данных.

Метрическое традиционное воздушное охлаждение Прямое охлаждение кристалла (D2C) Жидкостное охлаждение
Мощность рассеивания тепла От низкого до среднего. Борется с TDP чипа > 400 Вт. Очень высокий. Легко справляется с TDP чипов более 1000 Вт.
Плотность мощности стойки Ограничена, обычно до 30-40 кВт на стойку. Чрезвычайно высокий. Может поддерживать стойки мощностью 100-200 кВт и выше.
Энергоэффективность (ПУЭ) Умеренный (1,4 – 1,6). Высокое энергопотребление вентиляторов и CRAC. Отлично (1,1 или ниже). Минимальное потребление энергии насосами.
Влияние на производительность Склонен к тепловому дросселированию, снижающему пиковую производительность. Обеспечивает устойчивую пиковую производительность без троттлинга.
Акустический шум Очень высокий. Требует защиты органов слуха. Очень низкий. Почти бесшумная работа.
Первоначальная стоимость (CapEx) Ниже. Хорошо отработанная технология. Выше. Требуются вложения в ЦДУ и сантехнику.
Эксплуатационные расходы (OpEx) Высокий из-за огромного потребления электроэнергии. Низкая из- за значительной экономии энергии.
Ориентированность на будущее Бедный. Невозможно поддерживать чипы следующего поколения с высоким TDP. Отличный. Масштабируемость для будущих поколений оборудования.

Неизбежное будущее искусственного интеллекта с жидкостным охлаждением

Рост генеративного искусственного интеллекта и других ресурсоемких вычислительных задач довел полупроводниковые технологии до предела и тем самым создал тепловой кризис, который традиционные методы охлаждения не могут решить. Жидкостное охлаждение непосредственно на кристалле больше не является нишевой или экспериментальной технологией; это важнейший фактор будущего искусственного интеллекта. Предлагая превосходное рассеивание тепла, беспрецедентную плотность вычислений и высокую энергоэффективность, D2C является единственным практическим путем вперед. Для любой организации, серьезно относящейся к масштабному развертыванию искусственного интеллекта, инвестиции в жидкостное охлаждение непосредственно в кристалле — это не просто техническое решение, это фундаментальный стратегический императив для обеспечения производительности, масштабируемости и устойчивости.

Расскажите мне о своем проекте
По любым вопросам по вашему проекту обращайтесь к нам, мы ответим вам в течение 12 часов, спасибо!
Send a message