Мы часто обсуждаем видеокарты для ИИ в контексте высокопроизводительных интегрированных стоечных решений, использующих такие платформы, как NVIDIA GB200 NVL72 или NVIDIA HGX 8х GPU, которые предназначены для запуска ИИ в промышленных масштабах. В то же время многие приложения с ИИ работают за пределами этих огромных конфигураций. Сегодня мы поговорим об обеих этих областях применения мощных видеокарт – как о «фабриках ИИ», так и о граничных (периферийных) серверах и рабочих станциях. Эту статью я собирался писать несколько месяцев, пока мы, наконец, не собрали все нужные компоненты в одном месте, чтобы, ссылаясь на наглядные примеры, ответить на простой вопрос: “Где, когда и какую видеокарту с PCIe следует использовать?”

Итак, давайте посмотрим, что сегодня предлагает серверный сегмент.
Системы 8x PCIe GPU в некоторых аспектах аналогичны системам на базе SXM, но с существенными оговорками. В системах с PCIe GPU обычно используются видеокарты мощностью от 300 до 600 Вт (на один GPU), что делает эти системы менее потребляющими по сравнению с SXM. Кроме того, в этих системах мы обычно имеем две сетевые карты 400GbE Восток-Запад на одну видеокарту PCIe, тогда как в SXM-системах чаще встречается соотношение 1:1. Также, отсутствие архитектуры NVLink Switch означает меньшую себестоимость этих систем (правда, и без соответствующего повышения производительности) и меньшее энергопотребление. Может показаться, что эти системы просто являются менее мощными версиями платформ SXM, но это не совсем так. Они предлагают дополнительные опции настройки видеокарт и дополнительные графические возможности.
Обычно здесь используются следующие модели видеокарт PCIe:
Карты NVIDIA H100 NVL и H200 NVL с ПО NVIDIA AI Enterprise разработаны в расчете на соединение интерконнектом NVLink до четырех GPU. Эти решения обычно используются для пост-обучения моделей ИИ и запуска инференсов на системах с меньшим энергопотреблением на один GPU, чем в системах SXM. Возможно, самая веская причина, по которой H200 NVL будет предпочтительнее H100 NVL, – это более современная подсистема памяти HBM, которая лучше справляется с нагрузками, предъявляющими высокие требования к производительности памяти.

Модель NVIDIA RTX PRO 6000 Blackwell предназначена для несколько других задач. Это решение для тех, кто работает с широким диапазоном нагрузок. Хотя эти карты не располагают такой высокой пропускной способностью памяти, как у HBM, они предлагают ядра RT, кодеки и даже видеовыходы. Это значит, что RTX PRO 6000 подходят для таких графических приложений, как CAD, VDI, рендеринг и т.д. Они также могут использоваться для запуска инференсов ИИ, так как каждая карта (GPU) оснащена 96 ГБ памяти GDDR7. В системе 8x PCIe GPU каждую такую карту можно разделить на четыре инстанса с помощью технологии Multi-Instance GPU (MIG) и, таким образом, получить до 32 логических GPU. В общей сложности восемь видеокарт предлагают 768 ГБ графической памяти для работы с инференсами. Можно использовать эти карты для различных приложений посменно (например, днем – VDI, вечером – инференсинг). Ключевая особенность здесь – гибкость в плане того, какие приложения можно запускать на этих картах, так как каждая карта имеет достаточно много памяти и при этом – графический потенциал NVIDIA RTX, которого нет у карт, разработанных специально для ИИ.

Карта NVIDIA L40S – это, по существу, более бюджетное решение для данной платформы, которое базируется на архитектуре Ada Lovelace. Эти карты имеют 48 ГБ памяти и графический функционал, но не поддерживают некоторые более современные фишки, например, MIG.
Supermicro предлагает сервер RTX PRO SYS-522GA-NRT, который рассчитан на восемь видеокарт RTX PRO 6000 Blackwell Server Edition. Внутри платформы мы находим два переключателя PCIe наряду с двумя процессорами, 32 DIMM-слота DDR5, место для нескольких сетевых карт и SSD.

Энергопотребление может варьироваться в широком диапазоне в зависимости от конфигурации, но преимущество этих платформ в том, что они в среднем потребляют меньшую мощность по сравнению с системами SXM и, соответственно, сопряжены с меньшими операционными расходами. Стоимость приобретения тоже обычно ниже по сравнению с системами на базе SXM.
Новинка 2025 года – плата NVIDIA MGX PCIe Switch Board с сетевыми адаптерами NVIDIA ConnectX-8 SuperNIC для серверов 8x PCIe GPU. Она несет в себе значительную модернизацию данного типа платформ, которая уже реализована в системе Supermicro SYS-422GL-NR.

Вместо двух или четырех больших сетевых карт новая платформа использует адаптеры ConnectX-8 SuperNIC и их встроенные переключатели, обеспечивающие видеокарты высокоскоростными сетевыми подключениями. На сегодняшний день это самое заметное нововведение для данной платформы за многие годы.

Теперь давайте посмотрим на некоторые стандартные серверы, которые могут оснащаться видеокартами.
В то время как платформы 8х GPU разрабатываются именно в расчете на графический компьютинг, перспективы и области применения ИИ расширяются и уже не ограничиваются платформами этого типа. Организации развертывают эти платформы потому, что если вы, например, считаете, что ИИ скоро будет практически в каждом приложении, то логично будет к этому соответствующим образом подготовиться. Развертывание серверов без GPU сегодня означает, что для определенных сценариев единственным вариантом будет переход на сервер для ИИ. Альтернативное решение – установить в традиционный сервер графические ускорители.

Здесь чаще всего используются те же модели видеокарт, что и в системах 8х GPU: NVIDIA H100 NVL, H200 NVL, RTX PRO 6000 Blackwell и L40S. Основное отличие в том, что в стандартный сервер 2U, как правило, помещаются только две видеокарты.

Поэтому в традиционных серверах 4-позиционные мостики NVLink встречаются реже, чем одна или две видеокарты на домен. В некоторых системах также используются менее мощные карты, такие как NVIDIA L4, которые предлагают меньше графической вычислительной мощности и памяти, но стоят дешевле и потребляют меньше энергии.

В качестве примера возьмем сервер Supermicro SYS-212GB-NR. Это один из представителей высококлассной линейки Supermicro Hyper, позволяющий использовать многие различные типы видеокарт. Идея в том, что если ИИ становится неотъемлемой частью вашей нагрузки, поскольку все ваше программное обеспечение включает в себя ИИ, то при наличии в сервере GPU может быть целесообразным локальное хранение инференсов.

Supermicro также предлагает графические серверы 2U, которые по-своему реализуют концепцию архитектуры NVIDIA MGX. И еще мы видели у них новую платформу на базе Xeon, рассчитанную на несколько GPU.

Посмотрим теперь на серверы высокой плотности.
Примером такого сервера может служить платформа Supermicro SuperBlade с видеокартами NVIDIA L4. Карта L4 является универсальным решением, поскольку она низкопрофильная и нетребовательна к охлаждению.

Уже много лет Supermicro выпускает SuperBlade и другие платформы высокой плотности, рассчитанные на различные видеокарты: от низкопрофильных моделей одинарной ширины до моделей двойной ширины. Используются они для того же, для чего и в стандартных серверах, просто в форм-факторе высокой плотности.
Переходим к граничным серверам.
Граничные серверы представляют другие возможности. На периферии чаще используются такие приложения, как, например, компьютерное зрение. Граничные серверы видеонаблюдения с GPU входят в инфраструктуру многих магазинов самообслуживания. Еще одна типовая область применения в сфере торговли – анализ товарооборота, анализ потока покупателей и т.д.

В качестве примера можно взять сервер Supermicro SYS-E403-14B-FRN2T с двумя видеокартами NVIDIA L4.

Эти серверы часто эксплуатируются в условиях ограниченного пространства, поэтому низкопрофильные карты одинарной ширины с TDP 75 Вт – как раз то, что нужно.

Помимо карт L4, в других сценариях использования граничных серверов, от компьютерных сетей до систем «умный город», могут использоваться более мощные и большие видеокарты, часто вместе с более продвинутыми сетевыми интерфейсами.
Рабочие станции в эпоху ИИ актуальны как никогда. Люди хотят разрабатывать ИИ-приложения локально. Возможно, если удельный вес ИИ в повседневных нагрузках увеличится, переход на более мощные видеокарты принесет ощутимые плоды в части продуктивности.

NVIDIA выпустила сразу три версии видеокарты RTX 6000 PRO Blackwell. Первая – 600-ваттная карта, обеспечивающая максимальную производительность в форм-факторе однослотовой карты PCIe. Также были выпущены две карты двойной ширины: 300-ваттная модель с активным охлаждением и модель с пассивным охлаждением, которая часто встречается в системах 8х GPU.

Недавно мы делали обзор сервера Supermicro AS-2115HV-TNRT формата 2U, который поддерживает до четырех видеокарт двойной ширины. Инновационность этой платформы состоит в том, что большинство представленных на рынке рабочих станций, даже если они конфигурируются в формате 4U или 5U, поддерживают максимум три видеокарты. А с этой платформой мы получаем четыре карты на систему, вместе с интерфейсом внешнего управления IPMI, и можем рассовать их по стойкам дата-центра.

Supermicro предлагает и другие решения – например, AS-531AW-TC и SYS-532AW-C, которые могут поддерживать или одну 600-ваттную карту NVIDIA RTX PRO 6000, или несколько 300-ваттных карт типа Max-Q.
В конечном счете, если вы верите в искусственный интеллект и регулярно используете новые инструменты, тогда идея того, что ИИ станет частью большинства будущих нагрузок, вам, вероятно, близка. Мы показали ряд моделей видеокарт и примеров их использования в серверах различного назначения. ИИ выходит за пределы больших фабрик, и требования к производительности, величине задержки, безопасности данных и даже конкретные предпочтения конечных пользователей становятся тем фактором, который обусловливает установку видеокарт в большинство современных серверов.
Мы много писали о больших вычислительных кластерах ИИ, но счет на табло: поскольку мы вступили в эру ИИ, графические ускорители (видеокарты) появляются во многих других локациях и серверных форм-факторах. Поэтому мы решили, что настало время показать типовые примеры использования популярных моделей в различных классах серверов. Конечно, в будущем появятся новые видеокарты, новые сетевые решения и новые архитектуры, но, мы надеемся, эта статья показывает общую структуру применения видеокарт в серверном сегменте, по крайней мере, на сегодняшний день.