Сегодня у нас обширная программа. В этом обзоре сервера Supermicro SYS-112D-40C-FN8P мы посмотрим на процессор Intel Xeon 6 (Granite Rapids-D) в действии. Система собрана в корпусе 1U укороченной глубины с передним расположением портов I/O и блоков питания. Помимо процессора, к основным отличиям этого сервера относятся восемь встроенных портов 25GbE и поддержка ускорителей PCIe двойной ширины. Поскольку это первая система Intel Granite Rapids-D, которую мы тестируем, этот обзор будет более подробным, чем обычно. И мы также представим здесь наш новый пакет бенчмарков AgentSTH. Материала много, так что давайте приступим к обзору.

Это одноюнитовый (1U) сервер с передним расположением портов I/O. Как вы сами можете заметить, здесь много всего, но чего в этом сервере нет – это внешнего доступа к накопителям.

Глубина корпуса составляет 399 мм, благодаря чему он влезает в большинство стоек.

Спереди находятся два блока питания, включенные по схеме с резервированием. Такое расположение БП означает, что кабели питания, как и кабели данных, будут подключены к передней панели сервера.

Блок портов I/O начинается с порта управления IPMI, под которым находятся два порта USB.

Рядом – восемь портов SFP28, обеспечивающие пропускную способность 8x 25GbE.

Эти порты обслуживаются встроенным сетевым контроллером SoC-схемы Xeon 6 Granite Rapids-D Intel E825-C для SFP. Вы также можете видеть, что в SoC есть контроллер Intel i210 для поддержки порта 1GbE.
Рядом мы находим коннекторы SMA для обеспечения синхронизации времени посредством GNSS. За ними вы также можете разглядеть кварцевый генератор. В следующем разделе мы посмотрим, как эти коннекторы взаимодействуют с приемником GNSS и внутренним опорным термостатированным кварцевым генератором (OCXO), а через раздел, на блок-схеме – как это все подключено к SoC Xeon 6.

Правее SMA-коннекторов находится выход miniDisplayPort. Он может показаться маленьким, но к этому пришли после многих лет использования выходов VGA.

Еще правее располагаются два полноразмерных по высоте слота расширений PCIe Gen5 x16. Также вы можете установить сюда карту двойной ширины, если захотите подключить специализированный ускоритель.

Вы, вероятно, обратили внимание, что в этой системе слоты расширений, задние (обычно) порты I/O, включая сетевые, и блоки питания расположены спереди. В результате задняя панель корпуса почти полностью представляет собой вентиляционную решетку, за которой видны вентиляторы, обеспечивающие активное воздушное охлаждение сервера. Во многих средах (например, телекоммуникационные стойки, вычислительные стойки розничных торговых сетей и т.д.) в силу особенностей планировки подход к стойкам возможен только спереди. Этот сервер рассчитан именно на такие случаи.

Теперь давайте посмотрим на внутреннее устройство системы.
Открыв корпус, вы увидите прежде всего два воздуховода. Верхний направляет воздушный поток на блоки питания, нижний – на процессор и память; для карт PCIe предусмотрены два отдельных вентилятора.

Сняв основной воздуховод, мы открываем материнскую плату.

Взглянем коротко на секцию вентиляторов. Каждый из них подключен проводами к материнской плате.

Однако хитрость в том, что можно целиком снять всю секцию.

На материнской плате мы видим четыре слота DDR5-6400 с установленными модулями памяти, а также контактные площадки четырех отсутствующих слотов. Они предназначены для 8-канальных конфигураций, поскольку в этом семействе Xeon есть 64- и 72-ядерные процессоры.

Кроме того, хотя это может показаться малозначительной деталью, между слотами памяти и секцией вентиляторов есть коннектор MCIO. Который вы, возможно, будете использовать для подключения внутренних NVMe SSD формата U.2. На этой плате нет традиционных портов SATA, что несколько непривычно видеть, но такова тенденция, которую мы сегодня наблюдаем в отрасли.
На фото ниже показан радиатор воздушного охлаждения процессора. Как вы сами можете видеть, чипы Granite Rapids-D намного больше, чем прошлогодние чипы Xeon D.

За процессором мы видим некоторые опциональные вещи. Нам предоставили один из ранних образцов системы, которые иногда имели отличия в конфигурации.

Однако первое, что мы здесь видим – это BMC-контроллер ASPEED AST2600.

Теперь посмотрим на одну классную вещь. Это модуль опорного кварцевого генератора типа OCXO (термостатированный) серии Microchip OX-228, который обеспечивает синхронизацию системного времени с внешним. Мы не видели его в стандартном перечне компонентов, и, вероятно, он был добавлен в наш образец системы, который разработан для сегмента телекоммуникаций. Если вы не знаете, что такое OCXO, то это управляемый печью кварцевый генератор (oven-controlled crystal oscillator). Это более дешевое по сравнению с атомными часами решение, использующее кристалл кварца, помещенный в маленькую печь, где поддерживается достаточно высокая постоянная температура. Это предохраняет кристалл от влияния колебаний температуры внешней среды и делает его более надежным, точнее – менее подверженным уходу частоты из-за воздействия внешних факторов. Телекоммуникационные и финансовые сети и другие чувствительные среды не могут опираться на простые средства синхронизации и требуют соответствия более строгим стандартам точности, таким как IEEE 1588. Поэтому наш простой сервер оснащен этой штукой.

Три коннектора SMA нужны для подключения к источнику сигналов точного времени. 1PPS означает один импульс в секунду (pulse per second). Приемник GNSS получает сигнал точного времени со спутниковых атомных часов, обычно через антенну, расположенную где-нибудь на крыше. Интересный факт – GNSS передает точное время, не используя високосные секунды. Модуль GNSS-приемника вы можете увидеть под модулем OCXO. Если вы удивляетесь – зачем нужен OCXO, когда мы можем получать сигнал точного времени прямо из космоса – причина следующая: если внешний сигнал точного времени пропадет, OCXO может удерживать отклонение в пределах плюс-минус 1.5 микросекунд в течение 8 часов.

Здесь у нас накопитель M.2. Наша система предлагает только один слот M.2 (PCIe Gen4 x2). Стандартные конфигурации отгружаются с двумя внутренними слотами NVMe 2.5, но в нашем образце их нет.

Зато есть райзер-слот.

Он обеспечивает сигналом два слота PCIe Gen5 x16. Это позволяет вам установить или ускоритель двойной ширины, или две стандартные карты расширения. Сразу скажем, что есть вариант установить карту с восемью дополнительными портами SFP28, тогда всего их будет 16.

За блоками питания находится дополнительное посадочное место для диска 2.5 и несколько системных коннекторов.

Вид со снятым кожухом второго воздуховода:

Далее переходим к блок-схеме и топологии системы.
Ниже приведена блок-схема сервера. Как вы сами можете видеть, в этом дизайне для простоты все подключено к SoC.
Что здесь примечательно – это модуль часов M.2 с ключом E и такой же модуль приемника GNSS, которого в большинстве серверов нет. Это довольно уникальная вещь. Это модуль не подключен напрямую к серверу через PCIe, что само по себе интересно. Вместо этого он использует UART, USB и специализированные тайминговые интерфейсы. Это также означает, что если, увидев это слот, вы подумаете, не предназначен ли он для еще одного SSD, то это не так.
Посмотрим на топологию:

Опять же, по упомянутой выше причине мы не видим здесь модуль M.2 GNSS. Все подключения, в конечном счете, ведут к SoC. Стоит отметить, что SoC имеет 160 МБ кэша L3 (по 4 МБ на ядро), плюс каждое ядро имеет 2 МБ кэша L2 (80 МБ всего).
Что касается управления, сервер оснащен BMC-контроллером ASPEED AST2600.

Он реализует стандартный вариант IPMI от Supermicro.
Это дает нам доступ к системной конфигурации и данным датчиков.
Мы также можем задавать пользовательские разрешения, просматривать статистику энергопотребления и задавать ограничения по мощности.
Как обычно, Supermicro предлагает удаленную консоль HTML5 iKVM.

Мы можем удаленно монтировать образы операционной системы и накопители.
В общем, это привычный нам пользовательский IPMI от Supermicro, поэтому давайте перейдем непосредственно к производительности.
Система оснащена процессором Intel Xeon 6716P-B.

Одной из отличительных особенностей этого процессора является поддержка Intel vRAN Boost. Это телекоммуникационная технология, для которой раньше применялся ускоритель в виде eASIC-карты (Intel ACC100), а теперь он встроен в SoC многих процессоров Xeon 6.

В настоящий момент доступ к приложениям, которые работают с vRAN, предоставляет Intel, поэтому мы не можем использовать их в качестве бенчмарков. Тем не менее, переход от ускорителей в виде дискретных карт к встроенным ускорителям – это прогрессивная тенденция, которую мы также наблюдаем на примере ускорителя Intel QAT в этом же чипе.
Что касается встроенных сетевых интерфейсов, ниже приведены результаты быстрого и грубого теста iperf3 с четырьмя потоками 25G, полученные с помощью простых DAC-подключений.
Мы уже придумали, как использовать Keysight IxNetwork для тестирования сетевых карт в нашей среде, по аналогии с тестированием сетевых коммутаторов, но эта методика еще нуждается в проверке. Однако уже сама возможность этого показывает, что в части встроенных сетевых интерфейсов мы продвинулись существенно дальше эпохи скоростей 10GbE.
Поскольку у нас пока нет опубликованных результатов для SoC Intel Xeon 6, мы решили измерить задержку при передаче сигнала от одного ядра другому.
Это компонент Granite Rapids, и стоит отметить, что здесь мы не видим ни больших перепадов задержки между чиплетами, как в системах AMD (и других), ни пиков задержки, которые иногда наблюдаются при коммуникации между ядрами комплексов P и E.
Для оценочного измерения задержки памяти мы запустили на новом SoC-чипе тест lmbench. Вот что у нас получилось:
Здесь вы можете видеть магию работы кэшей, и в частности – какая польза от большого кэша L3.
Мы также решили пополнить наше портфолио Geekbench, добавив в него результаты Geekbench 5 для быстрого и удобного сравнения производительности (новый Xeon 6716P-B vs. Xeon 6553P-B).

Это действительно хорошие результаты, которыми мы обязаны 40-ядерному процессору. Просто поразительно, как далеко они продвинулись за несколько поколений.
Результаты Geekbench 6:

Тут нет ничего сверхвпечатляющего, поскольку Geekbench 6 не масштабируется на большие многоядерные процессоры, но эти цифры дают представление об однопоточной производительности.
Одна из актуальных тем, которые мы собирались обсудить, – новый бенчмарк для агентного ИИ, оценивающий прежде всего, насколько эффективно процессор справляется с агентной частью нагрузки, а не с LLM, которые часто запускаются на GPU. Кроме того, тестовые агентные ИИ-нагрузки для CPU часто отражают многое из того, что мы видим в более традиционных сценариях, и в соответствии с этим мы пересмотрели и модернизировали наш пакет. Если вы не интересуетесь ИИ, такие задачи, как сжатие файлов, по-прежнему имеют высокую релевантность в многоцелевом компьютинге. Мы, однако, сделали тест с нагрузочным профилем из ряда различных задач для агентного ИИ, результат которого оценивается комплексным баллом. Важно отметить, что задачи мы разделяем. На современных процессорах с сотнями ядер иметь одну задачу для одного ядра, постоянно застревающую на 100 с лишним ядрах – не идеальный вариант. Фактически, на сегодняшних процессорах запускают контейнеры, песочницы и виртуальные машины, используя один сервер для одновременной обработки нескольких нагрузок. То есть мы входим в эру, где будет несколько различных вариантов разделения ресурсов CPU, и мы будем оценивать скорость обработки этих одновременных нагрузок и их масштабируемость. Это значит, что мы теперь будем запускать на процессоре не весь пакет бенчмарков, а различные конфигурации нагрузок.
Кроме того, мы собираемся сделать открытый бенчмарк на Ubuntu 26.04 LTS, так как мы нашли несколько примеров, где Linux 7.0 вносит заметную разницу, и до релиза новой ОС остались считанные дни. Это не пошаговый апгрейд, а радикальная модернизация бенчмарка, который написан на Rust и ориентирован на новейший релиз LTS.
Один агент (1 Agent) занимает одной задачей весь процессор, тогда как два и четыре агента разделяют задачу на несколько одновременно выполняемых. У нас намного больше вариантов разделения нагрузки, просто здесь разница видна наиболее наглядно.
Все результаты нормированы относительно запуска этого бенчмарка на одном ядре этой машины. Результат 4 Agents выглядит намного лучше, чем 1 Agent, потому что весь чип теряет скорость из-за ожидания, пока отработает одно ядро. Основной вывод здесь – запускать одну нагрузку даже на 36-40-ядерном процессоре сегодня менее эффективно. Проще говоря, общая производительность чипа при запуске нескольких агентов будет выше, чем при запуске одного агента.
Еще один аспект, который мы рассмотрим – производительность чипа при запуске одного агента на определенном числе ядер. Здесь мы задействуем 32 ядра (просто как опорное число ядер) и подсчитываем для каждого процессора комплексный балл по всем субтестам.
Результаты очень близкие, что было ожидаемо, так как это одно и то же поколение ядер CPU. Поскольку мы используем 32 ядра в 36- и 40-ядерном процессоре, такие вещи, как соответствие нагрузки размеру общего кэша L3 или то, как часто включаются boost-частоты или их конкретные значения, могут влиять на результат. У нас также есть набор тестов, который в большей степени ориентирован на задачи согласования.
Здесь, результаты DAG-оркестровки очень близкие, как мы и ожидали. Как только нагрузка превращается в приоритизацию трафика, определение границ сообщений в RPC и отправку/получение почты, процессор Xeon 6716P-B выходит вперед, сохраняя больше метаданных горячими.
То, что мы видим здесь, говорит о том, что чип Xeon 6716P-B лучше справляется с циклической нагрузкой, когда потоки периодически возвращаются к определенному состоянию. Как только нагрузка становится более ассоциативной (например, работа с хеш-таблицами), в бенчмарке V5 преимущество остается за Xeon 6553P-B.
Мы работаем над этим бенчмарком совместно с одним из гуру в области производительности облачных гиперскейлеров. По нашим наблюдениям, еще несколько лет назад тестовые нагрузки для процессоров чаще всего подразумевали запуск одного процесса – на ядро или на систему, но современные облачные процессоры рассчитаны на параллельный запуск нескольких нагрузок. Это пока только наш первый шаг в этом направлении. Мы планируем довести его до уровня пакета инструментов, которым можно будет легко пользоваться, с предварительно собранным кодом и дистрибуцией в стиле Geekbench. А теперь давайте посмотрим, что там с энергопотреблением.
Supermicro предлагает несколько вариантов блоков питания, но наш образец оснащен 800-ваттными БП, которые рассчитаны на энергообеспечение SoC процессора с TDP 235 Вт, а также карт расширения.

Энергопотребление простоя значительное. В простое мы получили значения потребляемой мощности в диапазоне от 105 до 135 Вт, пиковые значения под нагрузкой приближались к 300 Вт. Это далеко от лимитов БП, но в этот бюджет мощности вполне мог бы вписаться PCIe ускоритель двойной ширины.
Многие спрашивают нас про показатели шума. В обзорах серверов мы их не публикуем, так как серверы рассчитаны на работу в закрытых помещениях вне пределов слышимости. Этот сервер в любом случае не бесшумный (но и не самый шумный).
В 2018 году мы представили диаграмму STH Server Spider, которая показывает распределение потенциала сервера по различным аспектам. Задача этой диаграммы – дать наглядное представление о том, на какие области применения в первую очередь рассчитан данный сервер.

Это однозначно не самый плотный сервер. В то же время он располагает большим потенциалом встроенных сетевых интерфейсов, что делает его действительно интересной машиной. Несколько лет назад мы пришли бы в восторг от восьми портов 1GbE или 10GbE. А тут у нас восемь портов 25GbE, и это действительно классно.
Интересно вспомнить, что большим прорывом для линейки Intel Xeon D в свое время стало оснащение этими чипами серверов высокой плотности Yosemite для веб-хостинга Facebook. А примерно через десять лет мы получили 40-ядерный процессор средней ценовой категории (сравните с 8-ядерным Xeon D-1540) со встроенным ускорителем vRAN Boost (раньше для этого использовалась eASIC-карта PCIe), поддержкой восьми сетевых портов 25GbE (10-кратное увеличение пропускной способности Broadwell-DE) и т.д. С другой стороны, серия Intel Granite Rapids-D со всеми этими фишками ориентирована на сегмент телекоммуникаций/5G, поэтому один такой “средний” 40-ядерный чип сегодня стоит больше трех с половиной тысяч долларов. И вы уже не поставите его на материнскую плату «до тысячи долларов», не говоря уже про стоимость всего сервера.
В этом поколении мы получаем встроенные сетевые адаптеры серии Intel E800, обеспечивающие поддержку восьми портов 25GbE. Кроме того, с четырьмя каналами DDR5-6400 мы получаем приличную пропускную способность памяти. В сочетании с ядрами P поколения Granite Rapids и 160-мегабайтным кэшем L3 это дает нам быструю вычислительную платформу, которая также хорошо проявила себя в сценариях с агентным ИИ в нашем новом бенчмарке AgentSTH. Еще одна прикольная вещь в этом сервере – кварцевый генератор OCXO и приемник GNSS для точной синхронизации времени в телекоммуникационных, финансовых и других приложений с высокими требованиями к таймингам. В целом, эта система Supermicro предлагает солидный функционал и производительность вкупе с возможностью установки дополнительных карт расширения.
Итак, мы охватили в этой статье достаточно много. Мы не только всесторонне рассмотрели новый сервер, но также представили методологию нашего нового бенчмарка AgentSTH, который выйдет одновременно с версией Ubuntu 26.04 LTS. Всегда приятно видеть новые чипы Intel Xeon D, и это первый сервер на базе Granite Rapids-D (SoC Intel Xeon 6), который нам предоставили для тестирования. Вообще, Supermicro – первый или второй производитель, вышедший на рынок с серверами на базе Xeon D, и у них набралось солидное портфолио этих платформ.