Архитектура Intel Xe HPC (High Performance Compute, т.е. для высокопроизводительных вычислений) ляжет в основу самого мощного на сегодняшний день дискретного графического ускорителя от этой компании, предназначенного для векторных вычислений и известного под кодовым наименованием "Ponte Vecchio". Этот процессор, разработанный для профессиональных HPC- и ИИ-приложений, имеет в своем составе аппаратные компоненты, осуществляющие обычную растеризацию и рейтрейсинг в реальном времени, что позволяет использовать его также в качестве графического процессора (видеокарты) для облачного гейминга.

Профессиональные видеоускорители

Архитектура Xe HPG является базисом для дискретных видеокарт Intel клиентского класса. Архитектура Xe HPC отличается от нее и количественно, и качественно. Ядро Xe – базовый элементарный (неделимый) компонент схемы процессора – в случае Xe HPC имеет иную структуру, отличную от Xe HPG. Ядро Xe HPG содержит шестнадцать 256-разрядных векторных движков и столько же 1024-разрядных матричных движков, а ядро Xe HPC – восемь 512-разрядных векторных движков и восемь 4096-разрядных матричных. И оно также предлагает более высокую пропускную способность блока Load/Store и больший объем кэша L1 (512 КБ).

Векторный движок ядра Xe HPC рассчитан на производительность 256 операций за такт с точностью FP64, такая же скорость предусмотрена для точности FP32, и 512 операций за такт – для FP16. Со своей стороны матричный движок обеспечивает скорость вычислений 2048 операций за такт для TF32, 4096 операций за такт для FP16 и BFloat16, и 8192 операций за такт для INT8. Картина становится еще интереснее, когда мы переходим на более высокий структурный уровень микросхемы. В чипе Xe HPC каждый слой (Slice) содержит 16 ядер Xe HPC и столько же выделенных блоков рейтрейсинга (Raytracing Unit), которые выполняют те же функции, что и в процессорах Xe HPG: расчет (пространственный поиск) точек пересечения лучей с изображаемыми объектами (Ray Traversal), опирающийся на иерархию ограничивающих объемов – прямоугольных параллелепипедов (Bounding Box) и треугольников (Triangle). В Xe HPC один слой в совокупности имеет 8 МБ кэша L1.

Один вычислительный стек Xe HPC включает в себя четыре таких слоя, которые в общей сложности содержат 64 ядра Xe HPC, 64 блока рейтрейсинга и четыре аппаратные связки (Hardware Context) и используют большой – 144 МБ – общий кэш уровня L2. В числе компонентов, не имеющих отношения к вычислительным ядрам, – интерфейс PCI-Express 5.0 x16, 4096-разрядная шина памяти HBM2E, медиадвижок с закрепленными за ним функциями аппаратного ускорения декодирования (и, возможно, кодирования) популярных видеоформатов и внутренний интерфейс Xe Link, который может связывать до восьми двухстековых модулей Xe HPC, то есть в общей сложности до 16 стеков. В каждом двухстековом модуле для связи стеков между собой используется внутреннее соединение с низкой задержкой. Таким образом, двухстековый модуль может содержать до 128 ядер Xe HPC, 128 блоков рейтрейсинга, два медиадвижка и интерфейс памяти HBM2E шириной 8192 бита. Такая двухстековая компоновка здесь целесообразна, поскольку в состав процессора "Ponte Vecchio" входят две вычислительные плитки (два стека Xe HPC) и восемь стеков памяти HBM2E.

Здесь важно отметить, что слои Xe HPC размещаются в специализированных кристаллах, так называемых "вычислительных плитках" (Compute Tile), которые изготавливаются на базе техпроцесса TSMC N5 5 нм, тогда как остальные функциональные компоненты процессора физически размещаются в основном кристалле (Base Tile), который изготавливается на базе техпроцесса Intel 7 (усовершенствованная технология SuperFin 10 нм). Кристаллы Compute Tile и Base Tile располагаются относительно друг друга в виде Foveros-стека с высотой ball-grid 36 мкм. Отдельный кристалл (Xe Link Tile) занимает интерфейс Xe Link, связывающий соседние модули. Этот кристалл базируется на техпроцессе TSMC 7 нм и состоит в основном из компонентов сериализации/десериализации (SerDes).

Каждый ОАМ-модуль "Ponte Vecchio" с двумя стеками Xe HPC (один MCM-модуль) предлагает пропускную способность памяти свыше 5 ТБ/с вкупе с пропускной способностью интерфейса Xe Link свыше 2 ТБ/с. Подсистема "Ponte Vecchio x4" включает в себя четыре таких OAM-модуля и разработана для серверной платформы 1U с двумя процессорами Xeon "Sapphire Rapids". И четырехмодульный блок "Ponte Vecchio", и двухпроцессорная компоновка "Sapphire Rapids" обеспечены жидкостным охлаждением. Новое «железо» – это только половина всей истории: Intel также инвестирует значительные средства в OneAPI, единую среду разработки программного обеспечения для CPU и GPU.