Скачать презентацию Гибридный суперкомпьютер МВС-экспресс и его применение Четверушкин Б Скачать презентацию Гибридный суперкомпьютер МВС-экспресс и его применение Четверушкин Б

c2c635735067c9b33d61a50ea46f64f3.ppt

  • Количество слайдов: 29

Гибридный суперкомпьютер «МВС-экспресс» и его применение Четверушкин Б. Н. ИПМ им. М. В. Келдыша Гибридный суперкомпьютер «МВС-экспресс» и его применение Четверушкин Б. Н. ИПМ им. М. В. Келдыша РАН

ИПМ им. М. В. Келдыша РАН традиционно занимается разработками в области вычислительной техники: ЭВМ-”Стрела”, ИПМ им. М. В. Келдыша РАН традиционно занимается разработками в области вычислительной техники: ЭВМ-”Стрела”, тема-”Лазурь”, МВС-100 и МВС-1000. Активизация нынешнего этапа работ связана с появлением в 2007 г. четырехядерных процессоров. Первые расчеты показали принципиальное отличие в использовании многоядерных процессоров от одноядерных MPI+OPEN MP особые требования к вычислительным алгоритмам – логически простые и эффективные.

Существующие типы вычислительных систем на базе четырехядерных процессоров имеют естественное ограничение по производительности ~1 Существующие типы вычислительных систем на базе четырехядерных процессоров имеют естественное ограничение по производительности ~1 PFLOPS, вызванное стоимостью системы и ее энергопотреблением. Современные тенденции будут связаны с появлением процессоров со все большим количеством ядер. Вычислительные системы основанные на них обладают существенно меньшей стоимостью и энергопотреблением. Графические платы – пример существенно многоядреных процессоров.

Расчеты на суперкомпьютере Ломоносов с использованием до 12800 ядер ● Задача “струя, набегающая на Расчеты на суперкомпьютере Ломоносов с использованием до 12800 ядер ● Задача “струя, набегающая на цилиндр”. Совместные с ЦАГИ исследования по локализации источников шума в турбулентном следе (обтекание стоек шасси самолета) Вид сверху, поле модуля скорости ● Параметры задачи Re=14000, M=0. 2 Сетка 16 M узлов, 100 M тетраэдров, 4 -шаговый метод Runge-Kutta 4 -го порядка по времени, Схема повышенного порядка с центром в узлах. ● Характерное время вычислений: 26. 8 сек. на шаг по времени на 64 ядрах, 0. 175 сек. на 12800 ядрах, нормализованное ускорение 152. 6. Вид сбоку, поле модуля скорости Адаптированная неструктурированная тетраэдральная сетка Вид сбоку, поле завихренности Изоповерхности модуля скорости Ускорение MPI, 8 Open. MP нитей (логарифмическая шкала)

Трудности программирования и особо жесткие требования к вычислительным алгоритмам и, как следствие, заметное ограничение Трудности программирования и особо жесткие требования к вычислительным алгоритмам и, как следствие, заметное ограничение области применения. Цель работы – создание относительно недорогого вычислительного комплекса для нахождения архитектурных, программных и алгоритмических решений для вычислительных систем на базе существенно многоядреных процессоров. Экзафлопсная инициатива.

Структурная схема опытного образца суперкомпьютера «МВС – экспресс» . Пиковая производительность около ~6 TFLOPS. Структурная схема опытного образца суперкомпьютера «МВС – экспресс» . Пиковая производительность около ~6 TFLOPS.

Гибридная архитектура основана на традиционном вычислительном кластере, каждый узел которого снабжен сопроцессором (ускорителем) нетрадиционной Гибридная архитектура основана на традиционном вычислительном кластере, каждый узел которого снабжен сопроцессором (ускорителем) нетрадиционной архитектуры. При гибридном подходе, часть работы программист может выполнить в привычных старых терминах, отдельно от изучения собственно новых архитектур. Межузловую сеть следует усилить, оптимизировать по задержкам и упростить с точки зрения программирования.

В качестве ускорителей были выбраны готовые серийно выпускаемые GP GPU. В качестве сети – В качестве ускорителей были выбраны готовые серийно выпускаемые GP GPU. В качестве сети – сеть собственной (совместно с ФГУП «Квант» ) разработки. Сеть оптимизирована под модель программирования PGAS (разделенное глобальное адресное пространство), -простейший вариант библиотека shmem, что не исключает использование MPI.

Задача оптимизации алгоритма – поиск подлежащих ускорению фрагментов обработки с максимальной локальностью обращений к Задача оптимизации алгоритма – поиск подлежащих ускорению фрагментов обработки с максимальной локальностью обращений к памяти и максимальной простотой работы с памятью. Пути решения этой задачи почти инвариантны к конкретной используемой архитектуре специального вычислителя – это общая проблема многоядерности.

Какие задачи хорошо адаптируются к предлагаемой архитектуре - для которых можно построить логически простые Какие задачи хорошо адаптируются к предлагаемой архитектуре - для которых можно построить логически простые и в то же время эффективные алгоритмы. Задачи, описывающие перенос излучений, молекулярная динамика. Алгоритмы, основанные на явных схемах для решения задач математической физики. Для явных разностных схем при решении параболических уравнений существует проблема жесткого ограничения на шаг по времени для устойчивости счета.

Моделирование поглощения гамма-излучения. Q 3 O Q 2 Q 1 Описание многокомпонентного объекта и Моделирование поглощения гамма-излучения. Q 3 O Q 2 Q 1 Описание многокомпонентного объекта и его трассировка. Траектории фотонов в цилиндре

Схема многоядерной реализации алгоритма Схема многоядерной реализации алгоритма

Структура распределения поглощенной энергии по энергетическим ячейкам. Полученное ускорение расчета: с использованием одного видеоадаптера Структура распределения поглощенной энергии по энергетическим ячейкам. Полученное ускорение расчета: с использованием одного видеоадаптера n. Vidia Ge. Force GTX 275 ~80 раз, при использовании ускорителя n. Vidia Tesla ~320 раз, при использовании четырёх узлов гибридного кластера ~570 раз.

Численное моделирование трансзвукового обтекания головных частей ракет-носителей Трансзвуковая перестройка течения. Численное моделирование трансзвукового обтекания головных частей ракет-носителей Трансзвуковая перестройка течения.

Сравнение расчетных и экспериментальных данных Ускорение счета с использованием GPU Сравнение расчетных и экспериментальных данных Ускорение счета с использованием GPU

Расчет обтекания препятствия. Уравнения Эйлера. Разностная схема С. К. Годунова. Расчет обтекания препятствия. Уравнения Эйлера. Разностная схема С. К. Годунова.

Квазигазодинамическая система уравнений Квазигазодинамическая система уравнений

Введение дополнительного релаксационного параметра для увеличения допустимого шага по времени. Введение дополнительного релаксационного параметра для увеличения допустимого шага по времени.

Расчет течения несжимаемой жидкости в полости. Алгоритм на основе квазигазодинамической системы уравнений. Расчет с Расчет течения несжимаемой жидкости в полости. Алгоритм на основе квазигазодинамической системы уравнений. Расчет с 2 -й точностью

Задача о вытекании жидкости из контейнера Задача о вытекании жидкости из контейнера

Мгновенные линии тока Мгновенные линии тока

Линии тока в диагональном сечении Линии тока в диагональном сечении

Кинетический подход к моделированию течений в пористых средах Классическая модель • Модифицированная модель Тестовые Кинетический подход к моделированию течений в пористых средах Классическая модель • Модифицированная модель Тестовые расчеты притока жидкости к нефтедобывающей скважине h, см 0. 2 0. 5 1. 0 Δt, сек 0. 09 0. 35 1. 0 τ, сек 0. 66 1. 59 3. 26

Расчет на GPUs задачи о двухфазном просачивании загрязняющих веществ в почву Постановка задачи и Расчет на GPUs задачи о двухфазном просачивании загрязняющих веществ в почву Постановка задачи и поле насыщенности загрязняющего вещества (тетрахлорэтилен) Ускорение расчетов на GPU по сравнению с 1 ядром CPU

Предполагаемый Супер-компьютер ИПМ им. М. В. Келдыша РАН производительностью 100 TFLOPS, энергопотребление комплекса до Предполагаемый Супер-компьютер ИПМ им. М. В. Келдыша РАН производительностью 100 TFLOPS, энергопотребление комплекса до 70 к. Вт, стоимость проекта 65 млн. р. 1. 2. 3. 4. 5. Моделирование задач гидро- и газовой динамики. Прогнозирование аварийных ситуаций в космическом пространстве. Моделирование процессов неразрущающего контроля. Решение задач молекулярной динамики. Моделирование добычи углеводородного сырья.

Опытный образец супер-компьютера «МВС-ЭКСПРЕСС» Опытный образец супер-компьютера «МВС-ЭКСПРЕСС»

Структурная схема вычислительного узла SDRAM 8 ГБ 2 х DDR 2 2 х 5, Структурная схема вычислительного узла SDRAM 8 ГБ 2 х DDR 2 2 х 5, 4 ГБайт/c CPU AMD Opteron 2382 Hyper. Transport ~ до 16 ГБайт/с Аппаратура: Процессор 2 x Opteron 2382 Частота 2600 MГц 7 доступных задаче пользователя ядер. Двухканальная оперативная память PC 5400 16 ГБайт Диск SATA 320 Gb Сетевая карта Gigabit Ethernet. Видеокарта n. Vidia Ge. Force 295 GTX 2 x 240 GPU с частотой 1242 МГц 1 ГБайт SDRAM Коммуникационный адаптер МВС-экспресс Cкорость до 700 Мбайт/с Латентность ~1, 2 мкс Время выдачи слова ~ 70 нс Время чтения слова ~ 2, 5 нс Программное обеспечение: Операционная система Su. SE Linux Enterprise Server Распараллеливание вычислений shmem-экспресс. Media and Communications Processor n. Vidia MCP 55 PRO Gigabit Eternet 1 Гбит/c Сетевая карта Serial ATA 3 Гбит/с HDD 320 ГБ PCI-Express x 4 1 ГБайт/c Адаптер МВС-Экспресс PCI-Express x 16 4 ГБайт/c GPU Nvidia Ge. Force 295 GTX

Коммутатор PCI-Express Сумм. пропускная способность Максимальный размер пакета Количество каналов LAN-4 х Изготовитель - Коммутатор PCI-Express Сумм. пропускная способность Максимальный размер пакета Количество каналов LAN-4 х Изготовитель - 160 Гбит/с - 256 байт - 8 шт. - Квант, 2009 год Измеренные значения: Скорость записи массива (500000 слов) Скорость чтения массива (500000 слов) Латентность обменов - 681 Мбайт/с - 476 Мбайт/с - 2, 1 мкс

Адаптер PCI-Express Интерфейс PCI-Express x 4 Cкорость до 700 Мбайт/с Латентность ~1, 2 мкс Адаптер PCI-Express Интерфейс PCI-Express x 4 Cкорость до 700 Мбайт/с Латентность ~1, 2 мкс Время выдачи слова ~ 70 нс Время чтения слова ~ 2, 5 нс