Скачать презентацию Институт прикладной математики им М В Келдыша Российской Скачать презентацию Институт прикладной математики им М В Келдыша Российской

33f7011f038b93803d506e9eec00c3fa.ppt

  • Количество слайдов: 67

Институт прикладной математики им. М. В. Келдыша Российской академии наук Cуперкомпьютер и вычислительный эксперимент Институт прикладной математики им. М. В. Келдыша Российской академии наук Cуперкомпьютер и вычислительный эксперимент М. В. Якобовский mail: lira@imamod. ru web: http: //lira. imamod. ru Ратмино (Дубна) 2011

Задачи большого вызова (Kenneth G. Wilson, Cornell University, 1987) • Вычислительная газовая динамика: – Задачи большого вызова (Kenneth G. Wilson, Cornell University, 1987) • Вычислительная газовая динамика: – Создание летательных аппаратов, эффективных автомобильных двигателей – Предсказания погоды, и глобальных климатических изменений – Оптимизация нефтедобычи, … • Молекулярная динамика: – Создание материалов с заданными свойствами – Разработка новых лекарственных соединений – Сверхпроводимость, Свойства веществ в экстремальных состояниях, … • Символьные вычисления – – Распознавание речи Компьютерное зрение Изучение сложных систем Автономные системы управления • Квантовая хромодинамика и теория конденсированных сред • Управляемый термоядерный синтез, Геном человека, … 2 http: //en. wikipedia. org/wiki/Grand_Challenge

Области применения многопроцессорных систем • Задачи большого вызова (HPC) • Обработка больших объемов данных Области применения многопроцессорных систем • Задачи большого вызова (HPC) • Обработка больших объемов данных – – Ускорители Секвенаторы Социальные сети, … Космическая фотосъёмка • Задачи реального времени – Железнодорожные станции – Управление технологическими процессами • Системы высокой надёжности – Бортовые системы 3

Транспьютерная материнская плата МТБ-8 Транспьютерная материнская плата МТБ-8

Транспьютер T-800 • Сделан на основе языка Оккам Транспьютер T-800 • Сделан на основе языка Оккам

6 из 47 6 из 47

Транспьютерная материнская плата МТБ-8 Транспьютерная материнская плата МТБ-8

Транспьютер Т 800 и коммутатор С 004 Транспьютер Т 800 и коммутатор С 004

Электронный коммутатор Электронный коммутатор

Узел с общей памятью – два процессора Узел с общей памятью – два процессора

Узел Power. Xplorer Узел Power. Xplorer

Гибридная система Гибридная система

Плата и 4 модуля Плата и 4 модуля

Развитие суперкомпьютеров 1 Ef/s оп. /с 1018 www. top 500. org 1015 1 Pf/s Развитие суперкомпьютеров 1 Ef/s оп. /с 1018 www. top 500. org 1015 1 Pf/s 1 Tf/s 1 Gf/s 1 Mf/s ENIAC 1946 1012 ЭСЛ-база CDC Cray 1 6600 КМОП-база 10 6 Транзисторы IBM 701 10 9 (С)В. К. Левин 10 3 1953 1964 1975 1986 1997 2008 2019 гг.

Производительность процессора и частота 14000 Производительность MFlops 12000 Частота, MHz 10000 8000 6000 4000 Производительность процессора и частота 14000 Производительность MFlops 12000 Частота, MHz 10000 8000 6000 4000 2000 0 1988 1993 1998 2003 2008 2013 17

Рост производительности одного процессора прекратился несколько лет назад 14000 Производительность MFlops Частота*4, MHz 12000 Рост производительности одного процессора прекратился несколько лет назад 14000 Производительность MFlops Частота*4, MHz 12000 10000 8000 6000 • Одновременная обработка фиксированной и плавающей запятой • Кеш память • Конвейерная обработка • Гипертрединг 4000 2000 0 1988 1993 1998 2003 2008 2013 18

Компьютер пользователя на порядки слабее суперкомпьютера flops 2301 Tf 0 50 1 Pflops 281 Компьютер пользователя на порядки слабее суперкомпьютера flops 2301 Tf 0 50 1 Pflops 281 Tf 100 T #1 МСЦ 10 T 1 T МВС-1000 М МГУ, Ломоносов МГУ, Чебышев 0 50 # МСЦ РАН 1, 12 Tf Китай, Tianhe-1 A USA, Jaguar 1, 65 Tf 100 G 60 Gf 10 G 1 G 0, 42 Gf 1995 2000 2005 2010 2015 г г. Workstation: 1/100 000 TOP 500 19

Производительность http: //www. bbc. co. uk/news/10187248 20 Производительность http: //www. bbc. co. uk/news/10187248 20

Страна http: //www. bbc. co. uk/news/10187248 21 Страна http: //www. bbc. co. uk/news/10187248 21

Производитель http: //www. bbc. co. uk/news/10187248 22 Производитель http: //www. bbc. co. uk/news/10187248 22

Процессор http: //www. bbc. co. uk/news/10187248 23 Процессор http: //www. bbc. co. uk/news/10187248 23

ОС http: //www. bbc. co. uk/news/10187248 24 ОС http: //www. bbc. co. uk/news/10187248 24

Приложения http: //www. bbc. co. uk/news/10187248 25 Приложения http: //www. bbc. co. uk/news/10187248 25

26 26

Ограничения Закон Амдаля 1% последовательных операций - сокращение времени не более чем в 100 Ограничения Закон Амдаля 1% последовательных операций - сокращение времени не более чем в 100 раз • • Ступор производительности последовательных систем Закон Амдаля Стена памяти Высокое энергопотребление традиционных процессоров 27

Особенности момента • Потребность в суперкомпьютерах высока • Эффективность использования суперкомпьютеров низка: – Не Особенности момента • Потребность в суперкомпьютерах высока • Эффективность использования суперкомпьютеров низка: – Не все последовательные алгоритмы адекватны параллельным вычислительным системам – Обмены, синхронизация, другие дополнительные операции снижают эффективность параллельной программы – Использование каждого ядра последовательной программой составляет проценты и доли процентов 28

Компьютерный дизайн лекарств (Intel -fast, исследование эффективности, Clovertown 2. 66 GHz) Реальная производительность, Mflops Компьютерный дизайн лекарств (Intel -fast, исследование эффективности, Clovertown 2. 66 GHz) Реальная производительность, Mflops КПД процессора на задаче: 4% !!! (С) Вл. В. Воеводин

Видеолекции (показ открытый, кроме 3 х часов времени никаких требований) • В. В. Воеводин Видеолекции (показ открытый, кроме 3 х часов времени никаких требований) • В. В. Воеводин Суперкомпьютеры и КПД паровоза http: //www. intuit. ru/video/70/ • В. К. Левин Суперкомпьютеры - этапы большого пути и перспективы http: //www. intuit. ru/video/72/ 30

Особенности момента • При решении конкретной задач есть минимальный объем вычислений на процессорное ядро, Особенности момента • При решении конкретной задач есть минимальный объем вычислений на процессорное ядро, определяющий максимальное число используемых в расчете ядер • За счет многопроцессорности сложно сокращать время решения, но можно повышать сложность решаемых задач - оперирование большими объёмами данных 31

Дозвуковая аэродинамическая труба Т-104, ЦАГИ • • Скорость потока 10– 120 м/с Диаметр сопла Дозвуковая аэродинамическая труба Т-104, ЦАГИ • • Скорость потока 10– 120 м/с Диаметр сопла 7 м Длина рабочей части 13 м Мощность вентилятора 28. 4 МВт http: //www. tsagi. ru/rus/base/t 104 Суперкомпьютер СКИФ МГУ «ЧЕБЫШЁВ» • Пиковая производительность 60 TFlop/s • Мощность комплекса 0. 72 МВт http: //parallel. ru/cluster/skif_msu. html 32

Малые размеры объекта изучения 33 Малые размеры объекта изучения 33

Условия, отличные от натурных 34 Условия, отличные от натурных 34

Суперкомпьютеры • Анализ и обработка результатов натурного эксперимента – важная, требующая методов высокой точности, Суперкомпьютеры • Анализ и обработка результатов натурного эксперимента – важная, требующая методов высокой точности, ниша для вычислительного эксперимента • Суперкомпьютер не просто составляет конкуренцию натурному эксперименту, но: – Необходим для его проведения – Позволяет делать то, что натурный эксперимент делать не позволяет: – Виртуальные ядерные испытания – прогнозирование климата, космология, изучение свойств вещества в экстремальных условиях – Синтез лекарств – Прогнозирование экстремальных событий (допуски на волны) 35

 «… если подобное можно сделать, то это будет научный подвиг! « (Ландау) • «… если подобное можно сделать, то это будет научный подвиг! « (Ландау) • 1948 г. , семинар у Игоря Васильевича Курчатова, вопрос о мощности взрыва. • Модель теоретического отдела Института физических проблем, под руководством академика Льва Давидовича Ландау, не допускающая аналитического решения. • Андрей Николаевич Тихонов предложил выполнить прямой численный расчёт. – Александр Андреевич Самарский – около тридцати девушек-вычислителей, выпускниц геодезического института. • 1949 г. , расхождение всего 30 %. • http: //www. pseudology. org/science/Samarsky. AA. htm 36

Суперкомпьютер «Ломоносов» пиковая производительность 414, 42 ТФлопс реальная производительность 350, 10 ТФлопс процессоры Intel Суперкомпьютер «Ломоносов» пиковая производительность 414, 42 ТФлопс реальная производительность 350, 10 ТФлопс процессоры Intel EM 64 T Xeon X 55 xx (Nehalem-EP) 2930 МГц (11, 72 ГФлопс) число процессорных ядер 35 360 общий объем оперативной памяти 54 312 ГБ коммуникационная сеть Infiniband операционная система Linux 37

Суперкомпьютер МГУ “Ломоносов” (С)Вл. В. Воеводин Суперкомпьютер МГУ “Ломоносов” (С)Вл. В. Воеводин

Суперкомпьютер МГУ “Ломоносов” Всего в системе 10 т гликоля и 40 т воды (С)Вл. Суперкомпьютер МГУ “Ломоносов” Всего в системе 10 т гликоля и 40 т воды (С)Вл. В. Воеводин

Суперкомпьютер МГУ “Ломоносов” (С)Вл. В. Воеводин Суперкомпьютер МГУ “Ломоносов” (С)Вл. В. Воеводин

Суперкомпьютер МГУ “Ломоносов” (С)Вл. В. Воеводин Суперкомпьютер МГУ “Ломоносов” (С)Вл. В. Воеводин

Суперкомпьютер МГУ “Ломоносов” (С)Вл. В. Воеводин Суперкомпьютер МГУ “Ломоносов” (С)Вл. В. Воеводин

Суперкомпьютер МГУ “Ломоносов” Вес оборудования машзала – 57 т, СБЭ – 92 т Суперкомпьютер МГУ “Ломоносов” Вес оборудования машзала – 57 т, СБЭ – 92 т

Суперкомпьютер МГУ “Ломоносов” Общая длина кабелей более 80 км (С)Вл. В. Воеводин Суперкомпьютер МГУ “Ломоносов” Общая длина кабелей более 80 км (С)Вл. В. Воеводин

Суперкомпьютер МГУ “Ломоносов” Суперкомпьютер МГУ “Ломоносов”

 • Т-Платформы: T-Blade 2 На 14 -слойной системной плате расположены – 4 четырехъядерных • Т-Платформы: T-Blade 2 На 14 -слойной системной плате расположены – 4 четырехъядерных процессора Intel® Xeon 5500, – 4 трехканальных модуля памяти DDR 3 разработки «Т-Платформы» – интегрированные контроллеры системной сети QDR Infini. Band. 46

Суперкомпьютер МГУ “Ломоносов” Пиковая производительность Реальная производительность Эффективность Число вычислительных узлов Число процессорных ядер Суперкомпьютер МГУ “Ломоносов” Пиковая производительность Реальная производительность Эффективность Число вычислительных узлов Число процессорных ядер Типы вычислительных узлов Основной процессор Оперативная память Коммуникационная сеть Система хранения данных Операционная система Занимаемая площадь Энергопотребление вычислителя 420 Тфлопс 350 Тфлопс 83% 4 446 8 892 35 776 T-Blade 2, T-Blade 1. 1, Power. XCell 8 i Intel Xeon 5570, 2. 93 GHz 56, 5 ТБайт QDR Infiniband 1, 35 ПБайт Clusrtx T-Platforms Edition 252 м 2 1. 5 МВт (С)Вл. В. Воеводин

48 48

Kraken 49 Kraken 49

50 50

Tianhe-1 A, Китай • Национальный суперкомпьютерный центр в Тяньжине, 2, 5 из 4. 7 Tianhe-1 A, Китай • Национальный суперкомпьютерный центр в Тяньжине, 2, 5 из 4. 7 петафлоп. • 7168 графических процессоров NVIDIA Tesla M 2050 и 14336 процессоров Intel Xeon, • Энергопотребление 4, 04 Мегаватт • Tianhe-1 A - система открытого доступа 51

Системы с неоднородным доступом к памяти (NUMA) SGI Altix UV (Ultra. Violoet) 1000 256 Системы с неоднородным доступом к памяти (NUMA) SGI Altix UV (Ultra. Violoet) 1000 256 Intel® Xeon® 4 -, 6 - or 8 -core 7500 series (2048 cores) 16 TB памяти Interconnect Speed 15 ГБ/с, 1 мкс http: //www. sgi. com/products/servers/altix/uv/ Москва, 2010 г. Параллельное программирование с Open. MP: Введение © Бахтин В. А. 52

Скиф Аврора 24 TFLOPS http: //www. 3 dnews. ru/editorial/skif_aurora_chelyabinsk/index 2. htm Алексей Дрожжин СКИФ Скиф Аврора 24 TFLOPS http: //www. 3 dnews. ru/editorial/skif_aurora_chelyabinsk/index 2. htm Алексей Дрожжин СКИФ Аврора ЮУр. ГУ: суровый Челябинский суперкомпьютер 53

Россия в top 500 • • TOP 500: 12. Ломоносов (НИВЦ МГУ) 38. МВС-100 Россия в top 500 • • TOP 500: 12. Ломоносов (НИВЦ МГУ) 38. МВС-100 К (МСЦ РАН — Межведомственный Суперкомпьютерный Центр РАН) 107. СКИФ МГУ «Чебышёв» (НИВЦ МГУ) (37 -е место в июне 2008 года) 138. IBM Blade. Center HS 22 Cluster (банковский сектор) 181. IBM x. Series x 3650 M 2 Cluster (правительственный сектор) 320. HP Cluster Platform 3000 BL 460 c (РНЦ «Курчатовский институт» ) (118 -е место в ноябре 2008 года) 377– 382. IBM Blue Gene/P (факультет ВМК МГУ) (126– 130 -е место в ноябре 2008 года) 450. СКИФ-Аврора (ЮУр. ГУ — Южно-Уральский государственный университет) 55

56 56

57 57

58 58

top 500. org 59 top 500. org 59

Экзафлопсный барьер: проблемы и решения Виктор Горбунов, Леонид Эйсымонт Открытые системы : : Платформы, Экзафлопсный барьер: проблемы и решения Виктор Горбунов, Леонид Эйсымонт Открытые системы : : Платформы, http: //www. osp. ru/os/2010/05/13003034/ 60

Архитектура CUDA «Fermi» • Более трех миллиардов транзисторов и 512 ядер CUDA • http: Архитектура CUDA «Fermi» • Более трех миллиардов транзисторов и 512 ядер CUDA • http: //itc. ua/articles/nvidia_geforce_gtx_480_chast_1_arhitektura_fermi_45158 61

Компьютеры с реконфигурируемой архитектурой (http: //fpga. parallel. ru) Компьютеры с реконфигурируемой архитектурой (http: //fpga. parallel. ru)

МОДУЛЬ АЛЬКОР Число ПЛИС Vertex V, 11 млн. вентилей, шт. 16 Число элементарных процессоров МОДУЛЬ АЛЬКОР Число ПЛИС Vertex V, 11 млн. вентилей, шт. 16 Число элементарных процессоров 512 Объем памяти, Гбайт 2 Производительность, Гфлопс 200 Частота платы, МГц330 Частота информационных обменов, МГЦ 1200 Габариты, мм 6 U Потребляемая мощность 225 Вт 63

Суперкомпьютерный комплекс МГУ (суперкомпьютер с реконфигурируемой архитектурой) 5 стоек x 4 блока x 4 Суперкомпьютерный комплекс МГУ (суперкомпьютер с реконфигурируемой архитектурой) 5 стоек x 4 блока x 4 модуля = 1280 Xilinx Virtex-5, - (n Tflops) Энергопотребление – 30 КВт на всю систему, Разработчик – НИИ МВС ЮФУ, г. Таганрог.

Классы систем • • Распределенная память Двусторонние обмены Односторонние обмены Общая память – UMA Классы систем • • Распределенная память Двусторонние обмены Односторонние обмены Общая память – UMA – cc. NUMA – NUMA • Grid • Мультитредовые • ПЛИС 65

Упорядочить элементы массива • • O(n 2) O(n log n) O(? ) 66 Упорядочить элементы массива • • O(n 2) O(n log n) O(? ) 66

Упорядочить элементы массива за 1 шаг 010 001 И ИЛИ Упорядочить элементы массива за 1 шаг 010 001 И ИЛИ

Якобовский М. В. проф. , д. ф. -м. н. , зав. сектором «Программного обеспечения Якобовский М. В. проф. , д. ф. -м. н. , зав. сектором «Программного обеспечения многопроцессорных систем и вычислительных сетей» Института прикладной математики им. М. В. Келдыша Российской академии наук mail: lira@imamod. ru http: //lira. imamod. ru 68