33f7011f038b93803d506e9eec00c3fa.ppt
- Количество слайдов: 67
Институт прикладной математики им. М. В. Келдыша Российской академии наук Cуперкомпьютер и вычислительный эксперимент М. В. Якобовский mail: lira@imamod. ru web: http: //lira. imamod. ru Ратмино (Дубна) 2011
Задачи большого вызова (Kenneth G. Wilson, Cornell University, 1987) • Вычислительная газовая динамика: – Создание летательных аппаратов, эффективных автомобильных двигателей – Предсказания погоды, и глобальных климатических изменений – Оптимизация нефтедобычи, … • Молекулярная динамика: – Создание материалов с заданными свойствами – Разработка новых лекарственных соединений – Сверхпроводимость, Свойства веществ в экстремальных состояниях, … • Символьные вычисления – – Распознавание речи Компьютерное зрение Изучение сложных систем Автономные системы управления • Квантовая хромодинамика и теория конденсированных сред • Управляемый термоядерный синтез, Геном человека, … 2 http: //en. wikipedia. org/wiki/Grand_Challenge
Области применения многопроцессорных систем • Задачи большого вызова (HPC) • Обработка больших объемов данных – – Ускорители Секвенаторы Социальные сети, … Космическая фотосъёмка • Задачи реального времени – Железнодорожные станции – Управление технологическими процессами • Системы высокой надёжности – Бортовые системы 3
Транспьютерная материнская плата МТБ-8
Транспьютер T-800 • Сделан на основе языка Оккам
6 из 47
Транспьютерная материнская плата МТБ-8
Транспьютер Т 800 и коммутатор С 004
Электронный коммутатор
Узел с общей памятью – два процессора
Узел Power. Xplorer
Гибридная система
Плата и 4 модуля
Развитие суперкомпьютеров 1 Ef/s оп. /с 1018 www. top 500. org 1015 1 Pf/s 1 Tf/s 1 Gf/s 1 Mf/s ENIAC 1946 1012 ЭСЛ-база CDC Cray 1 6600 КМОП-база 10 6 Транзисторы IBM 701 10 9 (С)В. К. Левин 10 3 1953 1964 1975 1986 1997 2008 2019 гг.
Производительность процессора и частота 14000 Производительность MFlops 12000 Частота, MHz 10000 8000 6000 4000 2000 0 1988 1993 1998 2003 2008 2013 17
Рост производительности одного процессора прекратился несколько лет назад 14000 Производительность MFlops Частота*4, MHz 12000 10000 8000 6000 • Одновременная обработка фиксированной и плавающей запятой • Кеш память • Конвейерная обработка • Гипертрединг 4000 2000 0 1988 1993 1998 2003 2008 2013 18
Компьютер пользователя на порядки слабее суперкомпьютера flops 2301 Tf 0 50 1 Pflops 281 Tf 100 T #1 МСЦ 10 T 1 T МВС-1000 М МГУ, Ломоносов МГУ, Чебышев 0 50 # МСЦ РАН 1, 12 Tf Китай, Tianhe-1 A USA, Jaguar 1, 65 Tf 100 G 60 Gf 10 G 1 G 0, 42 Gf 1995 2000 2005 2010 2015 г г. Workstation: 1/100 000 TOP 500 19
Производительность http: //www. bbc. co. uk/news/10187248 20
Страна http: //www. bbc. co. uk/news/10187248 21
Производитель http: //www. bbc. co. uk/news/10187248 22
Процессор http: //www. bbc. co. uk/news/10187248 23
ОС http: //www. bbc. co. uk/news/10187248 24
Приложения http: //www. bbc. co. uk/news/10187248 25
26
Ограничения Закон Амдаля 1% последовательных операций - сокращение времени не более чем в 100 раз • • Ступор производительности последовательных систем Закон Амдаля Стена памяти Высокое энергопотребление традиционных процессоров 27
Особенности момента • Потребность в суперкомпьютерах высока • Эффективность использования суперкомпьютеров низка: – Не все последовательные алгоритмы адекватны параллельным вычислительным системам – Обмены, синхронизация, другие дополнительные операции снижают эффективность параллельной программы – Использование каждого ядра последовательной программой составляет проценты и доли процентов 28
Компьютерный дизайн лекарств (Intel -fast, исследование эффективности, Clovertown 2. 66 GHz) Реальная производительность, Mflops КПД процессора на задаче: 4% !!! (С) Вл. В. Воеводин
Видеолекции (показ открытый, кроме 3 х часов времени никаких требований) • В. В. Воеводин Суперкомпьютеры и КПД паровоза http: //www. intuit. ru/video/70/ • В. К. Левин Суперкомпьютеры - этапы большого пути и перспективы http: //www. intuit. ru/video/72/ 30
Особенности момента • При решении конкретной задач есть минимальный объем вычислений на процессорное ядро, определяющий максимальное число используемых в расчете ядер • За счет многопроцессорности сложно сокращать время решения, но можно повышать сложность решаемых задач - оперирование большими объёмами данных 31
Дозвуковая аэродинамическая труба Т-104, ЦАГИ • • Скорость потока 10– 120 м/с Диаметр сопла 7 м Длина рабочей части 13 м Мощность вентилятора 28. 4 МВт http: //www. tsagi. ru/rus/base/t 104 Суперкомпьютер СКИФ МГУ «ЧЕБЫШЁВ» • Пиковая производительность 60 TFlop/s • Мощность комплекса 0. 72 МВт http: //parallel. ru/cluster/skif_msu. html 32
Малые размеры объекта изучения 33
Условия, отличные от натурных 34
Суперкомпьютеры • Анализ и обработка результатов натурного эксперимента – важная, требующая методов высокой точности, ниша для вычислительного эксперимента • Суперкомпьютер не просто составляет конкуренцию натурному эксперименту, но: – Необходим для его проведения – Позволяет делать то, что натурный эксперимент делать не позволяет: – Виртуальные ядерные испытания – прогнозирование климата, космология, изучение свойств вещества в экстремальных условиях – Синтез лекарств – Прогнозирование экстремальных событий (допуски на волны) 35
«… если подобное можно сделать, то это будет научный подвиг! « (Ландау) • 1948 г. , семинар у Игоря Васильевича Курчатова, вопрос о мощности взрыва. • Модель теоретического отдела Института физических проблем, под руководством академика Льва Давидовича Ландау, не допускающая аналитического решения. • Андрей Николаевич Тихонов предложил выполнить прямой численный расчёт. – Александр Андреевич Самарский – около тридцати девушек-вычислителей, выпускниц геодезического института. • 1949 г. , расхождение всего 30 %. • http: //www. pseudology. org/science/Samarsky. AA. htm 36
Суперкомпьютер «Ломоносов» пиковая производительность 414, 42 ТФлопс реальная производительность 350, 10 ТФлопс процессоры Intel EM 64 T Xeon X 55 xx (Nehalem-EP) 2930 МГц (11, 72 ГФлопс) число процессорных ядер 35 360 общий объем оперативной памяти 54 312 ГБ коммуникационная сеть Infiniband операционная система Linux 37
Суперкомпьютер МГУ “Ломоносов” (С)Вл. В. Воеводин
Суперкомпьютер МГУ “Ломоносов” Всего в системе 10 т гликоля и 40 т воды (С)Вл. В. Воеводин
Суперкомпьютер МГУ “Ломоносов” (С)Вл. В. Воеводин
Суперкомпьютер МГУ “Ломоносов” (С)Вл. В. Воеводин
Суперкомпьютер МГУ “Ломоносов” (С)Вл. В. Воеводин
Суперкомпьютер МГУ “Ломоносов” Вес оборудования машзала – 57 т, СБЭ – 92 т
Суперкомпьютер МГУ “Ломоносов” Общая длина кабелей более 80 км (С)Вл. В. Воеводин
Суперкомпьютер МГУ “Ломоносов”
• Т-Платформы: T-Blade 2 На 14 -слойной системной плате расположены – 4 четырехъядерных процессора Intel® Xeon 5500, – 4 трехканальных модуля памяти DDR 3 разработки «Т-Платформы» – интегрированные контроллеры системной сети QDR Infini. Band. 46
Суперкомпьютер МГУ “Ломоносов” Пиковая производительность Реальная производительность Эффективность Число вычислительных узлов Число процессорных ядер Типы вычислительных узлов Основной процессор Оперативная память Коммуникационная сеть Система хранения данных Операционная система Занимаемая площадь Энергопотребление вычислителя 420 Тфлопс 350 Тфлопс 83% 4 446 8 892 35 776 T-Blade 2, T-Blade 1. 1, Power. XCell 8 i Intel Xeon 5570, 2. 93 GHz 56, 5 ТБайт QDR Infiniband 1, 35 ПБайт Clusrtx T-Platforms Edition 252 м 2 1. 5 МВт (С)Вл. В. Воеводин
48
Kraken 49
50
Tianhe-1 A, Китай • Национальный суперкомпьютерный центр в Тяньжине, 2, 5 из 4. 7 петафлоп. • 7168 графических процессоров NVIDIA Tesla M 2050 и 14336 процессоров Intel Xeon, • Энергопотребление 4, 04 Мегаватт • Tianhe-1 A - система открытого доступа 51
Системы с неоднородным доступом к памяти (NUMA) SGI Altix UV (Ultra. Violoet) 1000 256 Intel® Xeon® 4 -, 6 - or 8 -core 7500 series (2048 cores) 16 TB памяти Interconnect Speed 15 ГБ/с, 1 мкс http: //www. sgi. com/products/servers/altix/uv/ Москва, 2010 г. Параллельное программирование с Open. MP: Введение © Бахтин В. А. 52
Скиф Аврора 24 TFLOPS http: //www. 3 dnews. ru/editorial/skif_aurora_chelyabinsk/index 2. htm Алексей Дрожжин СКИФ Аврора ЮУр. ГУ: суровый Челябинский суперкомпьютер 53
Россия в top 500 • • TOP 500: 12. Ломоносов (НИВЦ МГУ) 38. МВС-100 К (МСЦ РАН — Межведомственный Суперкомпьютерный Центр РАН) 107. СКИФ МГУ «Чебышёв» (НИВЦ МГУ) (37 -е место в июне 2008 года) 138. IBM Blade. Center HS 22 Cluster (банковский сектор) 181. IBM x. Series x 3650 M 2 Cluster (правительственный сектор) 320. HP Cluster Platform 3000 BL 460 c (РНЦ «Курчатовский институт» ) (118 -е место в ноябре 2008 года) 377– 382. IBM Blue Gene/P (факультет ВМК МГУ) (126– 130 -е место в ноябре 2008 года) 450. СКИФ-Аврора (ЮУр. ГУ — Южно-Уральский государственный университет) 55
56
57
58
top 500. org 59
Экзафлопсный барьер: проблемы и решения Виктор Горбунов, Леонид Эйсымонт Открытые системы : : Платформы, http: //www. osp. ru/os/2010/05/13003034/ 60
Архитектура CUDA «Fermi» • Более трех миллиардов транзисторов и 512 ядер CUDA • http: //itc. ua/articles/nvidia_geforce_gtx_480_chast_1_arhitektura_fermi_45158 61
Компьютеры с реконфигурируемой архитектурой (http: //fpga. parallel. ru)
МОДУЛЬ АЛЬКОР Число ПЛИС Vertex V, 11 млн. вентилей, шт. 16 Число элементарных процессоров 512 Объем памяти, Гбайт 2 Производительность, Гфлопс 200 Частота платы, МГц330 Частота информационных обменов, МГЦ 1200 Габариты, мм 6 U Потребляемая мощность 225 Вт 63
Суперкомпьютерный комплекс МГУ (суперкомпьютер с реконфигурируемой архитектурой) 5 стоек x 4 блока x 4 модуля = 1280 Xilinx Virtex-5, - (n Tflops) Энергопотребление – 30 КВт на всю систему, Разработчик – НИИ МВС ЮФУ, г. Таганрог.
Классы систем • • Распределенная память Двусторонние обмены Односторонние обмены Общая память – UMA – cc. NUMA – NUMA • Grid • Мультитредовые • ПЛИС 65
Упорядочить элементы массива • • O(n 2) O(n log n) O(? ) 66
Упорядочить элементы массива за 1 шаг 010 001 И ИЛИ
Якобовский М. В. проф. , д. ф. -м. н. , зав. сектором «Программного обеспечения многопроцессорных систем и вычислительных сетей» Института прикладной математики им. М. В. Келдыша Российской академии наук mail: lira@imamod. ru http: //lira. imamod. ru 68


