лекция_1 2013 для студентов.pptx
- Количество слайдов: 22
Количественные методы исследований (SPSS) DATA ANALYSIS Введение
Структура лекции 1. Концептуальные основы: математическая статистика 2. Анализ данных 3. СППР 4. Методы анализа данных 5. Программные продукты анализа данных 6. Информационное обеспечение курса
Концептуальные основы: Главная задача любого исследования – отыскание связи явлений, выраженной по возможности в количественной форме. Функциональная связь X Y Статистическая связь X Y
Вводная часть. Концептуальные основы: Общая теория статистики • Теория статистики фокусируется на принятии решений при наличии случайных и непредсказуемых воздействий • Разделы статистики: Ø Общая теория статистики (ядро – математическая статистика) Ø Статистика по отраслям деятельности Ø Прикладная статистика (бизнес-статистика, анализ данных, DATA ANALYSIS) • Широкое внедрение методов анализа данных 60 -80 -е годы ХХ века
Анализ данных • Анализ ( из древнегреч. ) – разделение или мысленное расчленение объекта или явления на части или составляющие его элементы. • Данные (лат. DATA) – совокупность фактов, выраженных в формализованном (машиночитаемом) виде, обеспечивающем возможность их хранения, обработки или передачи. • Анализ данных – процедура обнаружения в имеющейся информации скрытых закономерностей и взаимосвязей.
Информация Место анализа данных в познавательном процессе Данные (упорядоченная формализованная информация) Анализ (обработка) данных Знания
Место анализа данных в процессе принятия решений Сбор информации Анализ информации Разработка вариантов действий (альтернатив) Выбор оптимальной альтернативы
Задачи систем поддержки принятия решений –СППР (DSS, Decision Support System) 1) Ввод данных 2) Хранение данных 3) Анализ данных Выделяют 3 класса задач анализа: q Информационно-поисковый; q Оперативно-аналитический q Интеллектуальный
Обобщенная архитектура СППР
Базы данных – основа СППР База данных – модель некоторой предметной области, состоящей из связанных между собой данных об объектах, их свойствах и характеристиках. Средства для работы с БД представляют системы управления базами данных - СУБД – инструмент для разработки прикладных программ, использующих БД.
Хранилище данных – предметноориентированный, интегрированный, неизменчивый, поддерживающий хронологию набор данных, организованный для целей поддержки принятия решений [1992, У. Инмон «Построение хранилищ данных» ]. Основная идея – разделение данных для оперативной обработки и для решения задач анализа.
OLAP - системы Оперативный многомерный анализ корпоративных данных (On-Line Analytical Processing)
OLAP – системы OLAP- технология оперативной аналитической обработки данных, использующая методы и средства для сбора, хранения и анализа многомерных данных в целях поддержки принятия решений [1993 г. , Э. Кодд].
Интеллектуальный анализ данных DATA MANING – исследование и обнаружение «машиной» (алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации человеком. В DATA MANING для представления полученных знаний служат модели. Виды моделей зависят от методов их создания. Наиболее распространенные: правила, деревья решений, кластеры и математические функции.
DATA MANING Задачи 1. Классификация 2. Регрессия 3. Поиск ассоциативных правил 4. Кластеризация По назначению задачи делят на • описательные (descriptive) • предсказательные (predictive) По способам решения: § Обучение с учителем (supervised learning) § Обучение без учителя (unsupervised learning)
Методы DATA MANING • Базовые методы: статистические и методы, основанные на переборе (эвристические методы ограниченного перебора); • Нечеткая логика; • Генетические алгоритмы; • Нейронные сети; • Визуализация данных
Резюме Анализ данных – это прикладная научная дисциплина, представляющая собой систему взаимосвязанных методов и технологий обработки исходной стохастической информации (полученной из наблюдений, экспериментов, опросов, статистических отчетов, существующих баз данных, компьютерных систем управления различными сферами деятельности и т. п. ) с целью выявления (подтверждения, уточнения) скрытых закономерностей определенной предметной области для принятия управленческих решений.
Средства DATA MANING www. kdnuggets. com Классификация по типу реализации: q входящие как неотъемлемая часть в системы управления базами данных; q Библиотеки алгоритмов DATA MANING с сопутствующей инфраструктурой; q Коробочные или настольные решения ( «черные ящики» )
Рекомендации по изучению курса 1. Читать популярные (рассчитанные на прикладных специалистов) книги по анализу данных. Например, q Наследов А. SPSS 19: профессиональный статистический анализ данных. –Спб. : Питер, 2011. -400 с. q Урубков А. Р. Статистические методы и модели в бизнесе: учеб. Пособие. - М. : Издательский дом «Дело» РАНХи. ГС, 2011. -324 с. 2. Читать документацию статистических пакетов. 3. Практически применять в ходе изучения математической статистики и анализа данных статистические пакеты. Пользоваться их подсказками.
Структура курса Три части: 1. Введение в анализ данных; 2. Методы обработки и анализа статистической информации и построения на ее основе математических моделей наиболее часто используемых на практике; 3. Статистическая обработка данных на компьютере в ППП
Рассматриваемые методы и приемы позволят Вам ответить на следующие вопросы: • Как извлечь полезную информацию из имеющегося статистического материала – статистических данных, накопленных по результатам собственной предшествующей деятельности или деятельности аналогичных объектов? • Как выявить основные закономерности и особенности, присущие исследуемому объекту, рынку, бизнесу, исходя из накопленной статистики? • Как выявить факторы, влияющие на исследуемые экономические показатели, и количественно оценить это влияние? • Как построить модели, связывающие между собой исследуемые характеристики и влияющие на них факторы? • Как оценить точность и достоверность моделей и получаемых на их основе выводов и заключений?


