2 Статистика — это наука о

Скачать презентацию 2   Статистика — это наука о Скачать презентацию 2 Статистика — это наука о

data_mining_1.ppt

  • Размер: 1.8 Mегабайта
  • Количество слайдов: 16

Описание презентации 2 Статистика — это наука о по слайдам

2

 Статистика - это наука о методах сбора данных ,  их обработки и анализа для Статистика — это наука о методах сбора данных , их обработки и анализа для выявления закономерностей , присущих изучаемому явлению. Статистика оперирует данными , полученными в результате наблюдений либо экспериментов.

 Машинное обучение можно охарактеризовать как процесс получения программой новых знаний. Митчелл в 1996 году дал Машинное обучение можно охарактеризовать как процесс получения программой новых знаний. Митчелл в 1996 году дал такое определение: «Машинное обучение — это наука, которая изучает компьютерные алгоритмы, автоматически улучшающиеся во время работы».

Искусственный интеллект - научное направление,  в рамках которого ставятся и решаются задачи аппаратного или программногоИскусственный интеллект — научное направление, в рамках которого ставятся и решаются задачи аппаратного или программного моделирования видов человеческой деятельности, традиционно считающихся интеллектуальными. Искусственный интеллект толкуется как свойство автоматических систем брать на себя отдельные функции интеллекта человека.

 Статистика ◦ Более, чем Data Mining , базируется на теории. ◦ Более сосредотачивается на проверке Статистика ◦ Более, чем Data Mining , базируется на теории. ◦ Более сосредотачивается на проверке гипотез. Машинное обучение ◦ Более эвристично. ◦ Концентрируется на улучшении работы агентов обучения. Data Mining. ◦ Интеграция теории и эвристик. ◦ Сконцентрирована на едином процессе анализа данных , включает очистку данных , обучение, интеграцию и визуализацию результатов.

1960 -е гг. В 1968 году была введена в эксплуатацию первая промышленная СУБД система IMS фирмы1960 -е гг. В 1968 году была введена в эксплуатацию первая промышленная СУБД система IMS фирмы IBM. 1970 -е гг. В 1975 году появился первый стандарт ассоциации по языкам систем обработки данных — Conference on Data System Languages (CODASYL). 1980 -е гг. В 1985 году был создан язык, названный SQL. 1990 -е гг. Появились специфичные типы данных — «графический образ», «документ», «звук», «карта». Типы данных для времени, интервалов времени, символьных строк с двухбайтовым представлением символов были добавлены в язык SQL.

Возникновение и развитие Data Mining обусловлено различными факторами,  основными среди которых являются следующие:  совершенствованиеВозникновение и развитие Data Mining обусловлено различными факторами, основными среди которых являются следующие: совершенствование аппаратного и программного обеспечения; совершенствование технологий хранения и записи данных ; накопление большого количества ретроспективных данных ; совершенствование алгоритмов обработки информации.

Суть и цель технологии Data Mining можно охарактеризовать так:  это технология,  которая предназначена дляСуть и цель технологии Data Mining можно охарактеризовать так: это технология, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей. В основу технологии Data Mining положена концепция шаблонов (patterns), которые представляют собой закономерности, свойственные подвыборкам данных, кои могут быть выражены в форме, понятной человеку.

Business Intelligence - программные средства,  функционирующие в рамках предприятия и обеспечивающие функции доступа и анализаBusiness Intelligence — программные средства, функционирующие в рамках предприятия и обеспечивающие функции доступа и анализа информации, которая находится в хранилище данных, а также обеспечивающие принятие правильных и обоснованных управленческих решений. BI-системы также известны под названием Систем Поддержки Принятия Решений

 Gartner Group определяет состав рынка систем Business Intelligence как набор программных продуктов следующих классов: Gartner Group определяет состав рынка систем Business Intelligence как набор программных продуктов следующих классов: средства построения хранилищ данных (data warehousing, ХД); системы оперативной аналитической обработки (OLAP); информационно-аналитические системы (Enterprise Information Systems, EIS); средства интеллектуального анализа данных (data mining); инструменты для выполнения запросов и построения отчетов (query and reporting tools).

 Data Mining не может заменить аналитика.  Сложность разработки и эксплуатации приложения Data Mining. Data Mining не может заменить аналитика. Сложность разработки и эксплуатации приложения Data Mining. Квалификация пользователя. Извлечение полезных сведений невозможно без хорошего понимания сути данных. Сложность подготовки данных. Большой процент ложных, недостоверных или бессмысленных результатов. Высокая стоимость. Наличие достаточного количества репрезентативных данных.

 Большинство статистических методов для выявления взаимосвязей в данных используют концепцию усреднения по выборке,  приводящую Большинство статистических методов для выявления взаимосвязей в данных используют концепцию усреднения по выборке, приводящую к операциям над несуществующими величинами, тогда как Data Mining оперирует реальными значениями. OLAP больше подходит для понимания ретроспективных данных , Data Mining опирается на ретроспективные данные для получения ответов на вопросы о будущем.

 выделение типов предметных областей с соответствующими им эвристиками;  создание формальных языков и логических средств; выделение типов предметных областей с соответствующими им эвристиками; создание формальных языков и логических средств; создание методов Data Mining , способных не только извлекать из данных закономерности , но и формировать некие теории, опирающиеся на эмпирические данные ; преодоление существенного отставания возможностей инструментальных средств Data Mining от теоретических достижений в этой области.

Области,  где применения технологии Data Mining,  скорее всего,  будут успешными, имеют такие особенности:Области, где применения технологии Data Mining, скорее всего, будут успешными, имеют такие особенности: требуют решений, основанных на знаниях; имеют изменяющуюся окружающую среду; имеют доступные, достаточные и значимые данные; обеспечивают высокие дивиденды от правильных решений.

1. Data Mining  – это мираж,  отвлекающий внимание от классического анализа данных. 2. Data1. Data Mining – это мираж, отвлекающий внимание от классического анализа данных. 2. Data Mining как альтернатива традиционному подходу к анализу. 3. Возможность совместного использования современных достижений в области Data Mining и классическом статистическом анализе данных.