Искусственный интеллект-введение.pptx
- Количество слайдов: 64
СИСТЕМЫ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА 1
Интеллект (от лат. intellectus – понимание, познание) — способность к осуществлению процесса познания и к эффективному решению проблем, в частности при овладении новым кругом жизненных задач. — Общая способность к познанию и решению трудностей, которая объединяет все познавательные способности человека: • ощущение, • восприятие, • память, • представление, • мышление, • воображение Интеллект — это, прежде всего, основа целеполагания, планирования ресурсов и построение стратегии достижения цели 2
Интеллект как способность обычно реализуется при помощи других способностей. Таких как: • способности познавать, • обучаться, • мыслить логически, • систематизировать информацию путем её анализа, • определять её применимость (классифицировать), находить в ней связи, закономерности и отличия, • ассоциировать её с подобной и т. д 3
Интеллект у животных Есть основания полагать, что зачатками интеллекта обладают животные, и уже на этом уровне их интеллект посредством механизмов целеполагания и достижения целей влиял и влияет на эволюцию животных Изучением интеллекта животных занимается сравнительно молодая область науки, когнитивная этология Интеллект у животных - способность животного улавливать эмпирические законы, связывающие предметы и явления внешнего мира, и оперировать этими законами в новой для него ситуации для построения программы адаптивного поведенческого акта. 4
Искусственный интеллект можно определить как научную дисциплину, которая занимается моделированием разумного поведения. ПРОБЛЕМА: вряд ли кто-нибудь сможет дать интеллекту определение, достаточно конкретное для оценки предположительно разумной компьютерной программы и одновременно отражающее жизнеспособность и сложность человеческого разума. Большинство людей уверено, что смогут отличить «разумное поведение» , когда с ним столкнутся. 5
проблема определения искусственного интеллекта сводится к проблеме определения интеллекта вообще: • является ли он чем-то единым, или же этот термин объединяет набор разрозненных способностей? • В какой мере интеллект можно создать? • Что такое творчество? • Что такое интуиция? • Можно ли судить о наличии интеллекта только по наблюдаемому поведению? • Как представляются знания в нервных тканях живых существ, и как можно применить это в проектировании интеллектуальных устройств? • Возможно ли вообще достичь разумности посредством компьютерной техники, или же сущность интеллекта требует богатства чувств и опыта, присущего лишь биологическим существам? 6
проблема определения искусственного интеллекта сводится к проблеме определения интеллекта вообще: • является ли он чем-то единым, или же этот термин объединяет набор разрозненных способностей? Н А • В какой мере интеллект можно создать? • Что такое творчество? • Что такое интуиция? Т… Е ОВ ЕТ ОК П ТВ О Как представляются знания в нервных тканях живых существ, и как можно • Можно ли судить о наличии интеллекта только по наблюдаемому поведению? • применить это в проектировании интеллектуальных устройств? • Возможно ли вообще достичь разумности посредством компьютерной техники, или же сущность интеллекта требует богатства чувств и опыта, присущего лишь биологическим существам? 7
Хотя на эти вопросы ответа пока не найдено, но все они помогли сформировать задачи и методологию, составляющие основу современного искусственного интеллекта. Отчасти привлекательность искусственного интеллекта в том и состоит, что он является оригинальным и мощным оружием для исследования этих проблем. Искусственный интеллект предоставляет средство и испытательную модель для теорий интеллекта: эти теории могут быть сформулированы на языке компьютерных программ, а затем – испытаны. 8
ИСТОРИЯ ВОЗНИКНОВЕНИЯ История искусственного интеллекта начинается с момента создания первых ЭВМ в 40 -х г. г. С появлением электронных вычислительных машин, обладающих высокой (по меркам того времени) производительностью, стали возникать первые вопросы в области искусственного интеллекта: возможно ли создать машину, интеллектуальные возможности которой были бы тождественны интеллектуальным возможностям человека (или даже превосходили возможности человека). ? 9
Тест Тьюринга и интуитивный подход Алан Тьюринг, 1950 г. Статья «Вычислительные машины и разум» Цель теста - определение возможности искусственного мышления, близкого к человеческому «Человек взаимодействует с одним компьютером и одним человеком. На основании ответов на вопросы он должен определить, с кем он разговаривает: с человеком или компьютерной программой. Задача компьютерной программы — ввести человека в заблуждение, заставив сделать неверный выбор» . Все участники теста не видят друга. 10
60 -е годы попытки отыскать общие методы решения широкого класса задач, моделируя сложный процесс мышления. Разработка универсальных программ оказалась слишком трудным и бесплодным делом. Чем шире класс задач, которые может решать одна программа, тем беднее оказываются ее возможности при решении конкретной проблемы начало зарождения эвристического программирования. 11
70 -е годы - существенный прорыв. на смену поискам универсального алгоритма мышления пришла идея моделировать конкретные знания специалистовэкспертов. появились первые коммерческие системы, основанные на знаниях, или экспертные системы (в США). Пришел новый подход к решению задач искусственного интеллекта – представление знаний. Созданы «MYCIN» и «DENDRAL» – ставшие уже классическими экспертные системы для медицины и химии. Обе эти системы в определенном смысле можно назвать диагностическими, поскольку в первом случае ( «MYCIN» ) по ряду симптомов (признаков патологии организма) определяется болезнь (ставится диагноз), во втором – по ряду свойств определяется химическое соединение. 12
80 -е годы - второе рождение искусственного интеллекта Были широко осознаны его большие потенциальные возможности И. И. , как в исследованиях, так и в развитии производства. Появились первые коммерческие программные продукты. Стала развиваться область машинного обучения. (До этих пор перенесение знаний специалиста-эксперта в машинную программу было утомительной и долгой процедурой. ) Создание систем, автоматически улучшающих и расширяющих свой запас эвристических (не формальных, основанных на интуитивных соображениях) правил 13
Сегодня: «Дискуссии на тему «Может ли машина мыслить? » уже давно сошли со страниц газет и журналов. Скептики устали ждать, когда же сбудутся обещания энтузиастов. А энтузиасты без лишних разговоров, небольшими шагами продолжают двигаться в направлении горизонта, за которым они надеются увидеть искусственного собрата по разуму» . 14
ПРЕДПОСЫЛКИ ВОЗНИКНОВЕНИЯ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА Философия (период с 428 года до н. э. по настоящее время) Аристотель (384 -322 годы до н. э. ) Разработал точный свод законов, руководящих рациональной частью мышления, которые позволяли любому вырабатывать логические заключения механически, при наличии начальных предпосылок. Томас Гоббс (1588 -1679) предположил, что рассуждения аналогичны числовым расчетам и что «в наших неслышимых мыслях мы поневоле складываем и вычитаем» . (В то время автоматизация самих вычислений уже шла полным ходом) Леонардо да Винчи (1452 -1519) спроектировал, но не построил механический калькулятор; недавно проведенная реконструкция показала, что его проект является работоспособным. 15
В 1623 году Вильгельмом Шиккардом (1592 -1635) была создана первая известная вычислительная машина (В 1642 году Блезом Паскалем (1623 -1662)) Вильгельм Лейбниц (1646 -1716) создал механическое устройство, предназначенное для выполнения операций над понятиями, а не над числами следующий этап - разум стал рассматриваться как физическая система. Заключительным элементом в картине философских исследований проблемы разума является связь между знаниями и действиями 16
Математика (период примерно с 800 года по настоящее время) Пьер Ферма (1601 -1665), Блез Паскаль (1623 -1662), Джеймс Бернулли (1654 -1705), Пьер Лаплас (1749 -1827) и другие ученые Возникновение и развитие теории вероятностей и статистических методов Томас Байес (1702 -1761) предложил правило обновления вероятностей с учетом новых фактов. Правило Байеса и возникшее на его основе научное направление, называемое байесовским анализом, лежат в основе большинства современных подходов к проведению рассуждений с учетом неопределенности в системах искусственного интеллекта. 17
Экономика (период с 1776 года по настоящее время) Работы в области экономики оказали большое влияние на формулирование понятий рациональных агентов, но в течение многих лет исследования в области искусственного интеллекта проводились совсем по другим направлениям. Одной из причин этого была кажущаяся сложность задачи выработки рациональных решений. Тем не менее, Герберт Саймон (1916 -2001) в некоторых из своих ранних работ показал, что лучшее описание фактического поведения человека дают модели, основанные на принятии решений, а не модели, предусматривающие трудоемкий расчет оптимального решения. Герберт Саймон стал одним из первых исследователей в области искусственного интеллекта, получившим Нобелевскую премию по экономике в 1978 году. 18
Неврология (период с 1861 года по настоящее время) Одной из величайших загадок, не поддающихся научному описанию, остается определение того, как именно мозг обеспечивает мышление. Понимание того, что мышление каким-то образом связано с мозгом, существовало в течение тысяч лет, поскольку люди обнаружили, что сильные удары по голове широкое признание того, что мозг могут привести к умственному расстройству. является вместилищем сознания, произошло только в середине XVIII мозг состоит из нервных клеток, столетия. До этого в качестве или нейронов, но только в 1873 возможных источников сознания году Камилл о Гольджи (1843 рассматривались сердце, 1926) сумел разработать селезенка и шишковидная железа надежный метод, позволяющий (эпифиз). наблюдать за отдельными нейронами в мозгу. Теперь ученые располагают некоторыми данными о том, как связаны между собой отдельные области мозга и те части тела, которыми они управляют или от 19 которых получают сенсорные данные.
Вычислительная техника (период с 1940 года по настоящее время). Для успешного создания искусственного интеллекта требуется, во-первых, интеллект и, во-вторых, компьютер. Первым программируемым устройством был ткацкий станок, изобретенный в 1805 году Жозефом Марией Жаккардом (1752 -1834), в котором использовались перфокарты для хранения инструкций по плетению узоров ткани. Чарльз Бэббидж (1792 -1871) разработал две машины, но ни одну из них не успел закончить. Его «разностная машина» предназначалась для вычисления математических таблиц, используемых в инженерных и научных проектах. Другой замысел Бэббиджа, проект «аналитической машины» , был гораздо более амбициозным: в этой машине предусмотрено использование адресуемой памяти, хранимых программ и условных переходов, и она была первым артефактом, способным выполнять универсальные вычисления. 20
Коллега Бэббиджа Ада Лавлейс, дочь поэта Лорда Байрона, была, возможно, первым в мире программистом. В ее честь назван язык программирования Ada. Она писала программы для незаконченной аналитической машины и даже размышляла над тем, что эта машина сможет играть в шахматы или сочинять музыку. Современный цифровой электронный компьютер был изобретен независимо и почти одновременно учеными трех стран, участвующих во Второй мировой войне. Искусственный интеллект во многом обязан также тем направлениям компьютерных наук, которые касаются программного обеспечения, поскольку именно в рамках этих направлений создаются операционные системы, языки программирования и инструментальные средства, необходимые для написания современных программ. 21
Теория управления и кибернетика (период с 1948 года по настоящее время). Первое самоуправляемое устройство было построено Ктесибием из Александрии (примерно в 250 году до н. э. ); это были водяные часы с регулятором, который поддерживал поток воды, текущий через эти часы с постоянным, предсказуемым расходом термостат, изобретенный Корнелисом Дреббелем (1572 -1633) регулятор паровой машины, созданный Джеймсом Уаттом (1736 -1819), Математическая теория устойчивых систем с обратной связью была разработана в XIX веке. Норберт Винер (1894 -1964). Теория управления, определение кибернетики как науки 22
Предметом современной теории управления, особенно той ветви, которая получила название стохастического оптимального управления, является проектирование систем, которые максимизируют целевую функцию во времени. Это примерно соответствует представлению об искусственном интеллекте как о проектировании систем, которые действуют оптимальным образом. 23
Лингвистика (период с 1957 года по настоящее время). Хомский показал, что бихевиористская теория (направление в американской психологии ХХ в. , отрицающее сознание как предмет научного исследования и сводящее психику к различным формам поведения, понятого как совокупность реакций организма на стимулы внешней среды) не позволяет понять истоки творческой деятельности, осуществляемой с помощью языка, – она не объясняет, почему ребенок способен понимать и складывать предложения, которые он до сих пор никогда еще не слышал. Теория Хомского, основанная на синтаксических моделях, восходящих к работам древнеиндийского лингвиста Панини (примерно 350 год до н. э. ), позволяла объяснить этот феномен, и, в отличие от предыдущих теорий, оказалась достаточно формальной для того, чтобы ее можно было реализовать в виде программ. современная лингвистика и искусственный интеллект, которые «родились» примерно в одно и то же время и продолжают вместе расти, пересекаются в гибридной области, называемой вычислительной лингвистикой или обработкой естественного языка 24
Искусственный интеллект и ведение игр Поиск – это метод решения проблемы, в котором систематически просматривается пространство состояний задачи. Примеры состояний задачи: различные размещения фигур на доске в шахматах или же промежуточные шаги логического обоснования. Затем в этом пространстве альтернативных решений производится перебор в поисках окончательного ответа. Программы ведения игр, несмотря на их простоту, ставят перед исследователями новые вопросы, включая вариант, при котором ходы противника невозможно детерминировано предугадать. Наличие противника усложняет структуру программы, добавляя в нее элемент непредсказуемости и потребность уделять внимание психологическим и тактическим факторам игровой стратегии. 25
Понимание естественных языков и семантическое моделирование Одной из долгосрочных целей искусственного интеллекта является создание программ, способных понимать человеческий язык и строить фразы на нем. трудности в разговоре о футболе с человеком, который ничего не знает об игре, правилах, ее истории и игроках. Способен ли такой человек понять смысл фразы: В центре Иванов перехватил верхнюю передачу – мяч полетел к штрафной соперника, там за него на «втором этаже» поборолись Петров и Сидоров, после чего был сделан пас на Васина в штрафную, который из-под защитника подъемом пробил точно в дальний угол. Хотя каждое отдельное слово в этом предложении можно понять, фраза звучит полной тарабарщиной для человека не увлекающегося футболом. 26
Машинное обучение Важность машинного обучения велика, поскольку эта способность является одной из главных составляющих разумного поведения. Например, экспертная система может выполнять долгие и трудоемкие вычисления для решения проблем. Но, в отличие от человеческих существ, если дать ей такую же или подобную проблему второй раз, она не «вспомнит» решение. Она каждый раз вновь будет выполнять те же вычисления – едва ли это похоже на разумное поведение. Большинство экспертных систем ограничены негибкостью их стратегий принятия решений и трудностью модификации больших объемов кода. Очевидное решение этих проблем – заставить программы учиться самим на опыте, аналогиях или примерах. 27
Что такое машинное обучение (machine learning)? Машинное обучение — процесс, в результате которого машина (компьютер) способна показывать поведение, которое в нее не было явно заложено (запрограммировано) A. L. Samuel Some Studies in Machine Learning Using the Game of Checkers// IBM Journal. July 1959. P. 210– 229. Говорят, что компьютерная программа обучается на основе опыта E по отношению к некоторому классу задач T и меры качества P, если качество решения задач из T, измеренное на основе P, улучшается с приобретением опыта E. T. M. Mitchell Machine Learning. Mc. Graw-Hill, 1997. • На практике фаза обучения может предшествовать фазе работы алгоритма (например, детектирование лиц на фотокамере) • или обучение (и дополнительное обучение) может проходить в процессе функционирования алгоритма (например, определение спама). 28
Сферы приложения • Компьютерное зрение • Распознавание речи • Компьютерная лингвистика и обработка естественных языков • Медицинская диагностика • Биоинформатика • Техническая диагностика • Финансовые приложения • Поиск и рубрикация текстов • Интеллектуальные игры • Экспертные системы • . . . 29
Смежные области Pattern Recognition (распознавание образов) Data Mining (интеллектуальный анализ данных) Artificial Intelligence (искусственный интеллект) 30
Что нужно знать? • Линейная алгебра • Теория вероятностей и математическая статистика • Методы оптимизации • Численные методы • Математический анализ • Дискретная математика • И др. 31
Типы задач машинного обучения • Обучение с учителем (классификация, регрессия и др. ) • Обучение без учителя (кластеризация, визуализация данных, понижение размерности и др. ) • Обучение с подкреплением (reinforcement learning) • Активное обучение • . . . 32
Обучение с учителем Множество X — объекты, примеры, ситуации, входы (samples) Множество Y — ответы, отклики, «метки» , выходы (responses) Имеется некоторая зависимость (детерминированная или вероятностная), позволяющая по x ∈ X предсказать y ∈ Y. т. е. если зависимость детерминированная, существует функция f∗ : X → Y. Зависимость известна только на объектах из обучающей выборки: {(x 1, y 1), (x 2, y 2), . . . , (x. N, y. N)} Пара (xi, yi) ∈ X × Y — прецедент. Задача обучения с учителем: восстановить (аппроксимировать) зависимость, т. е. построить функцию (решающее правило) f : X → Y , по новым объектам x ∈ X предсказывающую y ∈ Y : y = f(x) ≈ f∗(x). 33
Признаковые описания Вход: x = (1, 2, . . . , d) ∈ X = Q 1 × Q 2 ×. . . × Qd, где Qj = R или Qj — конечно j— j-й признак (свойство, атрибут) объекта x. • Если Qj конечно, то j-й признак — номинальный (категориальный или фактор). Если |Qj| = 2, то признак бинарный и можно считать, например, Qj = {0, 1}. • Если Qj конечно и упорядочено, то признак порядковый. Например, Q = {холодно, прохладно, тепло, жарко} • Если Qj = R, то признак количественный. Выход: y ∈ Y • Y = R — задача восстановления регрессии • Y = {1, 2, . . . , K} — задача классификации. 34
РЕГРЕССИЯ Стоимость дома (Portland, OR) 500 400 300 стоимость 200 (in 1000 s 100 of dollars) 0 0 500 1000 1500 2000 2500 3000 Площадь (feet 2) Обучение с учителем Задача регрессии Дается “правильный ответ” на каждый пример. Предсказывает вещественное значение на выходе 35
КЛАССИФИКАЦИЯ Пример: Медицинская диагностика Имеются данные о 114 лицах с заболеванием щитовидной железы. У 61 — повышенный уровень свободного гормона T 4, у 53 — уровень гормона в норме. Для каждого пациента известны следующие показатели: • heart — частота сердечных сокращений (пульс), • SDNN — стандартное отклонение длительности интервалов между синусовыми сокращениями RR. Можно ли научиться предсказывать (допуская небольшие ошибки) уровень свободного Т 4 по heart и SDNN? 36
37
38
Ошибка на обучающей выборке — 23%. Можно ли было ошибку на обучающей выборке сделать меньше? Конечно! Но это вовсе не означает, что мы будем лучше классифицировать новые объекты. Итак, малая ошибка на данных, по которым построено решающее правило, не гарантирует, что ошибка на новых объектах также будет малой. Обобщающая способность (качество) решающего правила — это способность решающего правила правильно предсказывать выход для новых объектов, не вошедших в обучающую выборку. Переобучение — решающее правило хорошо решает задачу на обучающей выборке, но имеет плохую обобщающую способность. 39
Пример 2. Распознавание рукописных символов (цифр) Научиться распознавать рукописный символ по его изображению. Изображение — битовая матрица размера 32 × 32: x ∈ X = {0, 1}32× 32 = {0, 1}1024 Y = {0, 1, 2, . . . , 9} Это задача классификации. 40
41
Проблема построения признакового описания. В задаче распознавания символов можно использовать признаковое описание на основе анализа контура изображения. В примере letter-recognition http: //www. ics. uci. edu/~mlearn/MLRepository. html распознавания печатных заглавных букв (26 классов) для кодирования изображений используется другой подход. 42
43
Зависимость роста взрослого ребенка от роста родителей в исследовании Ф. Гальтона 44
45
Некоторые методы обучения с учителем • Линейный метод наименьших квадратов • Линейный и квадратичный дискриминантный анализ • Логистическая регрессия • Метод k ближайших соседей • Наивный байесовский классификатор • Деревья решений (C 4. 5, CART и др. ) • Персептрон и нейронные сети • Машина опорных векторов (SVM) • Ансамбли решающих правил (бустинг, баггинг и т. п. ) • . . . 46
Машина опорных векторов Support Vector Machine (SVM) Машина опорных векторов (support vector machine) — один из методов построения решающего правила. Основы метода (оптимальная разделяющая гиперпслоскость) предложены В. Н. Вапником и А. Я. Червоненкисом в 1974. Современные очертания (использование ядер) метод принял в начале 90 -х гг. (В. Н. Вапник и др. ) 47
48
49
50
Оптимальная разделяющая гиперплоскость — это гиперплоскость, разделяющая объекты двух классов, такая, что расстояние от нее до ближайшей точки (из каждого класса) максимально. Т. е. оптимальная разделяющая гиперплоскость лежит в центре разделяющей полосы и толщина этой полосы максимальна. Она максимизирует зазор (margin) между плоскостью и данными из обучающей выборки — это приводит, как правило, к хорошим результатам и на тестовых данных. 51
52
Деревья решений Пространство признаков разбивается на параллелепипеды со сторонами, параллельными осям координат (ящики). В каждом ящике ответ аппроксимируется с помощью некоторой простой модели, например, константой. Используются только рекурсивные гильотинные разбиения. 53
54
Достоинства и недостатки деревьев решений Достоинства: • Поддерживают работу с входными переменными разных (смешанных) типов • Возможность обрабатывать данные с пропущенными значениями • Устойчивы к выбросам • Нечувствительность к монотонным преобразованиям входных переменных • Поддерживают работу с большими выборками • Возможность интерпретации построенного решающего правила Основной недостаток — плохая предсказательная (обобщающая) способность. 55
Обучение без учителя: кластеризация Извержения гейзера Рассмотрим данные о времени между извержениями и длительностью извержения гейзера Old Faithful geyser in Yellowstone National Park, Wyoming, USA (А. Azzalini, A. W. Bowman A look at some data on the Old Faithful geyser // Applied Statistics. 1990, 39. P. 357 -– 365. ) 56
Мы видим, что точки группируются в два кластера. В одном кластере находятся точки, соответствующие извержениям с малой длительностью и малым временем ожидания. В другом — с большой длительностью и большим временем ожидания. 57
58
Анализ данных, полученных с биочипов Биочип, или микроэррэй, (biochip, microarray) — это миниатюрный прибор, измеряющий уровень экспрессии генов в имеющемся материале. Экспрессия — это процесс перезаписи информации с гена на РНК, а затем на белок. Количество и даже свойства получаемого белка зависят не только от гена, но также и от различных внешних факторов (например, от введенного лекарства). Таким образом, уровень экспрессии — это мера количества генерируемого белка (и скорости его генерирования). На биочип кроме исследуемого материала помещается также ≪контрольный≫ генетический материал. Положительные значения (красный цвет) — увеличение уровня экспрессии по сравнению с контрольным. Отрицательные значения (зеленый цвет) — уменьшение. 59
Условное изображение биочипа. Каждая точка на рисунке соответствует определенному гену. Всего анализируется 132 × 72 = 9504 гена. Brown, V. M. , Ossadtchi, A. , Khan, A. H. , Yee, S. , Lacan, G. , Melega, W. P. , Cherry, S. R. , Leahy, R. M. , and Smith, D. J. ; Multiplex three dimensional brain gene expression mapping in a mouse model of Parkinson’s disease; Genome Research 12(6): 868 -884 (2002). 60
Genes Данные для 60 экспериментов с биочипом http: //discover. nci. nih. gov/datasets. Nature 2000. jsp Строки соответсвуют экспериментам, столбцы —генам. Приведены только первые 100 строк (из общего числа 1375). Строки, содержащие отсутствующие значения, исключены. Individuals 61
Поставим следующие задачи: (а) Найти гены, показавшие высокую экспрессию, в заданных экспериментах. т. е. найти наиболее красные клетки в заданных столбцах. (б) Разбить гены на группы в зависимости от влияния на них экспериментов. Гены, реагирующие ≪почти одинаковым≫ образом в ≪б эспериментов, должны попасть в одну группу. Гены, реагирующие по-разному, должны находиться в разных группах. т. е. разбить столбцы на группы (кластеры) ≪похожих≫ между собой строк (в) Разбить эксперименты на группы в зависимости от их влияния на гены. Эксперименты, в которых одинаковые гены реагировали ≪сходным≫ образом должны оказаться в одной группе. Эксперименты, в которых гены реагировали ≪различно≫, должны находиться в разных группы (кластеры) ≪похожих≫ между собой строк Задачи (б) и (в) — это задачи кластерного анализа. 62
Компьютерные кластеры Анализ социальных сетей Image credit: NASA/JPL-Caltech/E. Churchwell (Univ. of Wisconsin, Madison) Сегментация рынка Анализ астрономических данных 63
ВОПРОС: Какие из нижеперечисленных задач вы отнесёте к задачам обучения без учителя? 1) Дано некоторое количество электронных писем, помеченных СПАМ/НЕ СПАМ (обучение СПАМ-фильтра) 2) Дано некоторое количество новых статей, которые надо сгруппировать по схожим темам 3) По базе данных покупателей необходимо автоматически сформировать сегменты рынка и распределить по ним покупателей 4) По данным о пациентах, диагностирующих их как имеющих или не имеющих диабет, определить наличие диабета у вновь пришедшего пациента 64