Интеллектуальный анализ данных

Аннотация

Повсеместное использование компьютеров дало толчок активному развитию технологии интеллектуального анализа данных (data mining), появление которой связано с необходимостью обработки больших объемов информации, накапливаемой в современных хранилищах данных, и поиска новых знаний или закономерностей, неподдающихся обнаружению стандартными методами обработки информации или экспертным путем. Возможность использования хорошо известных методов математической статистики, машинного обучения, распознавания образов, теории баз данных для решения задач подобного рода открыло новые возможности перед аналитиками, исследователями и инженерами в различных сферах человеческой деятельности. Практические задачи обработки больших данных состоят в реализации вычислительных систем или комплексов, программируемых систем управления и анализа данных больших и сверхбольших объемов. Сложность и разнообразие технологий обработки больших данных требуют знания методов интеллектуального анализа данных для решения типовых задач анализа информации.

Курс основан на материалах лекций и лабораторных работ дисциплин «Интеллектуальный анализ данных» и «Анализ больших данных», читаемых для студентов факультет радиофизики и компьютерных технологий БГУ 1 и 2ой ступеней высшего образования с 2011 г. по настоящее время.

Что будет изучаться

Детализированная программа курса находится по ссылке. Программа включает 8 разделов, на которые отводится 12 лекций (по 2 часа) и 10 практических занятий (по 4 часа). Успешное овладение дисциплиной предполагает также также самостоятельную работу. Разделы курса:

  • Основные понятия дисциплины.
  • Методы снижения размерности данных (главных компонент и координат, факторный анализ).
  • Методы кластерного анализа (иерархические, k-средних, Fuzzy k-средних, k-медоидов, PAMk, CLARA, DBSCAN и спектральный).
  • Методы классификации (k-ближайших соседей, байесовских сетей, опорных векторов, построения деревьев решений – ID3, покрытия, Conditional Inference Tree, CART, Random Forests, а также методы V-кратного перекрестного контроля и bootstrap).
  • Нейронные сети (алгоритмы обучения Хебба, адаптивный и обратного распространения ошибки, нейронные сети Кохонена и глубокого обучения).
  • Стохастические методы поиска (простого стохастического и случайного поиска, Метрополиса, имитации отжига и генетические алгоритмы).
  • Ассоциативные правила (алгоритмы Apriori и FPG).
  • Методы визуализации данных и схема процесса интеллектуального анализа данных.

Требования к слушателям

Слушатели курса должны изучить учебные дисциплины:

  • Линейная алгебра
  • Математическая статистика
  • Программирование на R

Обучающие материалы курса

  • Авторские лекции
  • Лабораторные работы, сопровождаемые авторскими методическими указаниями к лабораторным работам (по вариантам)
  • Электронные тесты по материалам курса (тестирование)
  • Форум для обсуждения вопросов курса (онлайн ресурс)
  • Консультации преподавателей курса (чаты и электронные сообщения)

В чем отличие курса от существующих аналогов?

Курс охватывает основные группы алгоритмов интеллектуального анализа данных в авторской разработке учебных материалов преподавателей, имеющих 20 летний опыт работы в области анализа данных и проведения указанного курса в БГУ с 2011 г. в ходе обучения более 2000 студентов (БГУ занимает 351 место в Шанхайском рейтинге ВУЗов по физике). Предлагаются материалы лекций и лабораторных работ, а также индивидуальные задания по вариантам, разработанные с учетом опыта проведения подобных курсов в ведущих университетах мира. Преподаватели курса прошли стажировки в Университетах Вагенингена (Нидерланды), Берна (Швейцария) и Люксембурга (Люксембург).

Слушателям разъясняются математические основы методов интеллектуального анализа данных на уровне, позволяющем разрабатывать программные реализации алгоритмов на языке R и решать практические задачи. В большинстве существующих курсов слушателям предлагается осваивать работу библиотек методов в виде черного ящика. В результате чего у слушателя формируется поверхностное восприятие применяемого метода и неглубокое понимание результатов анализа, что существенно затрудняет получение достоверных выводов при решении прикладных задач.

Преподаватели

Яцков Н.Н.

Кандидат физико-математических наук, доцент кафедры системного анализа и компьютерного моделирования Белорусского государственного университета.

Телефон рабочий: +375 (17) 326-02-22
E-mail: yatskou@bsu.by

Гостевые лекторы

Назаров П.В.

Приглашенный лектор, PhD, Кандидат физико-математических наук, глава подразделения по биоинформатике Люксембургского института здоровья.

Телефон рабочий: +352 26970-385
E-mail: Petr.Nazarov@lih.lu

Зачисление на курс

Зачисление на курс проводится по итогам собеседования. Ключевым фактором отбора является собственная мотивация абитуриента.

Окончание курса

Для получения сертификата обучающийся должен успешно справиться со всеми заданиями практических занятий, а также заданиями, предназначенными для самостоятельной работы.

Контакты

Яцков Николай Николаевич

Тел.: +375 17 326 7042
Email: yatskou@bsu.by