На сайте Интернет-Университета Информационных Технологий (НОУ «ИНТУИТ») в свободном доступе появился новый курс «Интеллектуальный анализ данных средствами MS SQL Server 2008». В курсе рассматриваются все алгоритмы DM, в настоящее время поддерживаемые Microsoft SQL Server 2008, надстройки интеллектуального анализа данных для Microsoft Office, основы языка DMX. Ссылка на курс: http://www.intuit.ru/department/database/dmtms2008/. Материалы курса состоят из 32-х лекций и лабораторных работ.
Разделы курса.
1. Интеллектуальный анализ данных: базовые понятия
В лекции рассматривается понятие «интеллектуальный анализ данных», описываются основные задачи интеллектуального анализа и приводятся примеры использования в разных отраслях деятельности.
2. Интеллектуальный анализ данных в СУБД MicrosoftSQLServer
В лекции рассматривается архитектура СУБД Microsoft SQL Server, место занимаемое в ней аналитическими службами, а также способы их взаимодействия с внешними приложениями. Приводится перечень алгоритмов интеллектуального анализа, входящих в поставку SQL Server 2008 и описываются имеющиеся различия между версиями СУБД.
3. Этапы проведения интеллектуального анализа данных
В лекции рассматривается предлагаемая Майкрософт последовательность этапов решения задачи интеллектуального анализа данных.
4. Надстройки интеллектуального анализа данных для MicrosoftOffice
В ходе данной лабораторной работы будет рассмотрен процесс установки пакета надстроек интеллектуального анализа данных для MicrosoftOffice 2007 и начального конфигурирования MicrosoftSQLServer 2008 (2008 R2).
5. Использованиеинструментов «AnalyzeKeyInfluencers» и «DetectCategories»
В ходе данной лабораторной работы рассмотрено использование инструментов «Анализ ключевых факторов влияния» («AnalyzeKeyInfluencers») и «Обнаружение категорий» («DetectCategories»), относящихся к компоненту «Средства анализа таблиц для Excel» пакета надстроек интеллектуального анализа данных для MicrosoftOffice 2007.
6. Использование инструментов «FillFromExample» и «Forecast»
В данной лабораторной работе рассмотрено использование инструментов «Заполнение по примеру» («FillFromExample») и «Прогноз» («Forecast»), относящихся к компоненту «Средства анализа таблиц для Excel» пакета надстроек интеллектуального анализа данных для MicrosoftOffice 2007.
7. Использование инструментов «HighlightExceptions» и «ScenarioAnalysis»
Лабораторная работа посвящена использованию инструментов «Выделение исключений» («HighlightExceptions») и «Анализ сценариев» («ScenarioAnalysis»).
8.Использование инструментов «Prediction Calculator» и «ShoppingbasketAnalysis»
Лабораторная работа посвящена использованию инструментов «Расчет прогноза» («PredictionCalculator») и «Анализпокупательской корзины» («ShoppingBasketAnalysis»).
9.Краткий обзор алгоритмов интеллектуального анализа данных. Упрощенный алгоритм Байеса. Деревья решений. Линейная регрессия
В лекции приводится обзор трех алгоритмов интеллектуального анализа данных, входящих в поставку SQL Server 2008. Это упрощенный алгоритм Байеса, алгоритмы деревьев решений и линейной регрессии. При выборе алгоритма линейной регрессии, СУБД вызывает особый вариант алгоритма дерева решений.
10. Краткий обзор алгоритмов интеллектуального анализа данных. Алгоритмы временных рядов и кластеризации
Данная лекция посвящена рассмотрению двух классов алгоритмов интеллектуального анализа данных – алгоритмов временных рядов и алгоритмов кластеризации. Описываются особенности реализации указанных алгоритмов в MS SQL Server 2008.
11. Краткий обзор алгоритмов интеллектуального анализа данных. Алгоритмы взаимосвязей и кластеризации последовательностей
Лекция посвящена краткому рассмотрению двух алгоритмов интеллектуального анализа данных – алгоритма взаимосвязей и алгоритмов кластеризации последовательностей.
12.Краткий обзор алгоритмов интеллектуального анализа данных. Алгоритмы нейронных сетей и логистической регрессии
Лекция посвящена краткому рассмотрению двух алгоритмов интеллектуального анализа данных – нейронных сетей и логистической регрессии. Особенностью реализации этих алгоритмов в SQL Server 2008 является то, что алгоритм логистической регрессии, по сути, является алгоритмом нейронных сетей, запускаемым с особыми параметрами.
13.Использование инструментов Data Mining Client для Excel 2007 для подготовки данных
Данная лабораторная работа описывает возможности инструментов, относящихся к Data Mining Client для Excel 2007, в части подготовки данных для анализа.
14.Использование инструментов Data Mining Client для Excel 2007 для создания модели интеллектуального анализа данных
В лабораторной работе будет рассмотрен процесс создания модели интеллектуального анализа с помощью инструментов, входящих в состав Data Mining Client для Excel.
15.Анализ точности прогноза и использование модели интеллектуального анализа
Лабораторная работа посвящена проверке точности модели и выполнению запросов к модели интеллектуального анализа.
16.Построение модели кластеризации, трассировка и перекрестная проверка
В лабораторной работе рассматривается построение модели интеллектуального анализа данных, использующей алгоритм кластеризации, проводится анализ модели с использованием перекрестной проверки и рассматриваются предоставляемые DataMiningClient возможности по выполнению трассировки запросов к серверу.
17.Концепции языка DMX
В лекции рассматриваются базовые понятия языка DMX – атрибут, вариант, структура. Приводится обзор используемых типов данных и содержимого.
18.DMX. Создание структуры и модели
В лекции рассматривается создание средствами языка DMX моделей и структур интеллектуального анализа данных.
19.DMX. Обработка, очистка, удалениеи восстановление структур и моделей
В лекции рассматриваются основные операции, которые можно проводить с моделями и структурами данных после их создания – обработка (обучение), очистка содержимого, удаление, экспорт и импорт.
20.DMX. Запросы
В лекции рассматривается написание запросов к структурам и моделям интеллектуального анализа данных.
21.DMX. Прогнозы
В лекции рассматриваются вопросы, связанные с написанием прогнозирующих запросов на языке DMX, а также с созданием копий существующих моделей интеллектуального анализа.
22.Начало работы в BIDevStudio
В ходе выполнения данной работы будут рассмотрены начальные этапы выполнения интеллектуального анализа в среде BusinessIntelligenceDevelopmentStudio (BIDevStudio) — создание проекта и определение источников данных.
23.Создание представления источника данных
В предыдущей лабораторной работе была создана база данных аналитических служб и источник данных (DataSource). В ходе выполнения этой работы мы познакомимся с созданием представления источника данных (DataSourceView, DSV), а также именованных вычислений и запросов.
24.DMX. Параметры алгоритмов интеллектуального анализа данных. Упрощённый алгоритм Байеса, деревья решений, линейная регрессия
В данной лекции мы рассмотрим некоторые особенности определения моделей данных, основанных на упрощенном алгоритме Байеса и деревьях принятия решений.
25.DMX. Параметры алгоритмов интеллектуального анализа данных. Временные ряды, кластеризация
В лекции рассмотрены особенности определения на языке DMX моделей данных, основанных на алгоритмах временных рядов и кластеризации.
26.DMX. Параметры алгоритмов интеллектуального анализа данных. Алгоритм взаимосвязей, кластеризация последовательностей
В лекции рассмотрены особенности определения моделей данных, основанных на алгоритмах взаимосвязей и кластеризации последовательностей.
27.DMX. Параметры алгоритмов интеллектуального анализа данных. Алгоритмы нейронных сетей и логистической регрессии
В лекции рассмотрены особенности определения на языке DMX моделей данных, основанных на алгоритмах нейронных сетей и логистической регрессии.
28.Создание структуры и модели интеллектуального анализа. Задача кластеризации
В ходе выполнения предыдущих лабораторных работ была создана база аналитических служб MSSQLServer и определены источник данных и представление источника данных. Текущая работа посвящена созданию в среде BIDevStudio структуры и модели интеллектуального анализа данных.
29.Задача классификации. Создание структуры и моделей интеллектуального анализа. Сравнение точности моделей
Данная лабораторная работа посвящена решению задачи классификации и оценке точности прогнозов, получаемых с использованием разных алгоритмов.
30.Просмотр моделей интеллектуального анализа (деревья решений, упрощенный алгоритма Байеса, нейронные сети). Написание «одноэлементных» прогнозирующих запросов
В ходе предыдущей лабораторной работы были созданы три модели интеллектуального анализа. Данная работа посвящена более подробному знакомству с содержимым модели, а также написанию прогнозирующих запросов.
31.Работа с моделями интеллектуального анализа данных из SQLServerManagementStudio
В ходе выполнения данной лабораторной работы будут рассмотрены вопросы, связанные с использованием среды SQLServerManagementStudioпри интеллектуальном анализе данных.
32.Использование алгоритма MicrosoftTimeSeries для прогнозирования значений временных рядов
Данная лабораторная работа посвящена вопросам использования аналитических служб SQLServer 2008 для прогнозирования временных рядов.