Presentation is loading. Please wait.

Presentation is loading. Please wait.

Совместное использование пакета Microsoft Office Excel 2007 и служб интеллектуального анализа данных SQL Server Analysis Services Афанасьева С.В.

Similar presentations


Presentation on theme: "Совместное использование пакета Microsoft Office Excel 2007 и служб интеллектуального анализа данных SQL Server Analysis Services Афанасьева С.В."— Presentation transcript:

1 Совместное использование пакета Microsoft Office Excel 2007 и служб интеллектуального анализа данных SQL Server Analysis Services Афанасьева С.В.

2 Data Mining (Интеллектуальный анализ данных) - это технология выявления скрытых взаимосвязей внутри больших баз данных. Является службой Microsoft SQL Server 2005 (2008) Analysis Services

3 Службы Microsoft SQL Server 2005 Analysis Services (SSAS) содержат :
Алгоритм дерева принятия решений Алгоритм кластеризации Упрощенный алгоритм Байеса Алгоритм взаимосвязей Алгоритм кластеризации последовательностей Алгоритм временных рядов Алгоритм нейронной сети (службы SSAS) Алгоритм логистической регрессии Алгоритм линейной регрессии

4 Надстройки интеллектуального анализа данных SQL Server 2005 для Office 2007
выявлять закономерности и тренды, существующие в сложных данных, отображать такие закономерности в диаграммах и интерактивных средствах просмотра формировать цветные сводные отчеты для презентаций и бизнес-аналитики. анализировать корреляции и формировать прогнозы для данных, хранящихся в таблицах Microsoft Office Excel, или создавать и изменять модели интеллектуального анализа данных, хранящихся в экземпляре Analysis Services

5 Надстройки интеллектуального анализа данных в Office 2007
Алгоритм интеллектуального анализа данных представляет собой механизм, создающий модели интеллектуального анализа данных. Средства интеллектуального анализа данных в этой надстройке автоматически анализируют распределение и тип данных и рекомендуют лучший способ обработки данных для получения допустимых результатов.

6 Обзор средств анализа таблиц для Excel
Анализ ключевых факторов влияния Определяет столбцы данных с наибольшим влиянием на выбранное значение или столбец значений. Поиск категорий Определяет строки с похожими свойствами. Заполнение по примеру Поиск отсутствующих значений данных в выбранном столбце и предложение новых значений на основе закономерностей в данных. Прогноз Прогнозирует будущие значения с учетом ряда значений. Выделение исключений Поиск значений в столбце данных, не соответствующих шаблонам, обнаруженным в данных. Анализ сценария: поиск решения Указывает целевое значение и определяет базовые факторы, подлежащие изменению для соответствия цели на основе анализа шаблонов данных. Анализ сценария: гипотетические ситуации Использует значения для определения результата изменения на основе анализа закономерностей в данных

7 Анализ ключевых факторов влияния
При создании отчета, средство выполняет три действия: создает структуру интеллектуального анализа данных, хранящую ключевые сведения о данных; создает модель интеллектуального анализа данных с помощью упрощенного алгоритма Байеса Майкрософт; запускает прогнозирующий запрос для каждой заданной пары атрибутов, чтобы определить факторы, наиболее отличающие эти два целевых атрибута. Это средство автоматически устанавливает параметры после выполнения анализа данных для определения оптимальных параметров. Цвета заливки произвольные и могут повторно использоваться в каждой сравниваемой паре. Длина полосы показывает вероятность влияния фактора на результат и, следовательно, чем она длиннее, тем теснее взаимосвязь.

8 Сравнение факторов, ведущих к значениям "Skilled Manual" и "Management"

9 Поиск категорий После завершения работы средства создается отчет со списком найденных категорий вместе с их отличительными характеристиками. Средство Поиск категорий выполняет автоматический поиск в таблице строк с похожими характеристиками. По умолчанию в таблицу данных добавляется новый столбец с предлагаемой категорией. Затем можно просмотреть категории и переименовать их.

10 Поиск категорий - диаграмма
В таблицу данных добавляется новый столбец с предлагаемой категорией

11 Заполнение по примеру Средство позволяет быстро создать новые столбцы данных, основанные на закономерностях, найденных в таблице, и образцах новых значений, предоставленных пользователем. При использовании средства Заполнение по примеру формируется отчет, в котором содержится развернутая информация об обнаруженных закономерностях. Эти закономерности также используются при экстраполяции новых значений. Отчет о закономерностях раскрывает ключевые факторы, влияющие на каждое прогнозируемое значение. Описание каждого влияющего фактора или правила содержит в себе имя столбца, значение столбца и относительное влияние данного правила на прогноз. Например, в таблице, содержащей данные о покупателях и их закупках в течение года, можно создать новый столбец и ввести несколько образцов значений, таких как «Крупный покупатель», «Мелкий покупатель» и так далее. Это средство заполнит значениями оставшиеся строки данного столбца путем анализа существующих закономерностей в данных и применяя введенные примеры значений. Если результат окажется неудовлетворительным, можно сделать уточнение, введя дополнительные примеры значений.

12 Прогноз Новые значения рядов времени не добавлены; это позволяет сначала предварительно просмотреть прогнозы. После завершения мастера новые прогнозы добавятся в конец таблицы источника данных, Средство Прогноз позволяет делать прогноз, основанный на данных в таблице Excel или другом источнике данных, и, по желанию, показывает вероятность каждого прогнозируемого значения. Например, если данные содержат столбец даты и столбец, показывающий объем продаж по каждому дню месяца, можно прогнозировать объем продаж на будущие дни. Также можно указать количество выполняемых прогнозов. Например, пять дней или тридцать. Мастер также создает новый лист с именем «Отчет о прогнозе». Этот лист сообщает об успешности создания прогноза мастером. Новый лист также содержит линейную диаграмму, показывающую тренды предыстории. При расширении ряда времени для включения новых прогнозов прогнозируемые значения добавляются в линейную диаграмму. Значения с предысторией отображаются сплошной линией, а прогнозы — точечной.

13 Выделение исключений На сводной диаграмме показано число ячеек в каждом столбце, значения в которых превышают порог исключений. Средство в исходной таблице выделяет подсветкой ячейки с подозрительными значениями. Темная подсветка означает, что строка требует внимания. Светлая подсветка означает, что значение в этой конкретной ячейке рассматривается как подозрительное. Средство Выделение исключений работает во всем диапазоне данных таблицы Excel или с несколькими выбранными столбцами. Можно также настроить порог, управляющий изменчивостью данных, чтобы обнаруживать больше или меньше исключений. Иногда данные содержат значения, выходящие за пределы ожидаемого диапазона. Например, владельцу дома могут записать возраст 5 лет. Такие значения, которые называют выбросами, часто бывают неправильными из-за ошибок ввода или указания неверных трендов. Как бы то ни было, исключения могут снизить качество анализа. Средство Выделение исключений помогает найти эти значения, просмотреть их и предпринять то или иное действие.

14 Анализ сценария: поиск решения
Сценарий Поиск решения представляет собой дополнение к средству сценария Анализ гипотетических вариантов и указывает на влияющие факторы, которые должны быть изменены При создании сценария поиска решения выполняются следующие действия. Создает структуру интеллектуального анализа данных, в которой хранятся ключевые сведения о содержащихся в таблице данных. На основе существующих данных создает модель интеллектуального анализа с логистической регрессией. Создает прогнозирующий запрос для каждого из указанных значений. Средство Анализ вариантов показывает влияние различных изменений, а средство Поиск решения указывает на влияющие факторы, которые должны быть изменены для достижения желаемого изменения. Алгоритм логистической регрессии может работать как с числовыми, так и с дискретными значениями. В первом добавленном столбце могут быть либо флажки на фоне зеленого круга, указывающие на то, что решение может быть найдено, либо символы «Х» на фоне красного круга, указывающие на то, что решение не может быть найдено ни при каких изменениях значения. Второй столбец содержит рекомендуемое изменение.

15 Анализ сценария: гипотетические ситуации
Сценарий анализирует закономерности существующих данных, а затем позволяет оценить влияние изменений в одном столбце на значение другого столбца. При создании сценария средство выполняет задачи: Создает структуру интеллектуального анализа данных, в которой хранятся ключевые сведения о содержащихся в таблице данных. На основе существующих данных создает модель интеллектуального анализа с логистической регрессией. Создает прогнозирующий запрос для каждого из указанных значений. Средство сценария Анализ гипотетических вариантов анализирует закономерности существующих данных, а затем позволяет оценить влияние изменений в одном столбце на значение другого столбца. Например, можно проанализировать влияние повышения цены товара на объем продаж. Мастер позволяет создавать произвольное количество прогнозов. После завершения первоначального анализа можно спрогнозировать результаты для всех данных таблицы либо ввести контрольные значения по одному. Столбцы, добавляемые к таблице, содержат два типа данных: спрогнозированное значение с учетом данного изменения и его достоверность. Достоверность представляет собой вероятность правильности прогноза.

16 Спасибо


Download ppt "Совместное использование пакета Microsoft Office Excel 2007 и служб интеллектуального анализа данных SQL Server Analysis Services Афанасьева С.В."

Similar presentations


Ads by Google