Смекни!
smekni.com

Методические рекомендации к написанию курсовой работы по дисциплине «Системы статистического и интеллектуального анализа данных» (стр. 2 из 4)

  1. Создать свою информационную базу в соответствии с тематикой курсовой работы по группе предприятий (группа характеризуется отраслевой принадлежностью и городами) (воспользоваться информационно-аналитической базой данных «Спарк» или «Vira»).
  2. Созданная база должна содержать информацию по ряду необходимых показателей для 1000 наиболее наполненных данными предприятий (подсчитать Missing командой Count).
  3. Перевести исходные данные в формат SPSS. Для всех переменных в базе данных необходимо задать метки переменных, метки значений (в случае необходимости), шкалу и т.д.
  4. Добавить в созданную базу необходимые среднеотраслевые данные из справочника (в формате Excel) (команда Merge), а для тех показателей, для которых среднеотраслевая статистика отсутствует подсчитать ее по своей базе данных (из 1000 предприятий) (команда Aggregate).
  5. Рассчитать описательную статистику для основных показателей: мин, мах, размах, среднее, медиану, среднеквадратичное отклонение, коэффициент ассиметрии и эксцесс.
  6. Проверить данные на нормальность и при необходимости провести преобразование данных (нормализацию). Построить ящичковые диаграммы для сравнения распределения показателей по отраслям (команда Explore).
  7. Используя одну из методик подсчитать интегральный показатель на базе существующих (команда Compute). Вычислить описательные статистики (см. п.5). Построить гистограмму распределения этого показателя.
  8. Выявить наличие связей, используя таблицы сопряженности, графики рассеяния и коэффициенты корреляции, между интегральным показателем и прочими показателями (исключая те показатели, на базе которых был рассчитан интегральный показатель).
  9. Определить значимо ли различаются средние значения заданного показателя по отраслям (ANOVA, непараметрические тесты сравнения средних).
  10. Для проведения исследования рекомендуется использовать следующие показатели:

1. выручка от реализации

2. чистая прибыль,

3. чистый долг,

4. чистые оборотные средства,

5. отношение краткосрочного долга к прибыли от продаж

6. текущая ликвидность

7. норма чистой прибыли,

8. рентабельность активов

9. рентабельность собственного капитала

Примерная тематика курсовых работ по разделу «Интеллектуальный анализ данных»

№ п/п

Тема

Состав аналитики

    Расчет устойчивости системы (старшего показателя Ляпунова) по временному ряду объекта конкретной предметной области. 1. Оптимальная ширина окна 2. Построение нейросетевой или генетической модели 3. Исследование модели на устойчивость по Ляпунову
      Оценка фазовой размерности по отрезкам временного ряда объекта конкретной предметной области. 1. Построение моделей отрезка с разным числом входных переменных 2. Нахождение с помощью критериев оптимизации структуры необходимой размерности каждого отрезка
        Расчет скользящего показателя хаотичности по Хёрсту по временному ряду объекта конкретной предметной области. 1. Построить показатель Хёрста по отрезкам временного ряда с помощью алгоритма относительного размаха 2. Построить скользящий показатель Хёрста по длине ряда, используя автокорреляционную функцию
          Выполнить сингулярный спектральный анализ временного ряда объекта конкретной предметной области. 1. Используя программу SSA выделить трендовую, одну из гармонических и одну шумовую компоненту. 2. Реконструировать несколько компонент 3. Выполнить прогноз по нескольким компонентам
            Произвести оптимальную сегментацию временного ряда объекта конкретной предметной области по критерию сохранения модели для каждого сегмента 1. Произвести нахождение оптимальной ширины скользящего окна для начального участка 2. Построить прогноз по найденной модели с вычислением критериев оптимизации структуры модели. 3. Найти конец 1-го сегмента 4. Повторить пп 1-3 до достижения конца ряда.
              Решение задачи классификации объектов конкретной предметной области методом самоорганизующейся сети Кохонена 1. Сформировать входы и выходы сети. 2. Обучить сеть Кохонена; 3. Средствами окна «Частота выигрышей» идентифицировать кластеры в окне «Топологическая карта».
                Решение задачи классификации объектов конкретной предметной области методом нейрoсетевой классификации с выходными значениями 1 из М 1. Подготовить исходные данные 2. Выбрать тип нейронной сети 3. Обучить нейросеть 4. Воспользоваться построенной моделью для отнесения наблюдений к построенным классам
                  Прогноз количественных переменных с помощью искусственной нейронной сети 1. Определить фазовую размерность 2. Перевести одномерный ряд в многомерный 3. Построить нейросетевую модель 4. Воспользоваться полученной моделью для прогноза
                    Кластеризация объектов конкретной предметной области с помощью нечетких множеств. 1. Перейти к сокращенному признаковому пространству 2. Построить нечеткую систему 3. Задать функции принадлежности для входных переменных 4. Задать функции принадлежности для выходных переменных 5. Создать логические правила 6. Ввести значения признаков для каждого объекта 7. Получить значение кластера для каждого объекта
                      Прогноз стратегий действий ЛПР с использованием нейросетевого алгоритма. 1. Методами If Then построить правила, классифицирующие наблюдения с получением надежности каждого правила 2. Пользуясь полученными значениями надежности правил построить классы действий ЛПР 3. Создать многомерную таблицу исходных данных для использования нейросети 4. Выбрать тип нейросети и обучить её 5. Построить модель действий ЛПР 6. Осуществить прогноз действий ЛПР
                        Решение задачи прогноза количественных переменных с помощью генетического алгоритма. 1. Создать многомерную таблицу исходных данных для использования генетического алгоритма 2. Проварьировать время эволюции для достижения приемлемой точности 3. Выполнить прогноз с помощью полученной модели
                          Построение регрессионно-авторегрессионной модели сильно зашумленного временного ряда объекта конкретной предметной области. 1. Проанализировать уровень зашумленности временного ряда 2. Подготовить исходные данные 3. В пакете MatLab задать порядок нелинейности модели и подготовить переменные 4. Построить множество вариантов нелинейных моделей с получением значений невязок 5. Выбрать лучшую модель
                            Проведение дискретного вейтвлет - анализа временного ряда объекта конкретной предметной области. 1. Осуществить загрузку данных в пакет Wavelet Toolbox MatLab 2. Оценить уровень зашумленности временного ряда 3. Очистить временной ряд от шума 4. Задать вейвлет – фильтры 5. Построить коэффициенты разложения 6. Получить компоненты временного ряда 7. Получить коэффициенты частотного спектра 8. Оценить закономерности полученных коэффициентов и их частотного разложения
                              Проведение непрерывного вейтвлет - анализ временного ряда объекта конкретной предметной области. 1. Осуществить загрузку данных в пакет Wavelet Toolbox MatLab 2. Построить графики исходных данных 3. Применить несколько различных типов вейвлетов для построения спектрограмм 4. Провести анализ спектрограмм для обнаружения сегментов, описываемых различными моделями
                                Решение задачи дискриминации объектов конкретной предметной области с бинарными выходными значениями 1. Подготовить многомерный массив исходных данных 2. Разбить подготовленную многомерную таблицу на две по содержанию в них бинарных выходных значений 3. Построить модель дискриминации с применением жесткого алгоритма и с нечеткими множествами
                                  Решение задачи классификации объектов конкретной предметной области методом нейрoсетевой классификации с бинарными выходными значениями 1. Подготовить многомерный массив исходных данных 2. Разбить подготовленную многомерную таблицу на две по содержанию в них бинарных выходных значений 3. Построить модель классификации с применением жесткого алгоритма и с нечеткими множествами
                                    Прогноз Временного ряда с булевыми переменными с помощью искусственной нейронной сети 1. Подготовить исходные данные 2. Выбрать тип нейронной сети 3. Обучить нейросеть 4. Осуществить прогноз
                                      Кластеризация категорийных данных конкретной предметной области. 1. Подготовить исходные данные 2. Произвести расчет критерия 3. Кластеризовать объекты
                                        Решение задачи прогнозирования булевых переменных методом построения логических правил. 1. Подготовить исходные данные 2. Загрузить исходные данные в пакет See-5 3. Построить логические правила 4. Протестировать полученные правила 5. Выполнить прогноз булевых переменных
                                          Решение задачи классификации объектов конкретной предметной области методом «Деревья решений». 1. Подготовить исходные данные 2. Проанализировать объекты 3. Отнести новый объект к найденным классам
                                            Прогнозирование зашумленного временного ряда объекта конкретной предметной области с помощью гибридной нейронной с нечетким выводом сети 1. Построить функции принадлежности (алгоритм Сугэно) 2. Создать в редактор правила гибридных нейросетей 3. Получить структуру нечеткой нейронной сети 4. Провести процесс обучения 5. Получить вид функций принадлежности после обучения 6. Построить ошибки прогноза 7. Получить аппроксимацию прогноза уравнением 10 порядка
                                              Решение задачи ассоциации транзакционных рядов конкретной предметной области 1. Подготовить транзакционные исходные данные 2. Осуществить анализ ассоциаций 3. Осуществить анализ связей
                                                Проанализировать данные методами Naive Bayes и др., входящими в состав аналитики MS SQL Server 2005
                                                  Провести анализ моделей, полученных методами ИАД и статистическими 1. Сравнить модели авторегрессий 2. Сравнить модели множественных регрессий
                                                    Выполнить прогноз точек перелома (бифуркаций) для объектов конкретной предметной области 1. Выполнить анализ изменения типа процесса скользящим показателем Хёрста 2. Проанализировать изменение устойчивости объекта с помощью старшего показателя Ляпунова 3. Найти точки бифуркации и периодичность их возникновения
                                                      Построить базу знаний в виде онтологии при анализе Web информации 1. Подготовить документы для обучения 2. Провести анализ подготовленных документов 3. Сформировать базу знаний 4. Осуществить представление знаний 5. Организация поиска знаний во внешнем источнике информации

                                                      При выполнении курсовой работы студенты могут использовать методы обработки данных, изученные в обоих разделах курсах.