Рубрики

Выбор подмножества атрибутов в интеллектуальном анализе данных

Выбор подмножества атрибутов — это метод, который используется для сокращения данных в процессе интеллектуального анализа данных. Сокращение данных уменьшает размер данных, что позволяет более эффективно использовать их в целях анализа.

Необходимость выбора подмножества атрибутов
Набор данных может иметь большое количество атрибутов. Но некоторые из этих атрибутов могут быть неактуальными или избыточными. Цель выбора подмножества атрибутов состоит в том, чтобы найти минимальный набор атрибутов, чтобы отбрасывание этих нерелевантных атрибутов не сильно влияло на полезность данных и стоимость анализа данных могла бы быть уменьшена. Использование уменьшенного набора данных также облегчает понимание обнаруженного паттерна.

Процесс выбора подмножества атрибутов
Метод грубой силы может быть очень дорогостоящим, в котором можно проанализировать каждое подмножество (2 ^ n возможных подмножеств) данных, имеющих n атрибутов.
Лучший способ выполнить задачу — использовать тесты статистической значимости, чтобы можно было распознать лучшие (или худшие) атрибуты. Тест статистической значимости предполагает, что атрибуты не зависят друг от друга. Это своего рода жадный подход, при котором определяется уровень значимости (статистически идеальное значение уровня значимости составляет 5%), и модели проверяются снова и снова, пока p-значение (значение вероятности) всех атрибутов не станет меньше или равно выбранный уровень значимости. Атрибуты, имеющие значение p выше уровня значимости, отбрасываются. Эта процедура повторяется снова и снова до тех пор, пока все атрибуты в наборе данных не будут иметь p-значение, меньшее или равное уровню значимости. Это дает нам сокращенный набор данных, не имеющий нерелевантных атрибутов.

Методы выбора подмножества атрибутов
1. Пошаговый выбор вперед.
2. Пошаговое обратное устранение.
3. Сочетание прямого выбора и обратного исключения.
4. Индукция дерева решений.

Все вышеперечисленные методы являются жадными подходами для выбора подмножества атрибутов.

  1. Выбор шага вперед: эта процедура начинается с пустого набора атрибутов в качестве минимального набора. Выбираются наиболее релевантные атрибуты (имеющие минимальное значение p) и добавляются в минимальный набор. В каждой итерации один атрибут добавляется в сокращенный набор.
  2. Пошаговое обратное исключение: здесь все атрибуты рассматриваются в начальном наборе атрибутов. В каждой итерации один атрибут исключается из набора атрибутов, чье значение p выше уровня значимости.
  3. Комбинация прямого выбора и обратного исключения: пошаговое прямое выделение и обратное исключение объединяются для наиболее эффективного выбора соответствующих атрибутов. Это наиболее распространенный метод, который обычно используется для выбора атрибутов.
  4. Индукция дерева решений: этот подход использует дерево решений для выбора атрибутов. Он строит блок-схему, похожую на структуру, имеющую узлы, обозначающие проверку атрибута. Каждая ветвь соответствует результату теста, а конечные узлы являются классом предсказания. Атрибут, который не является частью дерева, считается неактуальным и, следовательно, отбрасывается.

Рекомендуемые посты:

Выбор подмножества атрибутов в интеллектуальном анализе данных

0.00 (0%) 0 votes