Рубрики

Начало работы с классификацией

Вступление

Как следует из названия, классификация — это задача «классификации вещей» по подкатегориям. Но на машине! Если это звучит не так много, представьте, что ваш компьютер способен различать вас и незнакомца. Между картошкой и помидором. Между оценкой A и F-.

Да. Звучит интересно сейчас!

В машинном обучении и статистике классификация — это проблема определения, к какой из набора категорий (подгрупп) относится новое наблюдение, на основе обучающего набора данных, содержащего наблюдения, и принадлежность которых к категориям известна.

Типы классификации

Классификация бывает двух типов:

  • Бинарная классификация : когда мы должны классифицировать данные на 2 разных класса. Пример. Исходя из данных о состоянии здоровья человека, мы должны определить, есть ли у человека определенное заболевание или нет.
  • Мультиклассовая классификация : количество классов больше 2. Например. На основании данных о различных видах цветов мы должны определить, к какому виду относится наше наблюдение.

Рис. Бинарная и мультиклассовая классификация. Здесь x1 и x2 — наши переменные, по которым прогнозируется класс.

Как работает классификация?

Предположим, мы должны предсказать, имеет ли данный пациент определенное заболевание или нет, на основе 3 переменных, называемых признаками.

Это означает, что есть два возможных результата:

  1. Пациент имеет указанное заболевание. В основном результат помечен как «Да» или «Правда».
  2. Пациент без болезней. Результат с пометкой «Нет» или «Ложь».

Это проблема двоичной классификации.

У нас есть набор наблюдений, называемый набором обучающих данных, который состоит из выборочных данных с фактическими результатами классификации. Мы обучаем модель, названную Classifier, на этом наборе данных и используем эту модель, чтобы предсказать, будет ли у определенного пациента заболевание или нет.

Результат, таким образом, теперь зависит от:

  1. Насколько хорошо эти функции способны «сопоставить» результат.
  2. Качество нашего набора данных. По качеству я имею в виду статистические и математические качества.
  3. Насколько хорошо наш классификатор обобщает эту связь между характеристиками и результатом.
  4. Значения x1 и x2.

Ниже приводится обобщенная блок-схема задачи классификации.

Блок-схема обобщенной классификации.

  1. X: предварительно классифицированные данные в форме матрицы N * M. N это нет. наблюдений и М — число признаков
  2. y: вектор Nd, соответствующий прогнозируемым классам для каждого из N наблюдений.
  3. Извлечение функций: извлечение ценной информации из входных данных X с использованием серии преобразований.
  4. Модель ML: «Классификатор», который мы будем тренировать.
  5. y ': метки, предсказанные классификатором.
  6. Метрика качества: Метрика, используемая для измерения производительности модели.
  7. Алгоритм ML: Алгоритм, который используется для обновления весов w ', которые обновляют модель и «учатся» итеративно.

Типы классификаторов (алгоритмы)

Существуют различные типы классификаторов. Некоторые из них :

  • Линейные классификаторы: логистическая регрессия
  • Классификаторы на основе дерева: классификатор дерева решений
  • Опорные векторные машины
  • Искусственные нейронные сети
  • Байесовская регрессия
  • Гауссовские наивные байесовские классификаторы
  • Классификатор стохастического градиентного спуска (SGD)
  • Методы ансамбля: случайные леса, AdaBoost, классификатор мешков, классификатор голосования, классификатор ExtraTrees

Подробное описание этих методик выходит за рамки статьи!

Практическое применение классификации

  1. Самостоятельно управляемый автомобиль Google использует методы классификации с глубоким обучением, которые позволяют обнаруживать и классифицировать препятствия.
  2. Фильтрация спама в электронной почте является одним из наиболее распространенных и общепризнанных методов классификации.
  3. Обнаружение проблем со здоровьем, распознавание лиц, распознавание речи, обнаружение объектов, анализ настроений используют классификацию в своей основе.

Реализация

Давайте познакомимся с тем, как работает классификация. Мы собираемся изучить различные классификаторы и увидим довольно простое аналитическое сравнение их эффективности на хорошо известном стандартном наборе данных, наборе данных Iris.

Требования к запуску данного скрипта

  1. Python 2.7
  2. Сципи и Нампи
  3. Matplotlib для визуализации данных
  4. Панды для ввода / вывода данных
  5. Scikit-Learn Предоставляет все классификаторы

Реализация Python — Github ссылка на проект

Вывод

Классификация — очень обширная область исследования. Несмотря на то, что он состоит из небольшой части машинного обучения в целом, он является одним из наиболее важных.

Это все на данный момент. В следующей статье мы увидим, как на практике работает классификация, и запачкаем руки кодом Python.

Эта статья предоставлена Сартаком Ядавом . Если вам нравится GeeksforGeeks и вы хотите внести свой вклад, вы также можете написать статью и отправить ее по почте на contrib@geeksforgeeks.org. Смотрите свою статью, появляющуюся на главной странице GeeksforGeeks, и помогите другим вундеркиндам.

Пожалуйста, напишите комментарии, если вы обнаружите что-то неправильное, или вы хотите поделиться дополнительной информацией по обсуждаемой теме

Рекомендуемые посты:

Начало работы с классификацией

0.00 (0%) 0 votes