Рубрики

Начало работы с машинным обучением

В этой статье рассматриваются категории проблем машинного обучения и терминологии, используемые в области машинного обучения.

Типы проблем машинного обучения

Существуют различные способы классификации проблем машинного обучения. Здесь мы обсудим наиболее очевидные из них.
1. Исходя из характера обучающего «сигнала» или «обратной связи», доступной для системы обучения

  • Контролируемое обучение : компьютер представлен примерами входных данных и их желаемых результатов, предоставленных «учителем», и цель состоит в том, чтобы выучить общее правило, которое отображает входные данные в выходные данные. Процесс обучения продолжается до тех пор, пока модель не достигнет желаемого уровня точности данных тренировки. Вот некоторые примеры из жизни:
    • Классификация изображений: Вы тренируетесь с изображениями / метками. Затем в будущем вы дадите новое изображение, ожидая, что компьютер распознает новый объект.
    • Прогнозирование рынка / регрессия: вы обучаете компьютер историческим рыночным данным и просите компьютер прогнозировать новую цену в будущем.
  • Неподдерживаемое обучение. Алгоритмам обучения не присваиваются метки, что позволяет ему самостоятельно находить структуру входных данных. Используется для кластеризации населения в разные группы. Самостоятельное обучение может быть самоцелью (обнаружение скрытых закономерностей в данных).
    • Кластеризация: вы просите компьютер разделить похожие данные на кластеры, это важно в научных исследованиях.
    • Визуализация больших размеров. Используйте компьютер для визуализации данных больших размеров.
    • Генеративные модели. После того, как модель уловит распределение вероятностей ваших входных данных, она сможет генерировать больше данных. Это может быть очень полезно для повышения надежности вашего классификатора.

Простая схема, которая проясняет концепцию контролируемого и неконтролируемого обучения, показана ниже:

Как вы можете ясно видеть, данные в обучении под наблюдением помечены, где данные в обучении без присмотра не помечены.

  • Обучение под наблюдением : Проблемы, когда у вас есть большой объем входных данных и помечены только некоторые данные, называются проблемами обучения с полудонтролем. Эти проблемы находятся между как контролируемым, так и неконтролируемым обучением. Например, фотоархив, в котором помечены только некоторые изображения (например, собака, кошка, человек), а большинство не имеет маркировки.
  • Обучение подкреплению : компьютерная программа взаимодействует с динамической средой, в которой она должна выполнять определенную цель (например, управлять транспортным средством или играть в игру против соперника). Программа обеспечивает обратную связь с точки зрения наград и наказаний, поскольку она перемещается по своему проблемному пространству.

2. На основе «результата», желаемого из системы машинного обучения

  • Классификация : входные данные делятся на два или более классов, и учащийся должен создать модель, которая присваивает невидимые входные данные одному или нескольким (классификация по нескольким меткам) этих классов. Обычно это решается под надзором. Фильтрация спама является примером классификации, когда входными данными являются сообщения электронной почты (или другие), а классы — «спам», а не «спам».
  • Регрессия : это также контролируемая проблема обучения, но результаты являются непрерывными, а не дискретными. Например, прогнозирование цен акций с использованием исторических данных.

Пример классификации и регрессии для двух разных наборов данных показан ниже:

  • Кластеризация : здесь набор входных данных должен быть разделен на группы. В отличие от классификации, группы не известны заранее, что делает это, как правило, неконтролируемой задачей.
    Как видно из приведенного ниже примера, данные точки набора данных были разделены на группы, идентифицируемые по цветам: красный, зеленый и синий.
  • Оценка плотности : задача состоит в том, чтобы найти распределение входов в некотором пространстве.
  • Уменьшение размерности : упрощает входные данные, отображая их в пространство меньшего размера. Тематическое моделирование является связанной проблемой, когда программе предоставляется список документов на человеческом языке, и ей поручено выяснить, какие документы охватывают аналогичные темы.

На основе этих задач / задач машинного обучения у нас есть ряд алгоритмов, которые используются для выполнения этих задач. Некоторыми обычно используемыми алгоритмами машинного обучения являются линейная регрессия, логистическая регрессия, дерево решений, SVM (машины опорных векторов), наивный байесовский алгоритм, KNN (K ближайших соседей), K-средние, случайный лес и т. Д.

Примечание. Все эти алгоритмы будут рассмотрены в следующих статьях.

Терминология машинного обучения

  • модель
    Модель — это конкретное представление, полученное из данных путем применения некоторого алгоритма машинного обучения. Модель также называется гипотезой .
  • Особенность
    Особенность — это индивидуальное измеримое свойство наших данных. Набор числовых признаков может быть удобно описан вектором признаков . Векторы объектов подаются как входные данные для модели. Например, чтобы предсказать фрукт, могут быть такие особенности, как цвет, запах, вкус и т. Д.
    Примечание. Выбор информативных, различающих и независимых функций является решающим шагом для эффективных алгоритмов. Обычно мы используем экстрактор функций для извлечения соответствующих функций из необработанных данных.
  • Цель (ярлык)
    Целевая переменная или метка — это значение, которое должно быть предсказано нашей моделью. Для примера с фруктами, рассмотренного в разделе функций, метка с каждым набором входных данных будет называться фруктом, таким как яблоко, апельсин, банан и т. Д.
  • Повышение квалификации
    Идея состоит в том, чтобы предоставить набор входных данных (признаков) и ожидаемых выходных данных (меток), поэтому после обучения у нас будет модель (гипотеза), которая затем отобразит новые данные в одной из обучаемых категорий.
  • прогнозирование
    Когда наша модель будет готова, ей можно будет подать набор входных данных, на которые она будет предоставлять прогнозируемый результат (метку).

Показанный ниже рисунок проясняет вышеуказанные понятия:

Статьи по Теме:

Ссылки:

Этот блог предоставлен Нихилом Кумаром . Если вам нравится GeeksforGeeks и вы хотели бы внести свой вклад, вы также можете написать статью, используя contrib.geeksforgeeks.org, или отправить свою статью на электронный адрес contrib@geeksforgeeks.org. Смотрите свою статью, появляющуюся на главной странице GeeksforGeeks, и помогите другим вундеркиндам.

Пожалуйста, пишите комментарии, если вы обнаружите что-то неправильное или вы хотите поделиться дополнительной информацией по обсуждаемой выше теме.

Рекомендуемые посты:

Начало работы с машинным обучением

0.00 (0%) 0 votes