Рубрики

ML | Полу-контролируемое обучение

Современные алгоритмы машинного обучения можно разделить на три категории: контролируемое обучение, неконтролируемое обучение и обучение с подкреплением. Если отбросить усиленное обучение, основными двумя категориями проблем машинного обучения являются контролируемое и неконтролируемое обучение. Основное различие между ними заключается в том, что наборы данных Supervised Learning имеют выходную метку, связанную с каждым кортежем, а наборы данных Unsupervised Learning — нет.

Основным недостатком любого алгоритма контролируемого обучения является то, что набор данных должен быть маркирован вручную либо инженером по машинному обучению, либо специалистом по данным. Это очень, особенно при работе с большими объемами данных. Основным недостатком любого обучения без учителя является то, что спектр его применения ограничен .

Чтобы противостоять этим недостаткам, была введена концепция полууправляемого обучения . В этом типе обучения алгоритм обучается на комбинации помеченных и немаркированных данных. Как правило, эта комбинация будет содержать очень небольшое количество помеченных данных и очень большое количество непомеченных данных. Основная процедура заключается в том, что сначала программист сгруппирует похожие данные, используя алгоритм обучения без контроля, а затем использует существующие помеченные данные, чтобы пометить остальные немеченые данные. Типичные случаи использования алгоритма такого типа имеют общее свойство: сбор немеченых данных является относительно дешевым, а маркировка упомянутых данных — очень дорогой.

Интуитивно понятно, что можно представить три типа алгоритмов обучения: контролируемое обучение, когда ученик находится под присмотром учителя дома и в школе, самостоятельное обучение, когда ученик сам должен понять концепцию, и полууправляемое обучение, когда учитель преподает несколько концепций в классе и задает вопросы в качестве домашней работы, которые основаны на сходных концепциях.

Полу-контролируемый алгоритм предполагает следующее о данных —

  1. Предположение о непрерывности: алгоритм предполагает, что точки, расположенные ближе друг к другу, с большей вероятностью будут иметь одинаковую метку вывода.
  2. Предположение кластера: данные могут быть разделены на отдельные кластеры, и точки в одном кластере с большей вероятностью будут иметь общую метку вывода.
  3. Предположение о многообразии: данные лежат приблизительно на многообразии гораздо меньшего размера, чем входное пространство. Это предположение позволяет использовать расстояния и плотности, которые определены на многообразии .

Практическое применение полууправляемого обучения —

  1. Анализ речи: поскольку маркировка аудиофайлов является очень интенсивной задачей, обучение с использованием метода «под наблюдением» является очень естественным подходом к решению этой проблемы.
  2. Классификация интернет-контента. Маркировка каждой веб-страницы является непрактичным и невыполнимым процессом и, таким образом, использует алгоритмы обучения с полууправлением. Даже в алгоритме поиска Google используется вариант обучения под наблюдением, чтобы оценить релевантность веб-страницы для данного запроса.
  3. Классификация белковых последовательностей: поскольку нити ДНК, как правило, очень велики по размеру, в этой области неизбежен рост обучения под наблюдением полумониторов.

Google, в 2016 году запустил новый учебный инструмент с полууправлением, который называется Google Expander, и вы можете узнать больше об этом здесь.

Рекомендуемые посты:

ML | Полу-контролируемое обучение

0.00 (0%) 0 votes