Рубрики

Токенизация текста с использованием NLTK в Python

Чтобы запустить приведенную ниже программу Python, в вашей системе должен быть установлен (NLTK) инструментарий естественного языка.
Модуль NLTK — это массивный набор инструментов, призванный помочь вам в использовании всей методологии обработки естественного языка (NLP).
Для установки NLTK выполните следующие команды в своем терминале.

  • sudo pip install nltk
  • Затем введите оболочку python в свой терминал, просто набрав python
  • Тип импорта нлтк
  • nltk.download ( 'все')

Вышеуказанная установка займет довольно много времени из-за огромного количества токенизаторов, чанкеров, других алгоритмов и всей загружаемой корпорации.

    Некоторые термины, которые будут часто использоваться:

  • Корпус — Основная часть текста, единственное число. Корпора это множественное число от этого.
  • Лексикон — Слова и их значения.
  • Токен — каждая «сущность», которая является частью того, что было разделено на основе правил. Например, каждое слово является токеном, когда предложение «токенизируется» на слова. Каждое предложение также может быть токеном, если вы токенизировали предложения из абзаца.
  • Таким образом, в основном токенизация включает в себя разделение предложений и слов из основной части текста.

    # импортируем существующее слово и предложение токенизации
    # библиотеки

    from nltk.tokenize import sent_tokenize, word_tokenize

      

    text = "Natural language processing (NLP) is a field " + \

           "of computer science, artificial intelligence " + \

           "and computational linguistics concerned with " + \

           "the interactions between computers and human " + \

           "(natural) languages, and, in particular, " + \

           "concerned with programming computers to " + \

           "fruitfully process large natural language " + \

           "corpora. Challenges in natural language " + \

           "processing frequently involve natural " + \

           "language understanding, natural language" + \

           "generation frequently from formal, machine" + \

           "-readable logical forms), connecting language " + \

           "and machine perception, managing human-" + \

           "computer dialog systems, or some combination " + \

           "thereof."

      

    print(sent_tokenize(text))

    print(word_tokenize(text))`

    ВЫХОД
    [«Обработка естественного языка (NLP)» — это область компьютерных наук, искусственного интеллекта и компьютерной лингвистики, связанная с взаимодействием компьютеров и человеческих (естественных) языков, и, в частности, связанная с программированием компьютеров для плодотворной обработки больших корпусов естественного языка. '' Проблемы в обработке естественного языка часто включают понимание естественного языка, генерацию естественного языка (часто из формальных, машиночитаемых логических форм), соединение языка и машинного восприятия, управление диалоговыми системами человек-компьютер или некоторую их комбинацию. ']
    ['Natural', 'language', 'processing', '(', 'NLP', ')', 'is', 'a', 'field', 'of', 'computer', 'science', ' , ',' искусственный ',' интеллект ',' и ',' вычислительный ',' лингвистика ',' заинтересованный ',' с ',' the ',' взаимодействиями ',' между ',' компьютерами ',' и ' , 'человек', '(', 'естественный', ')', 'языки', ',', 'и', ',', 'in', 'конкретный', ',', заинтересованный ',' с ',' программированием ',' компьютерами ',' к ',' плодотворно ',' процессом ',' большим ',' естественным ',' языком ',' корпорацией ','. ',' вызовами ',' в ' , «естественный», «язык», «обработка», «часто», «вовлекать», «естественный», «язык», «понимание», «,», «естественный», «язык», «поколение», « (',' часто ',' из ',' формально ',', ',' машиночитаемый ',' логический ',' формы ',') ',', ',' connect ',' language ',' и ',' машина ',' восприятие ',', ',' управление ',' человек-компьютер ',' диалог ',' системы ',', ',' или ',' некоторые ',' комбинация ',' из них ','. ']

    Итак, мы создали токены, которые являются предложениями сначала, а словами — позже.

    Эта статья предоставлена Pratima Upadhyay . Если вы как GeeksforGeeks и хотели бы внести свой вклад, вы также можете написать статью с помощью contribute.geeksforgeeks.org или по почте статьи contribute@geeksforgeeks.org. Смотрите свою статью, появляющуюся на главной странице GeeksforGeeks, и помогите другим вундеркиндам.

    Пожалуйста, пишите комментарии, если вы обнаружите что-то неправильное или вы хотите поделиться дополнительной информацией по обсуждаемой выше теме.

    Рекомендуемые посты:

    Токенизация текста с использованием NLTK в Python

    0.00 (0%) 0 votes