Обработка естественного языка.Практические задания 1-6 Росдистант ТГУ 2026г.  

Рейтинг: 5.0/1

450.00руб.
  • Тип:
  • Год: 2026
  • Страниц:
  • Размер: 1.05Mb
В корзину
Описание

Сдано в 2026году. Оценка 45,0 / 55,0 Скриншот с отметкой прилагается к работе.

Практическое задание 1

Модуль 1. Начальные этапы обработки слов и текста

Тема 1.1. Знакомство с технологией NLP

Задания:

1. Какие основные инструменты и приложения используются при обработке естественного языка?

2. История развития методов обработки естественного языка.

Рекомендации по выполнению задания

Написать реферат, который содержит ответы на вопросы задания. Реферат должен содержать не менее 10 страниц стандартного отформатированного текста.

Требования к отчету

Отчет по практическому заданию должен содержать:

1. Титульный лист.

2. Содержание.

3. Основной текст.

4. Список используемой литературы.

 

 

Практическое задание 2

Модуль 1. Начальные этапы обработки слов и текста

Тема 1.2. Составление словаря: токенизация слов

Задание: лемматизировать текст (привести к словарной форме) и приписать леммам частеречные теги.

Рекомендации по выполнению задания

Для выполнения этого практического задания вы можете воспользоваться грамматическим словарём oDict или  разметкой OpenCorpora и др.

На вход подаются предложения вида "токен1 токен2 ... токенN". Знаки препинания, которые могут быть использованы в предложениях: запятая, точка, вопросительный и восклицательный знаки. Предложения разделены переносом строки.

На выходе получаем последовательность вида: "токен1{лемма1=тег1} токен2{лемма2=тег2} ... токенN{леммаN=тегN}". Полученная последовательность не содержит исходных знаков препинания.

При выполнении лемматизации буквы е и ё считать равноправными, а также не учитывать регистр. Частеречные теги должны быть приведены к следующему инвентарю:

  • существительные (S);
  • прилагательные (A);
  • глаголы, в том числе причастия и деепричастия (V);
  • предлоги (PR);
  • союзы (CONJ);
  • сборная категория (ADV), включающая наречия, вводные слова, частицы, междометия.

Любым образом могут быть обозначены местоимения (включая наречные и предикативные), числительные, составные предлоги и союзы.

 

Требования к отчету

Структура отчета:

  1. Титульный лист.
  2. Алгоритм решения задачи.
  3. Листинг программы.   
  4. Контрольный тест.
  5. Выводы.

 

 

Практическое задание 3

Модуль 2. Применение нейронных сетей для обработки естественного языка

Тема 2.1. Умозаключения на основе векторов слов (Word2vec)

Задание: автоматически построить рефераты текстовых документов.

Рекомендации по выполнению задания

На вход подается массив текстов в формате JSON. Примеры текстов представлены в файле дополнительные материалы.json.

На выходе: массив рефератов в формате JSON, порядок рефератов соответствует порядку текстов во входных данных.

Максимальный размер каждого из рефератов составляет 300 знаков вместе с пробелами.

Пример входа:

["Первый текст...", "Второй текст..."]

Пример выхода:

["Реферат первого текста...", "Реферат второго текста..."]

 

Требования к отчету

Структура отчета:

  1. Титульный лист.
  2. Алгоритм решения задачи.
  3. Листинг программы.   
  4. Контрольный тест.
  5. Выводы.

 

 

Практическое задание 4

Модуль 2. Применение нейронных сетей для обработки естественного языка

Тема 2.2. Сверточные нейронные сети

Задание: определить тональность текста по шкале от 1 (негативный) до 10 (позитивный).

 

Рекомендации по выполнению задания

На вводе: тексты, разделенные переводом строки (\n).

На выводе: тональные оценки от 1 до 10 для каждого текста, разделенные переводом строки (\n).

Для обучения сети можно воспользоваться коллекцией текстов из файла texts_train4.txt, а соответствующие им оценки находятся в файле scores_train.txt. В качестве оценки используется евклидово (декартово) расстояние (RMSE).

Пример ввода:

Очень хорошо прописаны характеры. Занусси словно под микроскопом разглядывает человека, препарирует ситуацию, разбирает случай на детали, устраивает качели игр разума. Жанр не мой, но досмотрела — захватывает.

на мой взгляд самая неудачная книга у этого автора...

Пример выхода:

8

5

 

Требования к отчету

Структура отчета:

  1. Титульный лист.
  2. Алгоритм решения задачи.
  3. Листинг программы.   
  4. Контрольный тест.
  5. Выводы.

Практическое задание 5

Модуль 3. Реальные задачи обработки естественного языка

Тема 3.1. Выделение информации: выделение поименованных сущностей и формирование ответов на вопросы

Задание: выделить в тексте именованные сущности двух типов – организация и персона.

Рекомендации по выполнению задания

На вход передаются предложения, разделенные переносом строки.

На выходе для каждого входного предложения имеем последовательность вида   "индекс1 длина1 тег1 индекс2 длина2 тег2 ... индексi длинаi тегi … индексN длинаN тегN EOL", где индексi – индекс начала токена, длинаi – длина токена, тегi – тег токена. В качестве тегов могут выступать PERSON (персона) и ORG (организация). Если именованная сущность состоит из нескольких токенов, тег приписывается к каждому токену. Во входных предложениях могут отсутствовать именованные сущности этих типов. Разделитель в выводе в рамках одного предложения – пробельный символ, между выводами для различных предложений – перенос строки.

Для обучения сети воспользуйтесь коллекцией предложений из файла train_sentences.txt, соответствующие им теги можно найти в файле train_nes.txt. Также для вас доступны токены (файл train_tokens.txt) и предложения со вставленными тегами (файл train_sentences_enhanced.txt). Форматы предложенных файлов с обучающей коллекцией предложений, тегами, токенами соответствуют форматам ввода, вывода и формату файла с тегами с тем исключением, что перечисляются все токены, и вместо тегов для токенов указана используемая в предложении словоформа. В качестве метрики качества используется F1 по тегам обоих типов.

 

Требования к отчету

Структура отчета:

  1. Титульный лист.
  2. Алгоритм решения задачи.
  3. Листинг программы.   
  4. Контрольный тест.
  5. Выводы.

 

 

 

 

 

 

 

 

Практическое задание 6

Модуль 3. Реальные задачи обработки естественного языка

Тема 3.2. Диалоговые системы

Задание: реализуйте генератор юмора по мотивам работы Alessandro Valitutti et al. “Let Everything Turn Well in Your Wife”: Generation of Adult Humor Using Lexical Constraints, 2013.

Рекомендации по выполнению задания

На входе генератора – новостной заголовок, в котором надо заменить одно слово.

Для выполнения данного задания предлагаем использовать алгоритм:

1. Проведите разбор предложения с помощью библиотеки Stanza. На основе результатов разбора выберите слово-кандидат на замену.

2. Найдите антоним для слова в WordNet (используйте интерфейс библиотеки NLTK).

3. Если антоним не нашелся, то найдите несколько слов, близких по звучанию, или рифму с помощью datamuse api.

4. Получите векторы fasttext для начального слова и вариантов замены. Среди этих слов найдите самое далекое по косинусному расстоянию.

Оцените 20 модификаций по шкале от 0 (совсем не смешно) до 3 (очень смешно), приведите среднюю оценку.

 

Требования к отчету

Структура отчета:

  1. Титульный лист.
  2. Алгоритм решения задачи.
  3. Листинг программы.   
  4. Контрольный тест.
  5. Выводы.
 

avatar