NLP обработка текста, решение задачи классификации твитов - «Школа Больших Данных» Москва

YOUTUBE · 30.11.2025 08:40

Ключевые темы и таймкоды

Введение в NLP

0:01

Школа больших данных начинает серию видео по NLP.
Цель - создание модели классификации твитов на известном корпусе данных.
Первое видео посвящено подготовке данных.

Классификация документов

0:25

Классификация документов включает набор статей, текстов, твитов и т.д.
Примеры: отзывы классифицируются по позитивности, статьи по тематике, книги по авторам.
Задача относится к области data science и NLP.

Очистка текста

1:25

Очистка текста от ненужного мусора: запятые, точки, тире, смайлики и т.д.
Удаление символов, не несущих смысловой нагрузки.

Токенизация

2:07

Токенизация - приведение слов к нормальной форме.
Пример: слово "have" в английском языке имеет разные формы, которые нужно привести к одной форме.
Построение словаря для сопоставления слов с их номерами.

Векторное представление

3:30

Векторное представление предложений.
Возможные методы: BERT, GloVe, Word2Vec и другие.

Подготовка текста

4:04

Приведение к нижнему регистру.
Удаление стоп-слов.
Очистка и обработка специальных символов.
Лиматизация и стеминг для приведения слов к нормальной форме.

Пример с кодом

6:13

Использование Google Colab для подготовки данных.
Данные взяты из корпуса Юлии Рубцовой.
Импорт необходимых библиотек и подключение к Google Colab.

Обработка данных

7:55

Загрузка позитивных и негативных отзывов.
Создание датафреймов для позитивных и негативных отзывов.
Объединение датафреймов с помощью функции concat.

Объединение датафреймов

10:47

Объединение датафреймов с помощью функции concat.
Проверка размерностей и исправление ошибок.
Перемешивание отзывов для дальнейшего анализа.

Очистка текста

13:24

Используем регулярные выражения для очистки текста.
Удаляем все символы, кроме букв от а до я и цифр.
Приводим текст к нижнему регистру и заменяем некоторые символы.

Замена сайтов и пользователей

14:19

Заменяем все формы написания сайтов на слово "сайт".
Заменяем пользователей на слово "пользователь".
Применяем регулярное выражение для замены всех символов на пробел.

Тестирование лиматизации

15:51

Лимматизация занимает 151 миллисекунду.
Это слишком долго для обработки 111 тысяч отзывов.
Выбираем стеминг для дальнейшей обработки.

Тестирование стеминга

16:38

Стеминг занимает 854 миллисекунды.
Используем функцию apply для обработки каждого отзыва.
Функция df.process принимает один текстовый вход.

Результаты стеминга

18:12

Обработка всего корпуса заняла 2 минуты 33 секунды.
Все слова стали в нижнем регистре и заменены на нормальные формы.
Получен список слов в нормальной форме через запятую.

Заключение

19:31

Это первый шаг в решении задачи NLP.
В следующем видео будет рассмотрена токенизация слов и перевод их в числа.
Приглашение на курс по NLP в школе больших данных.