Обучение парсингу на Python #2 | Парсинг сайтов | Выполняем заказ на фрилансе

YOUTUBE · 18.11.2025 18:42

Ключевые темы и таймкоды

Введение и цель видео

0:08

Приветствие и анонс обучения парсингу на практике.
Объяснение цели: сбор данных о калорийности продуктов с сайта ЗОЖ-портала.
Рекомендация посмотреть видео по использованию библиотеки BeautifulSoup для новичков.

План действий и установка библиотек

1:08

Описание порядка действий: сбор ссылок на страницы групп продуктов, сбор информации о химическом составе.
Установка библиотек: requests, beautifulsoup, soup, e.

Сохранение индексной страницы

1:53

Создание переменной для ссылки на страницу.
Использование метода get библиотеки requests с заголовками для имитации поведения пользователя.
Сохранение страницы в файл для дальнейшего использования.

Анализ страницы с помощью BeautifulSoup

4:20

Создание объекта BeautifulSoup и передача ему кода страницы.
Поиск ссылок на категории товаров по классу.
Сбор ссылок с помощью метода find_all.

Обработка ссылок и сохранение данных

5:47

Получение названия категории и ссылки с помощью методов text и get.
Добавление доменного имени к ссылке.
Сохранение данных в словаре.

Сохранение словаря в JSON-файл

6:43

Импорт модуля json и сохранение словаря в JSON-файл.
Объяснение параметров indent и encode для корректного сохранения данных.

Цикл для сбора данных о категориях

8:02

Создание цикла для посещения страниц категорий.
Замена символов в именах категорий с помощью метода replace.
Предложение поделиться идеями по замене символов в комментариях.

Подготовка к работе с запросами

9:21

Прокомментируем заголовки для повторного использования.
Сохраняем результат в переменную и страницу под именем «категории».
Создаём папку «data» для сохранения файлов и переменную «аккаунт» для счётчика файлов.

Тестирование кода на одной странице

9:51

Обертываем код в условие if для работы с одной страницей.
Проверяем работу кода, запуская его.

Сбор данных с страницы

10:32

Сохраняем код страницы в переменную.
Создаём объект BeautifulSoup и находим заголовки таблицы: «продукт», «калорийность», «белки», «жиры», «углеводы».
Собираем данные из тегов TH.

Запись данных в файл

12:38

Открываем файл для записи с расширением CSV.
Импортируем модуль csv и создаём переменную writer.
Записываем данные в файл, объединяя объекты в кортеж.

Сбор данных продуктов

13:47

Собираем данные продуктов из тегов TD и TH.
Выводим название продукта и другие данные.
Дозаписываем данные в CSV-файл в цикле.

Обработка пустых категорий

15:55

Добавляем условие для обработки пустых категорий.
Создаём переменную для количества страниц категорий.
Выводим принт после каждой итерации.

Добавление паузы и завершение работы

17:08

Добавляем рандомную паузу между итерациями.
Проверяем количество итераций и выходим из цикла при нуле.

Создание файла в формате JSON

17:35

Создаём список product_info для сбора данных в формате JSON.
Сохраняем файл с параметрами.

Тестирование и итоги

18:39

Запускаем код, процесс стартует.
В папке «data» теперь три файла: CSV, HTML и JSON.
Проект интересен практикой работы с библиотеками и получением полезных данных.

Заключение

19:51

Автор благодарит за просмотр и призывает подписываться на канал.
Предлагает скачать код с GitHub или Telegram-канала.