Написать парсер для новостных сайтов (для всех)
⚓ Work 📅 2026-04-13 👤 surdeus 👁️ 6
Парсер должен работать с очередью Rabbitmq в которую будут поступать задачи на парсинг. Парсить нужно не весь сайт а только новостные страницы, ссылки на которые поступают в очередь RMQ.
Для каждого сайта необходимо извлечь параметры:
Обязательно:
Заголовок статьи
Текст статьи
Автор статьи
Дата публикации
Параметры для парсинга сайта передаются в формате Xpath - коллекция Xpath указывающих где на странице находится нужный контент.
Предусмотреть базовый механизм защиты от блокировки CloudFlare, чтобы можно было распарсить 3-10 страниц в минут.
🏷️ Work_feed
