@scrapy_python FAQ

В этом репозитории находится полезная информация, собранная участниками чата.

С чего начать?

Прочитать документацию
Базовые вопросы по питону @ru_python_beginners

Как ограничить количество реквестов?

CLOSESPIDER_PAGECOUNT = 10

Как спарсить JS?

ставится Splash(удобно в Docker) и плагин scrapy_splash
смотреть откуда идут данные в Chrome -> devtools -> network -> XHR
JS to Python

Лучшие практики

Использовать css селекторы чтобы избежать пробелов в названии при использовании @class в xpath, альтернатива "contains(@class, 'someclass')" выглядит сложнее.
Использовать xpath для поиска сложных значений, например в таблицах
Использовать inline-requests для синхронных запросов в функции
Посмотреть мобильную версию

Полезные библиотеки

html_text - извлечь текст из сложного селектора, аналог .get_text(' ', strip=True) из BeautifulSoup, но быстрее и точнее.

Полезные браузерные расширения

Selector Gadget получить короткий css или xpath элемента(ов), см. видео на их сайте. Получается намного лучше встроенного в браузер copy as css/xpath.

Нельзя мешать yield и return?

После return жизни нет. Нужно возвращать список или что-то итерируемое.

Как вытащить узел по тексту внутри него используя css-селектор

Через CSS - никак. Использовать xpath contains. Документация по xpath.

Как поставить на windows

Простой способ - поставить в anaconda

Как достать items из последнего job-а в scrapinghub?

https://app.scrapinghub.com/api/items.json?project=PROJECT&spider=SPIDERNAME&apikey=KEY там где SPIDERNAME нужно вставить именно название, а не номер паука. дополнительно можно почитать тут

Как спарсить данные из нескольких форм с POST-запросами

Использовать цикл по форме c FormRequest.from_response, дополнительное поле со счетчиком формы formnumber=counter и с фильтром dont_filter=True.

Как обойти Cloudflare?

Страница отдает 503 ошибку. На этой странице javascript собирает код в форму с рандомным урлом и тремя hidden полями. После отправки этой формы отдается 302 редирект на нужную страницу.

Как передавать cookies

При надобности в передаче заранее подготовленных (например после авторизации на сайте) cookies, осуществить это можно через свой DownloaderMiddleware так:

В settings.py активируйте ваши DOWNLOADER_MIDDLEWARES
В settings.py убедиться, что значение по умолчанию COOKIES_ENABLED = True не переопределено на False, иначе scrapy не будет сохранять передаваемые ему страницой cookies.
В middlewares.py в методе обработки запросов process_request вашего DownloaderMiddleware прописать что-то такое:

def process_request(self, request, spider):
    request.cookies[cookiename] = value     # вставьте ваши значения
    return None

COOKIES_DEBUG = True в settings.py может помочь увидеть, что же происходит.

Где найти дефолтные настройки Scrapy?

default_settings.py в офф.репо

Как проанализировать запрос/форму?

Chrome -> devtools -> network -> клик на страницу -> copy as curl. Далее гуглим "curl to python", вставляем код и получаем распаршенный код в библиотеке requests
Если в Network в браузере поставить галочку напротив preserve log, то история запросов перестает очищаться при переходах между страницами.

Чем проанализировать пакеты сети или воспроизвести запрос/форму?

Fiddler или postman(он умеет сразу в питонкод конвертить). Мощнее и сложнее wireshark.

Обработка кодов состояния HTTP

По умолчанию скрапи обрабатывает успешные ответы, для обработки остальных ответов используйте handle_httpstatus_list, например:

class MySpider(CrawlSpider):
    handle_httpstatus_list = [404]

params в scrapy

В requests можно передать дополнительные параметры в GET методе:

import requests


params = (
    ('q', 'scrapy'),
)

response = requests.get('https://github.com/search', params=params)

В scrapy можно сделать аналогично, через FormRequest:

FormRequest(
    url='https://github.com/search',
    method='GET',
    formdata=params,
    callback=self.parse_data,
)

Деплой Scrapy

Хостинг Scrapinghub по дефолту стоит задержка, нужно отключать в настройках AUTOTHROTTLE_ENABLED чекбокс False
UI для Scrapy ScrapydWeb
Управление Scrapyd

Тесты

Spidermon

На сколько Scrapy быстрый?

Проверка N страниц.

requests в один поток - бесконечное время
scrapy из локальной машины - 30 минут
scrapinghub с включенным по дефолту тротлингом - больше 1 часа
scrapinghub без троттлинга 1 юнит - 23 минуты
scrapinghub без троттлинга 3 юнита - 15 минут

Можно ли использовать регулярные выражения в xpath?

Да, можно

Практика по регулярным выражениям. С чего начать?

Два туториала от Corey Shaffer: How to Match Any Pattern of Text и How to Write and Match Regular Expressions
Mastering Python Regular Expressions
Тираногайд по регуляркам

Очистка текста от HTML тегов

Исходный текст

<p>Включает:</p><p>Клапан впускной / VALVE INLET АРТ: 3142H111		3	шт</p>

Удаление HTML тегов из текста без сохранения визуального переноса строк:

from w3lib.html import remove_tags

remove_tags(какой то там текст)

Результат

Включает:Клапан впускной / VALVE INLET АРТ: 3142H111		3	шт

Удаление тегов из текста с сохранением визуального переноса строк с помощью библиотеки html2text

import html2text

html2text.html2text(какой то там текст)

Результат

Включает:

Клапан впускной / VALVE INLET АРТ: 3142H111 3 шт

Полезные ресурсы по Xpath

Справочники и туториалы с примерами:

Подборка cheatsheets и bestpractices по xpath

Name		Name	Last commit message	Last commit date
Latest commit History 71 Commits
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

@scrapy_python FAQ

С чего начать?

Как ограничить количество реквестов?

Как спарсить JS?

Лучшие практики

Популярные css селекторы

Полезные библиотеки

Полезные браузерные расширения

Нельзя мешать yield и return?

Как вытащить узел по тексту внутри него используя css-селектор

Как поставить на windows

Как достать items из последнего job-а в scrapinghub?

Как спарсить данные из нескольких форм с POST-запросами

Как обойти Cloudflare?

Как передавать cookies

Где найти дефолтные настройки Scrapy?

Как проанализировать запрос/форму?

Чем проанализировать пакеты сети или воспроизвести запрос/форму?

Обработка кодов состояния HTTP

params в scrapy

Деплой Scrapy

Тесты

На сколько Scrapy быстрый?

Можно ли использовать регулярные выражения в xpath?

Практика по регулярным выражениям. С чего начать?

Очистка текста от HTML тегов

Полезные ресурсы по Xpath

About

Releases

Packages

morrowbord/ru-scrapy-python

Folders and files

Latest commit

History

Repository files navigation

@scrapy_python FAQ

С чего начать?

Как ограничить количество реквестов?

Как спарсить JS?

Лучшие практики

Популярные css селекторы

Полезные библиотеки

Полезные браузерные расширения

Нельзя мешать yield и return?

Как вытащить узел по тексту внутри него используя css-селектор

Как поставить на windows

Как достать items из последнего job-а в scrapinghub?

Как спарсить данные из нескольких форм с POST-запросами

Как обойти Cloudflare?

Как передавать cookies

Где найти дефолтные настройки Scrapy?

Как проанализировать запрос/форму?

Чем проанализировать пакеты сети или воспроизвести запрос/форму?

Обработка кодов состояния HTTP

params в scrapy

Деплой Scrapy

Тесты

На сколько Scrapy быстрый?

Можно ли использовать регулярные выражения в xpath?

Практика по регулярным выражениям. С чего начать?

Очистка текста от HTML тегов

Полезные ресурсы по Xpath

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Packages