[middleware] allow enabling splash per spider

scrapy-plugins · pawelmhm · Apr 3, 2015 · Apr 3, 2015 · Apr 3, 2015 · May 26, 2015
commit 39740cb3623ee2ec79c124c28bcb928d1e26cd28
diff --git a/scrapyjs/middleware.py b/scrapyjs/middleware.py
@@ -32,6 +32,14 @@ def __init__(self, crawler, splash_base_url, slot_policy):
  self.splash_base_url = splash_base_url
  self.slot_policy = slot_policy
 
+ def get_splash_options(self, request, spider):
+ if request.meta.get("dont_proxy"):
+ return
+
+ spider_options = getattr(spider, "splash", {})
+ request_options = request.meta.get("splash")
+ return request_options or spider_options
+
  @classmethod
  def from_crawler(cls, crawler):
  splash_base_url = crawler.settings.get('SPLASH_URL', cls.default_splash_url)
@@ -43,24 +51,26 @@ def from_crawler(cls, crawler):
  return cls(crawler, splash_base_url, slot_policy)
 
  def process_request(self, request, spider):
- splash_options = request.meta.get('splash')
+ splash_options = self.get_splash_options(request, spider)
  if not splash_options:
  return
 
+ elif request.meta.get("_splash_processed"):
+ return
+
  if request.method != 'GET':
  log.msg("Currently only GET requests are supported by SplashMiddleware; %s "
  "will be handled without Splash" % request, logging.WARNING)
  return request
 
  meta = request.meta
- del meta['splash']
- meta['_splash_processed'] = splash_options
 
  slot_policy = splash_options.get('slot_policy', self.slot_policy)
  self._set_download_slot(request, meta, slot_policy)
 
  args = splash_options.setdefault('args', {})
- args.setdefault('url', request.url)
+ args['url'] = request.url
+
  body = json.dumps(args, ensure_ascii=False)
 
  if 'timeout' in args:
@@ -86,6 +96,7 @@ def process_request(self, request, spider):
  endpoint = splash_options.setdefault('endpoint', self.default_endpoint)
  splash_base_url = splash_options.get('splash_url', self.splash_base_url)
  splash_url = urljoin(splash_base_url, endpoint)
+ meta['_splash_processed'] = True
 
  req_rep = request.replace(
  url=splash_url,