2 回答
TA贡献1871条经验 获得超8个赞
尝试为蜘蛛类型添加单独的参数。您可以通过调用来设置它scrapy crawl myspider -a spider_type=second。检查此代码示例:
import scrapy
import pkgutil
class StockSpider(scrapy.Spider):
name = "myspider"
def start_requests(self):
if not hasattr(self, 'spider_type'):
self.logger.error('No spider_type specified')
return
data = pkgutil.get_data("tutorial", "resources/webs.txt")
data = data.decode()
for url in data.split("\r\n"):
if self.spider_type == 'first':
url += 'first'
if self.spider_type == 'second':
url += 'second'
yield scrapy.Request(url)
def parse(self, response):
pass
而且您始终可以创建基主类,然后从它继承,仅重载一个变量(添加到 url)和名称(用于单独调用)。
TA贡献1876条经验 获得超6个赞
spider_type 导致错误
NameError: name 'spider_type' is not defined.
它是蜘蛛类中的 self.spider_type。
import scrapy
import pkgutil
class StockSpider(scrapy.Spider):
name = "myspider"
def start_requests(self):
if not hasattr(self, 'spider_type'):
self.logger.error('No spider_type specified')
return
data = pkgutil.get_data("tutorial", "resources/webs.txt")
data = data.decode()
for url in data.split("\r\n"):
if self.spider_type == 'first':
url += 'first'
if self.spider_type == 'second':
url += 'second'
yield scrapy.Request(url)
def parse(self, response):
pass
使其更加严格和准确。
scrapy crawl myspider -a spider_type='second'
添加回答
举报