Skip to content

Releases: Boris-code/feapder

feapder v1.9.0

19 Mar 13:07
Compare
Choose a tag to compare

更新

  1. BloomFilter去重默认使用同一个key,其它类型去重默认使用redis_key
  2. BloomFilter 自动分批去重,防止一次性传输大量的数据,导致报错
  3. MongoDB 批量更新代码。
  4. RedisDB 支持hvals 命令返回哈希表所有的值。
  5. 钉钉报警支持指定用户id
  6. 爬虫代码支持提示
  7. 支持python3.12

Bug Fixes

  1. 修复mysql db find 方法bug

feapder v1.8.9

21 Sep 06:51
Compare
Choose a tag to compare

更新

  1. 支持外置下载中间件
  2. 钉钉报警支持加签密钥
  3. 适配selenium>=4.0版本,新增Edge Webdriver
  4. 优化报警中的爬虫名

Bug Fixes

  1. 修复 taskspider 不回调start_callback的bug
  2. 修复重新导入失败item的bug

feapder v1.8.8

18 Aug 08:48
Compare
Choose a tag to compare

更新

  1. 重写代理池,可自主控制删除代理、可自定义代理池

feapder v1.8.6

28 Jun 12:30
Compare
Choose a tag to compare

更新

  1. 支持stop_spider方法,停止爬虫
  2. 监控模块metrics支持设置retention_policy副本数及是否设置为默认
  3. 完善normal_user_pool登录失败后回调的逻辑
  4. TaskSpider 可选择是否使用mysql
  5. 支持python3.11版本
  6. 精简安装包
  7. log 支持success方法

Bug Fixes

  1. 修复监控打点时间戳的问题

feapder v1.8.5

10 Jan 04:00
Compare
Choose a tag to compare

Bug Fixes

  1. 修复去重库ExpireFilter与LiteFilter在批量去重时,本批内数据之间未参与去重的bug。如 ["xxx", "bbb", "xxx"] 两个xxx应只保留一个

feapder v1.8.4

03 Dec 11:15
Compare
Choose a tag to compare

更新

  1. Task spider 支持检查依赖爬虫的状态,依赖的爬虫做完才可结束自己
  2. 命令行工具支持retry,可重试失败的请求或者item
  3. 支持重新导入失败的item
  4. 批次爬虫支持设置不自动启动下一批次
  5. item 支持update方法

Bug Fixes

  1. 修复任务爬虫依赖其他爬虫的bug
  2. 修复 GoldUserPool bug
  3. 修复有依赖爬虫时,依赖爬虫不结束,新批次开启不了的bug

feapder v1.8.3

04 Nov 06:13
Compare
Choose a tag to compare

Bug Fixes

  1. 修复下载中间件中自定义返回response时,response.browser属性不存在导致异常的bug
  2. 修复默认ua的bug,以及浏览器渲染模式下,ua及代理优先级的问题
  3. 修复selenium浏览器渲染bug
  4. 适配parsel==1.7.0

feapder v1.8.0

31 Oct 03:13
Compare
Choose a tag to compare

更新

  1. 支持playwright
  2. exception_request及failed_request透传异常参数e
  3. AirSpider 支持去重
  4. 批次超时报警后,若后续批次完成,则发个批次完成的报警,提醒已恢复正常
  5. 爬虫并发数默认1

Bug Fixes

  1. 修复feapder命令在pycharm中上下方向键不起作用的问题

feapder v1.7.9

09 Aug 11:17
Compare
Choose a tag to compare

更新

  1. 浏览器渲染支持指定selenuim的更多参数
WEBDRIVER = dict(
    pool_size=1,  # 浏览器的数量
    load_images=True,  # 是否加载图片
    user_agent=None,  # 字符串 或 无参函数,返回值为user_agent
    proxy=None,  # xxx.xxx.xxx.xxx:xxxx 或 无参函数,返回值为代理地址
    headless=False,  # 是否为无头浏览器
    driver_type="CHROME",  # CHROME、PHANTOMJS、FIREFOX
    timeout=30,  # 请求超时时间
    window_size=(1024, 800),  # 窗口大小
    executable_path=None,  # 浏览器路径,默认为默认路径
    render_time=0,  # 渲染时长,即打开网页等待指定时间后再获取源码
    custom_argument=[
        "--ignore-certificate-errors",
        "--disable-blink-features=AutomationControlled",
    ],  # 自定义浏览器渲染参数
    xhr_url_regexes=None,  # 拦截xhr接口,支持正则,数组类型
    auto_install_driver=True,  # 自动下载浏览器驱动 支持chrome 和 firefox
    use_stealth_js=True,  # 使用stealth.min.js隐藏浏览器特征
    xxxx=xxx,
    xxx2=xxx2
)

Bug Fixes

  1. 修复浏览器渲染模式下的代理bug
  2. 修复delete_keys的bug

feapder v1.7.8

04 Aug 11:12
Compare
Choose a tag to compare

更新

  1. 响应的html支持指定是否拼接绝对连接
  2. 优化命令行,支持创建TaskSpider
  3. 下载方法单独抽离出来,方便扩展
  4. 优化tools.del_html_tag 函数