微信公众号讲师中心

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机/移动开发手机游戏

最近更新

搜索

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程

首页 > 后端开发 > Python教程 > 正文

Python自定义scrapy中间模块避免重复采集的方法

php中文网

发布： 2016-06-06 11:24:21

原创

1565人浏览过

本文实例讲述了python自定义scrapy中间模块避免重复采集的方法。分享给大家供大家参考。具体如下：

from scrapy import log
from scrapy.http import Request
from scrapy.item import BaseItem
from scrapy.utils.request import request_fingerprint
from myproject.items import MyItem
class IgnoreVisitedItems(object):
  """Middleware to ignore re-visiting item pages if they
  were already visited before. 
  The requests to be filtered by have a meta['filter_visited']
  flag enabled and optionally define an id to use 
  for identifying them, which defaults the request fingerprint,
  although you'd want to use the item id,
  if you already have it beforehand to make it more robust.
  """
  FILTER_VISITED = 'filter_visited'
  VISITED_ID = 'visited_id'
  CONTEXT_KEY = 'visited_ids'
  def process_spider_output(self, response, result, spider):
    context = getattr(spider, 'context', {})
    visited_ids = context.setdefault(self.CONTEXT_KEY, {})
    ret = []
    for x in result:
      visited = False
      if isinstance(x, Request):
        if self.FILTER_VISITED in x.meta:
          visit_id = self._visited_id(x)
          if visit_id in visited_ids:
            log.msg("Ignoring already visited: %s" % x.url,
                level=log.INFO, spider=spider)
            visited = True
      elif isinstance(x, BaseItem):
        visit_id = self._visited_id(response.request)
        if visit_id:
          visited_ids[visit_id] = True
          x['visit_id'] = visit_id
          x['visit_status'] = 'new'
      if visited:
        ret.append(MyItem(visit_id=visit_id, visit_status='old'))
      else:
        ret.append(x)
    return ret
  def _visited_id(self, request):
    return request.meta.get(self.VISITED_ID) or request_fingerprint(request)

登录后复制

希望本文所述对大家的Python程序设计有所帮助。

绘蛙AI视频

绘蛙AI视频

绘蛙推出的AI模特视频生成工具

绘蛙AI视频

127

绘蛙AI视频

相关标签：

python

大家都在看：

python中slice函数如何实现？ Mac M1 芯片安装 Python 的注意事项 python namedtuple数据类哪个运行快 Python中Collections模块数据类型如何使用？ python中_getitem_如何使用?

python速学教程(入门到精通)

python速学教程(入门到精通)

python怎么学习？python怎么入门？python在哪学？python怎么学才快？不用担心，这里为大家提供了python速学教程(入门到精通)，有需要的小伙伴保存下载就能学习啦！

来源：php中文网

上一篇：Python中用startswith()函数判断字符串开头的教程下一篇：举例详解Python中的split()函数的使用方法

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

最新问题

python列表推导式是什么意思？列表推导式是Python中创建列表的简洁方法，1.通过[表达式for变量in可迭代对象if条件]语法实现；2.可替代传统for循环生成如平方数列表；3.支持条件筛选，如保留偶数平方；4.适用于数据转换与过滤，提升代码可读性和效率。

2025-11-25 21:54:10

588

python check函数如何使用？答案：check函数是自定义函数，用于验证条件。1.检查数据类型或范围，如check_age验证年龄是否为0-150的整数。2.使用os.path检查文件是否存在。3.检查字符串是否包含关键词。4.结合异常处理，如check_positive抛出错误提示。

2025-11-25 21:54:06

284

Python中msgpack库如何使用？ msgpack是一种高效的二进制序列化格式，比JSON更小更快，适用于网络通信和缓存存储。通过pipinstallmsgpack安装，使用packb()/unpackb()进行内存中数据的序列化与反序列化，支持dict、list、str、int等基本类型。可使用dump()/load()操作文件对象实现持久化存储。对于datetime等不支持的类型，可通过default和ext_hook参数自定义编码解码逻辑。注意默认情况下字符串key可能被转为bytes，需设置raw=False以保持为str

2025-11-25 21:49:32

427

python集合中的操作符有哪些？怎么用？ Python集合支持|（并集）、&（交集）、-（差集）、^（对称差集）操作符，用于简洁执行集合运算，如a|b得{1,2,3,4,5}，a&b得{3}，a-b得{1,2}，a^b得{1,2,4,5}，均返回新集合而不修改原集合。

2025-11-25 21:49:02

416

python中的对数log函数如何表示？答案是使用math模块或numpy库计算对数，math提供log、log10、log(x,base)用于单个值，numpy提供log、log10、log2用于数组运算，需确保输入大于0。

2025-11-25 21:48:06

969

python pexpect模块是什么？ pexpect模块用于自动化交互式命令行程序，其核心是expect机制，通过等待特定输出并发送响应实现控制，常用于自动登录、文件传输等场景，支持spawn启动进程、expect等待提示、sendline输入内容及interact交还控制权，主要适用于Unix/Linux系统，Windows需借助扩展，使用时需注意明文密码安全问题。

2025-11-25 21:47:02

610

python中slice函数如何实现？ slice是一个内置类，用于创建切片对象以控制序列访问。通过slice(start,stop,step)可定义切片规则，并应用于列表、字符串等序列类型，其效果等同于[start:stop:step]语法。Python在执行my_list[2:5]时，会将其转换为slice(2,5,None)并调用getitem方法处理。支持1到3个参数：slice(5)相当于[:5]，slice(2,7)为[2:7]，slice(1,9,2)对应[1:9:2]。自定义类可通过重写getitem接收slice对象

2025-11-25 21:46:03

417

python3.9中字典合并如何操作？ Python3.9引入|和|=操作符合并字典，|创建新字典，|=就地更新，重复键后者覆盖，相比**解包和update()更直观清晰。

2025-11-25 21:46:01

203

Mac M1 芯片安装 Python 的注意事项在MacM1芯片上安装Python需确保使用原生ARM64架构以获得最佳性能，避免通过Rosetta2运行的x86_64版本以防依赖冲突和性能损失；2.推荐使用pyenv+Homebrew或Miniforge进行安装，前者适合通用开发并可灵活管理多版本Python，后者专为数据科学优化且支持PyTorch、TensorFlow等库的原生ARM64安装；3.避免使用官方Anaconda图形安装包，因其常默认创建x86_64环境导致兼容问题；4.正确配置环境变量，确保Homebrew安装路径/opt

2025-11-25 21:45:07

468

python namedtuple数据类哪个运行快 namedtuple运行更快、内存更小，适合高频创建和只读场景；dataclass功能丰富但稍慢，适合复杂逻辑。

2025-11-25 21:43:28

826

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

Django 教程

17259次学习
收藏
SciPy 教程

6537次学习
收藏
Pandas 教程

7481次学习
收藏

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新 English: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

PHP中文网APP: 随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部