微信公众号讲师中心

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机/移动开发手机游戏

最近更新

搜索

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程

首页 > 后端开发 > Python教程 > 正文

Python打印scrapy蜘蛛抓取树结构的方法

php中文网

发布： 2016-06-10 15:15:58

原创

1352人浏览过

本文实例讲述了python打印scrapy蜘蛛抓取树结构的方法。分享给大家供大家参考。具体如下：

通过下面这段代码可以一目了然的知道scrapy的抓取页面结构，调用也非常简单

#!/usr/bin/env python
import fileinput, re
from collections import defaultdict
def print_urls(allurls, referer, indent=0):
  urls = allurls[referer]
  for url in urls:
    print ' '*indent + referer
    if url in allurls:
      print_urls(allurls, url, indent+2)
def main():
  log_re = re.compile(r'<GET (.*&#63;)> \(referer: (.*&#63;)\)')
  allurls = defaultdict(list)
  for l in fileinput.input():
    m = log_re.search(l)
    if m:
      url, ref = m.groups()
      allurls[ref] += [url]
  print_urls(allurls, 'None')
main()

登录后复制

希望本文所述对大家的Python程序设计有所帮助。

乾坤圈新媒体矩阵管家

乾坤圈新媒体矩阵管家

新媒体账号、门店矩阵智能管理系统

乾坤圈新媒体矩阵管家

204

乾坤圈新媒体矩阵管家

相关标签：

python

大家都在看：

python中urlparse模块怎么用？解决Kivy安装失败：Python版本兼容性问题指南 Python requests-html 多语言网页内容抓取与翻译实践 Python Logging是什么？在SLURM中通过Python脚本调用srun的性能影响分析与实践

全能打印神器

全能打印神器

全能打印神器是一款非常好用的打印软件，可以在电脑、手机、平板电脑等设备上使用。支持无线打印和云打印，操作非常简单，使用起来也非常方便，有需要的小伙伴快来保存下载体验吧！

来源：php中文网

上一篇：Python实现把xml或xsl转换为html格式下一篇：Python实现在线程里运行scrapy的方法

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

最新问题

Python MemoryError 内存溢出的原因与解决方法 MemoryError是因程序内存超限所致，常见于大数据加载、无限增长结构、深递归、内存泄漏及多进程数据复制；解决方法包括：逐行读取文件、使用生成器、分块处理Pandas数据、及时释放对象并调用gc.collect()、采用内存映射、优化数据类型与结构，并通过tracemalloc等工具监控内存usage。

2025-11-23 23:49:12

975

python中upper函数的用法是什么？ upper()函数用于将字符串中的小写字母转为大写，返回新字符串而不改变原字符串。语法为字符串.upper()，无需参数。例如："hello".upper()得"HELLO"，"HelloWorld".upper()得"HELLOWORLD"，"hello123!".upper()得"HELLO123!"。常用于忽略大小写的比较、用户输入处理、数据标准化和条件判断等场景，是一种简单实用的字符串处理方法。

2025-11-23 23:46:02

329

Python中Selenium库如何调用浏览器？首先安装Selenium库并下载对应浏览器驱动，1.使用pipinstallselenium安装库；2.下载匹配的ChromeDriver、geckodriver或EdgeWebDriver；3.将驱动加入PATH或代码中指定路径；4.通过webdriver.Chrome()等创建实例；5.调用driver.get()打开网页；6.操作完成后执行driver.quit()关闭浏览器释放资源。

2025-11-23 23:38:02

938

Python中vlookup函数功能是什么? 使用pandas的merge或map可实现类似Excel中vlookup的功能。1.merge用于多列匹配，通过on指定键合并数据；2.map适用于一对一映射，利用字典将键值对应到新列。需确保键类型一致以保证匹配成功。

2025-11-23 23:38:02

510

Python 大文件分片上传的处理方法大文件分片上传通过切块避免内存溢出，客户端逐片上传并携带元数据，服务端按序合并；核心是生成器读取、分片传输与完整校验，支持断点续传和进度跟踪，确保GB级文件稳定上传。

2025-11-23 23:31:02

842

Python 输出函数 print() 的格式化技巧 Python中print()函数结合格式化可提升输出可读性，推荐使用f-string（如f"姓名：{name}"），支持表达式；也可用.format()方法或旧式%格式化，配合sep、end参数控制分隔与结尾，结合\t、\n等优化布局。

2025-11-23 23:30:06

383

Python 断点续传的文件处理方法断点续传通过记录已下载字节数、使用HTTPRange请求和文件追加写入实现，结合状态管理和完整性校验可确保大文件传输的可靠性与效率。

2025-11-23 23:29:08

701

python如何在列表末尾添加元素？最常用方法是append()，用于添加单个元素；extend()或+=可批量添加多个元素，均直接修改原列表。示例：my_list=[1,2,3]；使用append(4)得[1,2,3,4]；extend([4,5])或+=[4,5]得[1,2,3,4,5]。

2025-11-23 23:29:02

587

Python 将文件内容读取为字符串的方法使用open()或pathlib读取文件为字符串，小文件可用read()或Path.read_text()，大文件建议分块读取以避免内存溢出。

2025-11-23 23:27:06

209

python根据键值(value)返回键(key) 答案是可以通过遍历字典实现值反查键；具体方法包括使用循环查找首个匹配键，列表推导获取所有匹配键，或生成器提升大字典查找效率。

2025-11-23 23:25:02

613

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

Django 教程

16623次学习
收藏
SciPy 教程

6302次学习
收藏
Pandas 教程

7376次学习
收藏

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新 English: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

PHP中文网APP: 随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部