Python即时网络爬虫:API说明

高洛峰
发布: 2016-11-22 16:24:15
原创
1664人浏览过

api说明——下载gsextractor内容提取器

1,接口名称

下载内容提取器

2,接口说明

如果您想编写一个网络爬虫程序,您会发现大部分时间耗费在调测网页内容提取规则上,不讲正则表达式的语法如何怪异,即便使用XPath,您也得逐个编写和调试。

立即学习Python免费学习笔记(深入)”;

如果要从一个网页上提取很多字段,逐个调试XPath将是十分耗时的。通过这个接口,你可以直接获得一个调测好的提取器脚本程序,是标准的XSLT程序,您只需针对目标网页的DOM运行它,就能获得XML格式的结果,所有字段一次性获得。

这个XSLT提取器可以是您用MS谋数台生成的,也可以是其他人共享给您的,只要您有读权限,皆可下载使用。

用于数据分析和数据挖掘的网络爬虫程序中,内容提取器是影响通用性的关键障碍,如果这个提取器是从API获得的,您的网络爬虫程序就能写成通用的框架。

3,接口规范

3.1,接口地址(URL)

http://www.gooseeker.com/api/getextractor

3.2,请求类型(contentType)

不限

3.3,请求方法

HTTP GET

3.4,请求参数

key 必选:Yes;类型:String;说明:申请API时分配的AppKey

theme 必选:Yes;类型:String;说明:提取器名,就是用MS谋数台定义的规则名

middle 必选:No;类型:String;说明:规则编号,如果相同规则名下定义了多个规则,需填写

即构数智人
即构数智人

即构数智人是由即构科技推出的AI虚拟数字人视频创作平台,支持数字人形象定制、短视频创作、数字人直播等。

即构数智人 36
查看详情 即构数智人

bname 必选:No;类型:String;说明:整理箱名,如果规则含有多个整理箱,需填写

3.5,返回类型(contentType)

text/xml; charset=UTF-8

3.6,返回参数

HTTP消息头中的参数,如下:

more-extractor 类型:String;说明:相同规则名下有多少个提取器。通常只在可选参数没有填写的时候需要关注这个参数,用以提示客户端有多个规则和整理箱,客户端自己决定是否要在发送请求时携带明确的参数

3.7,返回错误信息

消息层错误以HTTP 400返回,比如,URL中的参数不符合本规范

应用层错误以HTTP 200 OK返回,具体错误码用XML文件放在消息体中,XML结构如下:

<return>
    <code>具体的错误码</code>
</return>
登录后复制

具体的code值如下:keyError:权限验证失败

keyError:权限验证失败
paramError:URL中传来的参数有误,比如,参数名称或值不正确
登录后复制

4,用法范例(python语言)

示例代码:

# -*- coding: utf-8 -*-
from urllib import request

url = 'http://www.gooseeker.com/api/getextractor?key=您的key&theme=您的提取器名'

resp = request.urlopen(url)
content = resp.read()
if(content):
    print(content)
登录后复制

接下来我会对此API进行测试

相关标签:
python速学教程(入门到精通)
python速学教程(入门到精通)

python怎么学习?python怎么入门?python在哪学?python怎么学才快?不用担心,这里为大家提供了python速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号