采集模块

收藏523

阅读63588

更新时间2022-04-12


模块常用操作

操作名说明
采集流程详述
其它功能说明

说明:

 文章的采集功能是通过程序来远程获取目标网页内容,经过本地规则解析处理后存储到服务器的数据库内。 

 文章采集系统颠覆传统采集模式和流程,采集规则与采集界面分离,规则设置更简单,只需有基础技术知识的人员设置好相关规则。编辑人员无需了解太过细节的技 术规则,只需选中自己想要采集的文章列表,就可以像发布文章一样,轻松地完成数据采集操作。 
 
一、采集流程
 
简单的讲有三个步骤:
1、添加采集点,填写采集规则。
2、采集网址,采集内容
3、发布内容到指定栏目
 
以采集新浪新闻(http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml)为例,作一下详细流程介绍。
 
实例说明:
 
目标:采集新浪新闻到V9系统 国际新闻 栏目中。 
目标网址:http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml
 
 
1、添加采集点
 
1.1 网址规则配置
 
70.jpg
 
 
                       添加采集点 - 网址规则配置图1
 
 
查看要采集的目标网址源代码,查找到要采集网址的开始点和结束点(这二个点要有在整个源代码里具有唯一性)。更进一步缩小采集网址搜索范围。
 
71.jpg
 
                      添加采集点 - 网址规则配置图2
 
测试你的网址采集规则是否正确,如下图所示
 
72.jpg
 
 
1.2 内容规则配置 
 
内容规则这里看起来比较复杂,其实也很简单,为了便于说明,我们只采集标题、内容两个字段。采集内容网址:
http://news.sina.com.cn/w/2010-12-01/135121565455.shtml 的内容采集规则,请你打开这个网址,然后页面空白处右键->查看源文件搜索标题和内容的开始边界。
 
标题采集配置:
从网页里取标题,并去除不需要的字符。如下图
 
73.jpg
 
内容采集配置:
 
新浪新闻最终页,新闻内容都包含在  之间,而且这二个结点,在整个页面源代码中具有唯一性。所以可以以此为规则取内容。并对内容进行过滤。如下图  
 
74.jpg
 
1.3 自定义规则
 
1.4 高级配置
 
可设置是否把图片下载到服务器上,是否打水印等配置。
 
75.jpg
 
2、采集网址,采集内容
 
采集规则配好以后,即可进行网址的采集,然后进行内容的采集。
 
76.jpg  
 
 
3、发布内容到指定栏目
 
  77.jpg  
  78.jpg
 
选择导入的栏目
 
79.jpg
 
设置 采集内容与数据库的字段对应关系.提交进行数据入库,在此期间请耐心等待, 完成后会自动转向。至此一个简单的采集流程就操作完成。
 
其它更多功能,期待你发掘。
 
 
 
 
 
 
 


科技资讯

更多

精选课程

更多
前端入门_HTML5
前端入门_HTML5

共29课时

61.7万人学习

CSS视频教程-玉女心经版
CSS视频教程-玉女心经版

共25课时

39.3万人学习

JavaScript极速入门_玉女心经系列
JavaScript极速入门_玉女心经系列

共43课时

70.9万人学习

独孤九贱(1)_HTML5视频教程
独孤九贱(1)_HTML5视频教程

共25课时

61.6万人学习

独孤九贱(2)_CSS视频教程
独孤九贱(2)_CSS视频教程

共22课时

23万人学习

独孤九贱(3)_JavaScript视频教程
独孤九贱(3)_JavaScript视频教程

共28课时

33.9万人学习

独孤九贱(4)_PHP视频教程
独孤九贱(4)_PHP视频教程

共89课时

125万人学习

关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号