首页 > php教程 > PHP源码 > 正文

Blankspider PHP 爬虫

PHP中文网
发布: 2016-05-25 17:09:59
原创
1524人浏览过

php代码

FUDforum论坛
FUDforum论坛

FUDforum(FUD论坛)是一个基于PHP+MySQL/PostgreSQL构建的开源论坛系统,支持多种语言包括简繁中文;采用模板系统来控制界面外观;基于角色的 权限控制系统;提供短消息发送平台;提供审查和回收站系统;支持附件/投票/全文搜索/IP跟踪/用户禁用/电子报/自定义Tag/排列用户等级等。 该版本支持静态论坛页、全局的通知、嵌套的子论坛和爬虫检测等功能;新增对DB2、SQL

FUDforum论坛 119
查看详情 FUDforum论坛
function spider($url, $spider = 'Blankspider', $port = 80, $timeout = 15) {
	$content= '';
	$resolve = parse_url($url);
	$host = $resolve['host'];
	$path = empty($resolve['path']) ? '/' : $resolve['path'].(!empty($resolve['query']) ? '?'.$resolve['query'] : '');
	if(empty($host)) { return 'Requested host name can\'t be empty'; }
	$fp = fsockopen($host, $port, $errno, $errstr, $timeout);
	if (!$fp) {
		return $errstr;
	} else {
		$fputs = "GET $path HTTP/1.1\r\n";
		$fputs.= "Accept: */*\r\n";
		$fputs.= "Host: $host\r\n";
		$fputs.= "Spider: $spider\r\n";
		$fputs.= "Connection: Close\r\n\r\n";
		stream_set_blocking($fp, 1);
		stream_set_timeout($fp, $timeout);
		fputs($fp, $fputs);
		while(!feof($fp)) {
			if(($return = fgets($fp)) && ($return == "\r\n" || $return == "\n")) {
				break;
			}
		}
		while(!feof($fp)) { $content .= fgets($fp, 8192); }
		fclose($fp);
		return $content;
	}

}

function cron2spider($iptable, $sleep = 5) {
	set_time_limit(0);
	$i = 0;
	date_default_timezone_set('PRC');
	if(!file_exists($iptable)) {
		return json_encode(array(
		'status'=> 'error',
		'description'=> 'iptable.conf file not exists'));
	}
	$file = file($iptable);
	if(empty($file)) {
		return json_encode(array(
		'status'=> 'error',
		'description'=> 'iptable.conf can\'t be empty'));
	}
	while($i< count($file)) {
		if(!file_exists('robots') || !is_writable('robots')) {
			return json_encode(array(
			'status'=> 'error',
			'description'=> 'directory doesn\'t exist or don\'t have write permissions'));
		}
		$dir = 'robots/'.preg_replace('/(http\:\/\/)|(\s)|(www\.)/', '', $file[$i]);
		if(!file_exists($dir)){ mkdir($dir); }
		file_put_contents($dir.'/'.date('Y.m.d.H.i.s', time()).'.txt', spider(preg_replace('/\s/', '', $file[$i])));
		$i++;
		sleep($sleep);
	}
	return json_encode(array(
	'status'=> 'ok',
	'description'=> 'robots program execution success'));
}

echo cron2spider('iptable.conf');
登录后复制

PHP速学教程(入门到精通)
PHP速学教程(入门到精通)

PHP怎么学习?PHP怎么入门?PHP在哪学?PHP怎么学才快?不用担心,这里为大家提供了PHP速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
作者最新文章
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号