Node.js爬虫的部署、调度与静态网站数据集成指南-html教程-PHP中文网

Node.js爬虫的部署、调度与静态网站数据集成指南

本教程详细阐述如何部署和自动化运行node.js网络爬虫，实现定时数据抓取并更新静态网站内容。我们将探讨node.js脚本的服务器端运行机制、windows任务计划程序等调度工具的配置，以及爬取数据与静态html页面集成的策略，旨在帮助您构建高效且自动化的数据更新流程。

1. 理解Node.js爬虫的运行环境

首先，明确您的Node.js爬虫脚本（如index.js）是一个服务器端应用程序，它需要一个Node.js运行时环境才能执行。这与您部署静态HTML、CSS和客户端JavaScript文件的Web服务器环境有所不同。静态网站文件由浏览器直接加载和渲染，而Node.js脚本则在服务器上独立运行，执行文件操作、网络请求等任务。

这意味着您的index.js文件不能像普通的客户端JavaScript那样直接通过 <script> 标签在浏览器中运行。它需要一个安装了Node.js的操作系统（如Windows、Linux、macOS或云服务器）来启动。

2. 部署Node.js爬虫脚本

部署Node.js爬虫脚本的第一步是将其放置在一个可以访问Node.js运行时的机器上。

2.1 本地开发与测试环境

在本地进行开发和测试时，您可能会遇到跨域资源共享（CORS）问题，尤其当您尝试从本地文件系统加载JSON数据时。这是因为浏览器出于安全考虑，限制了本地文件对其他资源的访问。

用户提到的使用XAMPP解决了问题，这是因为XAMPP提供了一个本地Web服务器（Apache），当您将HTML和JSON文件都放在XAMPP的Web根目录（如htdocs）下时，它们通过localhost从同一个“源”（origin）提供服务。这样，您的HTML页面就可以通过相对路径或http://localhost/...来访问由爬虫生成的JSON文件，从而规避了CORS限制。

2.2 服务器环境部署

对于生产环境，您通常会将爬虫部署到以下类型的服务器：

云虚拟机 (Virtual Machine, VM): 如AWS EC2、Google Cloud Compute Engine、阿里云ECS或腾讯云CVM。
1. 选择操作系统： 通常选择Linux发行版（如Ubuntu, CentOS）。
2. 安装Node.js： 按照官方指南在VM上安装Node.js运行时环境。
3. 上传代码： 使用SCP、SFTP或Git将您的Node.js爬虫代码上传到VM。
物理服务器： 如果您有自己的物理服务器，部署流程与云虚拟机类似。

3. 自动化调度爬虫任务

为了让爬虫每天定时运行，您需要利用操作系统的任务调度功能。

3.1 Windows任务计划程序

对于Windows服务器，可以使用“任务计划程序”来自动化执行Node.js脚本。

步骤：

打开任务计划程序： 在搜索栏输入“任务计划程序”并打开。
创建基本任务： 在右侧操作栏选择“创建基本任务”。
命名任务： 为任务指定一个名称（例如：“每日爬虫更新”），并添加描述。
设置触发器：
- 选择“每天”作为触发频率。
- 设置起始日期和时间（例如，每天上午8:00:00）。
- 确保“重复任务间隔”为“1天”。
设置操作：
- 选择“启动程序”。
- 程序或脚本： 找到Node.js可执行文件的路径。通常在 C:\Program Files\nodejs\node.exe。
- 添加参数 (可选)： 输入您的爬虫脚本的完整路径，例如 C:\path\to\your\index.js。
- 起始于 (可选)： 输入您的爬虫脚本所在的目录路径，例如 C:\path\to\your\。这有助于确保脚本能正确找到其依赖文件。
完成： 确认设置并完成任务创建。

3.2 Linux/macOS Crontab

对于Linux或macOS服务器，可以使用cron服务来调度任务。

打开Crontab编辑器： 在终端输入 crontab -e。
添加任务行： 在文件末尾添加一行，指定运行时间和命令。例如，每天上午8点运行：
```
0 8 * * * /usr/bin/node /path/to/your/index.js >> /path/to/your/cron.log 2>&1
```
登录后复制
- 0 8 * * *: 表示在每天的第0分钟（即整点）的第8小时运行。
- /usr/bin/node: Node.js可执行文件的路径，您可能需要通过 which node 命令查找。
- /path/to/your/index.js: 您的爬虫脚本的完整路径。
- >> /path/to/your/cron.log 2>&1: 将所有输出（包括错误）重定向到一个日志文件，便于调试。
保存并退出： 保存文件后，cron会自动加载新的任务。

微撰
AI智能写作平台

207

查看详情

3.3 云服务调度 (进阶)

对于更复杂的云原生应用，可以考虑使用云服务提供的调度功能：

AWS Lambda + CloudWatch Events: 将爬虫代码封装成Lambda函数，使用CloudWatch Events设置定时触发器。
Google Cloud Scheduler + Cloud Functions: 类似地，使用Cloud Functions运行爬虫，并通过Cloud Scheduler进行调度。

4. 爬取数据与静态网站集成

这是将爬虫结果展示到静态网站的关键环节。由于静态网站本身无法执行服务器端逻辑，需要特定的策略来获取更新的数据。

4.1 策略一：本地文件系统同步 (适用于同服务器部署)

如果您的静态网站和Node.js爬虫部署在同一台服务器上（例如，都运行在您的本地机器上，或者一个带有Web服务器的云VM上），这是最直接的方式。

实现方式： 爬虫脚本直接将抓取到的JSON数据写入到Web服务器可以访问的静态文件目录中。
示例： 如果您的Web服务器根目录是 /var/www/html，并且您的HTML文件在 /var/www/html/index.html，那么爬虫可以将JSON文件写入 /var/www/html/data/latest.json。
HTML访问： 您的 index.html 可以通过客户端JavaScript使用 fetch 或 XMLHttpRequest 来加载这个JSON文件：
```
fetch('/data/latest.json')
    .then(response => response.json())
    .then(data => {
        // 处理并显示数据
        console.log(data);
    })
    .catch(error => console.error('Error loading JSON:', error));
```
登录后复制
这种方式利用了同源策略，因为HTML和JSON都来自同一个Web服务器。

4.2 策略二：通过API或云存储服务 (适用于分离部署)

如果您的静态网站托管在不同的平台（如GitHub Pages、Netlify、Vercel），而爬虫运行在独立的服务器上，则需要一个中间层。

实现方式：
1. 爬虫上传数据： 爬虫在抓取数据后，将其上传到一个可公开访问的云存储服务（如AWS S3、Google Cloud Storage）或一个自定义的API端点。
2. 静态网站获取数据： 您的静态HTML页面通过AJAX请求从云存储的URL或API端点获取数据。
CORS处理： 如果您的静态网站和数据源（云存储或API）来自不同的域名，您需要在数据源端配置CORS头部，允许您的静态网站域名进行跨域请求。例如，在S3桶策略中添加CORS规则，或者在API服务器端设置响应头 Access-Control-Allow-Origin。

4.3 策略三：静态网站生成器与CI/CD (适用于高度自动化)

对于需要频繁更新内容且注重性能和SEO的静态网站，可以结合静态网站生成器（如Jekyll、Hugo、Next.js的静态导出）和持续集成/持续部署（CI/CD）流程。

实现方式：
1. 爬虫更新数据： 爬虫将数据保存到项目的特定位置。
2. 触发构建： 爬虫运行结束后，触发一个CI/CD流程（例如，通过Webhook通知GitHub Actions、GitLab CI/CD）。
3. 网站重新生成与部署： CI/CD流程拉取最新数据，使用静态网站生成器重新构建整个网站，然后将更新后的静态文件部署到CDN或静态托管服务。

5. Node.js爬虫示例代码分析

以下是您提供的Node.js爬虫代码，它使用Puppeteer抓取多个网站的数据并保存为JSON文件。

const puppeteer = require('puppeteer');
const fs = require('fs');

// 爬取第一个网站数据
(async () => {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();
  await page.goto('https://br.advfn.com/investimentos/futuros/di-depositos-interfinanceiros/cotacoes',{
    waitUntil: 'load', // 注意：原文是waitUntill，应为waitUntil
    timeout: 0
  });

  const textNode = await page.evaluate(()=>{
    const nodeText = document.querySelector(".even.first").innerText;
    const text = [nodeText];
    return text
  });

  fs.writeFile('arreglo2.json', JSON.stringify(textNode), err =>{
    if (err) throw new Error ('algo deu errado')
      console.log('deu certo')
  })
  await browser.close(); // 确保关闭浏览器实例
})();

// 爬取第二个网站数据 (DX)
(async () => {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();
  await page.goto('https://br.tradingview.com/symbols/TVC-DXY/',{
    waitUntil: 'load',
    timeout: 0
  });

  const textNode = await page.evaluate(()=>{
    const nodeText = document.querySelector(".js-quote-ticker.tv-site-table__row.tv-widget-watch-list__row:nth-child(2)").children[1].children[1].children[0].innerHTML;
    const text = [nodeText];
    return text
  });

  fs.writeFile('arreglo.json', JSON.stringify(textNode), err =>{
    if (err) throw new Error ('algo deu errado')
      console.log('deu certo')
  })
  await browser.close(); // 确保关闭浏览器实例
})();

// 爬取第三个网站数据 (美元收盘价)
(async () => {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();
  await page.goto('https://br.advfn.com/bolsa-de-valores/fx/USDBRL/cotacao',{
    waitUntil: 'load',
    timeout: 0
  });

  const textNode = await page.evaluate(()=>{
    const nodeText = document.querySelector(".qs-current-price").innerText;
    const text = [nodeText];
    return text
  });

  fs.writeFile('cotacaoFechamento.json', JSON.stringify(textNode), err =>{
    if (err) throw new Error ('algo deu errado')
      console.log('deu certo')
  })
  await browser.close(); // 确保关闭浏览器实例
})();

登录后复制

代码说明：

Puppeteer： 一个Node库，提供高级API来通过DevTools协议控制Chrome或Chromium。它可以用于自动化测试、网页抓取等。
puppeteer.launch()： 启动一个浏览器实例（默认是无头模式，即没有图形界面）。
browser.newPage()： 在浏览器中创建一个新页面。
page.goto()： 导航到指定的URL。waitUntil: 'load' 表示等待页面完全加载。timeout: 0 表示没有超时限制。
page.evaluate()： 在浏览器页面上下文中执行JavaScript代码，并返回结果。这是从页面中提取数据的主要方式。
fs.writeFile()： Node.js的文件系统模块，用于将数据写入文件。这里将抓取到的数据转换为JSON字符串后保存到本地文件。
browser.close()： 非常重要！ 每次抓取完成后，务必关闭浏览器实例，以释放系统资源，避免内存泄漏。在您的原始代码中缺少这一步，这可能导致长时间运行后系统资源耗尽。已在示例代码中添加。

6. 注意事项与最佳实践

错误处理与日志记录： 在生产环境中，您的爬虫脚本应该包含健壮的错误处理机制（例如，使用try...catch块）和详细的日志记录。当爬虫失败时，日志可以帮助您快速定位问题。
资源管理： 确保每次Puppeteer使用完毕后，都调用 await browser.close() 来关闭浏览器实例，防止资源泄露。
爬取道德与法律：
- 遵守 robots.txt： 在抓取任何网站之前，请检查其 robots.txt 文件，了解哪些页面允许抓取，哪些被禁止。
- 限制请求频率： 不要对目标网站发起过高的请求频率，以免对其服务器造成负担，导致IP被封禁。
- 遵守服务条款：