我用来运行免费网络爬虫、监控程序和数据管道的 5 个 GitHub Actions 工作流

发布日期:2026-03-26 10:06:18   浏览量 :7
发布日期:2026-03-26 10:06:18  
7

GitHub 每月为你提供 2000 分钟免费的持续集成/持续部署(CI/CD)时间。大多数开发者仅将其用于测试和部署。而我则用它来运行网络爬虫、数据管道和监控脚本。

以下是 5 个你可以直接借鉴的工作流。

1. 每日数据爬取器

爬取任意公开数据源,并将结果提交到你的代码仓库:

name: 每日爬取
on:
  schedule:
    - cron: "0 6 * * *"  # 每天 UTC 时间早上 6 点
  workflow_dispatch:

jobs:
  scrape:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4
      - uses: actions/setup-python@v5
        with:
          python-version: "3.12"
      - run: pip install httpx
      - run: python scraper.py
      - name: 提交数据
        run: |
          git config user.name "机器人"
          git config user.email "bot@example.com"
          git add data/
          git diff --cached --quiet || git commit -m "数据: $(date -u +%Y-%m-%d)"
          git push

你爬取的数据会保存在代码仓库的 Git 历史记录中。为你的数据提供免费的版本控制。

2. 多源数据聚合器

使用矩阵策略并行爬取 5 个数据源:

name: 聚合多个数据源
on:
  schedule:
    - cron: "0 */4 * * *"  # 每 4 小时一次

jobs:
  scrape:
    runs-on: ubuntu-latest
    strategy:
      matrix:
        source:

免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。

关于我们
热门推荐
合作伙伴
免责声明:本站部分资讯来源于网络,如有侵权请及时联系客服,我们将尽快处理
支持 反馈 订阅 数据
回到顶部