GitHub 每月为你提供 2000 分钟免费的持续集成/持续部署(CI/CD)时间。大多数开发者仅将其用于测试和部署。而我则用它来运行网络爬虫、数据管道和监控脚本。
以下是 5 个你可以直接借鉴的工作流。
1. 每日数据爬取器
爬取任意公开数据源,并将结果提交到你的代码仓库:
name: 每日爬取
on:
schedule:
- cron: "0 6 * * *" # 每天 UTC 时间早上 6 点
workflow_dispatch:
jobs:
scrape:
runs-on: ubuntu-latest
steps:
- uses: actions/checkout@v4
- uses: actions/setup-python@v5
with:
python-version: "3.12"
- run: pip install httpx
- run: python scraper.py
- name: 提交数据
run: |
git config user.name "机器人"
git config user.email "bot@example.com"
git add data/
git diff --cached --quiet || git commit -m "数据: $(date -u +%Y-%m-%d)"
git push
你爬取的数据会保存在代码仓库的 Git 历史记录中。为你的数据提供免费的版本控制。
2. 多源数据聚合器
使用矩阵策略并行爬取 5 个数据源:
name: 聚合多个数据源
on:
schedule:
- cron: "0 */4 * * *" # 每 4 小时一次
jobs:
scrape:
runs-on: ubuntu-latest
strategy:
matrix:
source:
免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。