从「全网专利洪流」到每日 Discord 情报卡
Patent Scout 是一个智能专利监控系统,让用户订阅特定的 CPC 分类(如 A61K 医药、G06N AI),Bot 每天自动推送最新公开/授权专利的「创新点卡片」并附相似专利对比,帮助研发或投资人员当天就锁定潜在机会与冲突。
- 智能专利订阅:基于 CPC 分类的精准订阅
- 实时数据获取:每日自动拉取 USPTO、EPO 最新专利数据
- AI 驱动分析:使用 GPU 加速的大语言模型生成专利摘要和对比
- Discord 智能推送:美观的卡片式情报推送
- 相似专利检索:基于向量数据库的快速相似专利发现
| 来源 | 更新频率 | 获取方式 | 备注 |
|---|---|---|---|
| USPTO Bulk Data | 每日 (Patent Application Data: pa-yyyymmdd.zip) | https://data.uspto.gov/bulkdata/pa/YYYY/ ➜ cron 下载 |
官方全量 XML/JSON |
| USPTO Data APIs | 实时 | Office-Action / Enriched-Citation / CPC‐MCF endpoints | 补充引用/法律状态 |
| EPO OPS | 滚动 | REST + 24 h token | 拿欧专局早期同族信息 |
| 功能 | 建议组件 | 3090 用武之地 |
|---|---|---|
| 数据拉取 & 解析 | FastAPI + Pydantic + async Cron | CPU |
| 文本向量化 | sentence-transformers/paraphrase-mpnet-base-v2 (或 mtr-patent-bert) |
GPU 加速批量 Embedding |
| 向量检索 | Qdrant (Rust) | GPU 可选 (HNSW-GPU) |
| 摘要与对比 | Llama-3-8B QLoRA on GPU 24 GB | Stable 25 tokens/s |
| 工作流编排 | Flowise 图形化 RAG | GPU 调用 LLM 节点 |
| Bot 交互 | discord.py + Slash Commands |
– |
┌─────────────────┐ cron ┌──────────────┐
│ USPTO Bulk Zips │────────▶│ Data Loader │──┐
└─────────────────┘ └──────────────┘ │ JSON rows
┌─▼──────────┐
│ Parser & │
│ CPC Filter │
└─┬──────────┘
embeddings + meta │
┌─────────────────┐ ┌──────────────▼──────────┐
│ Qdrant Vector │◀──────────┤ Embedding Generator │(GPU)
└─────────────────┘ └──────────────┬──────────┘
│ Top-k vectors
┌───────▼────────┐
│ Summarizer │(GPU Llama-3)
└───────┬────────┘
cards │
┌───────────┐ webhook ┌──────▼─────┐ ┌───▼───┐
│ Discord │◀──────────│ Card Maker │◀──┤ Diff │
└───────────┘ └────────────┘ └───────┘
- Python 3.10+
- NVIDIA GPU (推荐 RTX 3090 24GB)
- Docker & Docker Compose
- 16GB+ RAM
- 克隆项目
git clone https://github.com/TimoZhou1024/PatentRadar.git
cd PatentRadar- 环境配置
cp .env.example .env
# 编辑 .env 文件,配置各项密钥- 启动服务
docker-compose up -d- 初始化数据库
python scripts/init_db.py详细配置说明请参考 配置文档
PatentRadar/
├── backend/ # FastAPI 后端服务
│ ├── app/
│ │ ├── api/ # API 路由
│ │ ├── core/ # 核心配置
│ │ ├── models/ # 数据模型
│ │ ├── services/ # 业务逻辑
│ │ └── utils/ # 工具函数
│ ├── Dockerfile
│ └── requirements.txt
├── discord-bot/ # Discord 机器人
├── data-pipeline/ # 数据处理管道
├── ml-models/ # 机器学习模型
├── scripts/ # 工具脚本
├── docs/ # 项目文档
├── docker-compose.yml
└── README.md
参考 开发指南
| 环节 | 24 GB 3090 显存占用 | 单日 3k 新专利耗时 |
|---|---|---|
| Embedding (FP16) | ≈6 GB | ~4 min (batch 64) |
| Llama-3-8B QLoRA | ≈15 GB | 3 cards/s ↯ 17 min |
| 合计 GPU 时间 | – | < 25 min / day |
- Fork 项目
- 创建特性分支 (
git checkout -b feature/AmazingFeature) - 提交更改 (
git commit -m 'Add some AmazingFeature') - 推送到分支 (
git push origin feature/AmazingFeature) - 打开 Pull Request
本项目采用 MIT 许可证 - 查看 LICENSE 文件了解详情
如有问题或建议,请提交 Issue
Built with ❤️ by TimoZhou1024