Skip to content

TimoZhou1024/PatentRadar

Repository files navigation

Patent Scout — 专利情报自动化平台

从「全网专利洪流」到每日 Discord 情报卡

📊 项目概述

Patent Scout 是一个智能专利监控系统,让用户订阅特定的 CPC 分类(如 A61K 医药、G06N AI),Bot 每天自动推送最新公开/授权专利的「创新点卡片」并附相似专利对比,帮助研发或投资人员当天就锁定潜在机会与冲突。

🎯 核心功能

  • 智能专利订阅:基于 CPC 分类的精准订阅
  • 实时数据获取:每日自动拉取 USPTO、EPO 最新专利数据
  • AI 驱动分析:使用 GPU 加速的大语言模型生成专利摘要和对比
  • Discord 智能推送:美观的卡片式情报推送
  • 相似专利检索:基于向量数据库的快速相似专利发现

🏗️ 技术架构

数据来源与获取策略

来源 更新频率 获取方式 备注
USPTO Bulk Data 每日 (Patent Application Data: pa-yyyymmdd.zip) https://data.uspto.gov/bulkdata/pa/YYYY/ ➜ cron 下载 官方全量 XML/JSON
USPTO Data APIs 实时 Office-Action / Enriched-Citation / CPC‐MCF endpoints 补充引用/法律状态
EPO OPS 滚动 REST + 24 h token 拿欧专局早期同族信息

技术栈一览

功能 建议组件 3090 用武之地
数据拉取 & 解析 FastAPI + Pydantic + async Cron CPU
文本向量化 sentence-transformers/paraphrase-mpnet-base-v2 (或 mtr-patent-bert) GPU 加速批量 Embedding
向量检索 Qdrant (Rust) GPU 可选 (HNSW-GPU)
摘要与对比 Llama-3-8B QLoRA on GPU 24 GB Stable 25 tokens/s
工作流编排 Flowise 图形化 RAG GPU 调用 LLM 节点
Bot 交互 discord.py + Slash Commands

系统架构图

┌─────────────────┐   cron   ┌──────────────┐
│ USPTO Bulk Zips │────────▶│ Data Loader  │──┐
└─────────────────┘          └──────────────┘  │  JSON rows
                                            ┌─▼──────────┐
                                            │  Parser &   │
                                            │  CPC Filter │
                                            └─┬──────────┘
                           embeddings + meta │
┌─────────────────┐           ┌──────────────▼──────────┐
│  Qdrant Vector  │◀──────────┤  Embedding Generator    │(GPU)
└─────────────────┘           └──────────────┬──────────┘
                                             │ Top-k vectors
                                     ┌───────▼────────┐
                                     │  Summarizer    │(GPU Llama-3)
                                     └───────┬────────┘
                            cards             │
┌───────────┐  webhook  ┌──────▼─────┐   ┌───▼───┐
│ Discord   │◀──────────│ Card Maker │◀──┤ Diff  │
└───────────┘           └────────────┘   └───────┘

🚀 快速开始

环境要求

  • Python 3.10+
  • NVIDIA GPU (推荐 RTX 3090 24GB)
  • Docker & Docker Compose
  • 16GB+ RAM

安装部署

  1. 克隆项目
git clone https://github.com/TimoZhou1024/PatentRadar.git
cd PatentRadar
  1. 环境配置
cp .env.example .env
# 编辑 .env 文件,配置各项密钥
  1. 启动服务
docker-compose up -d
  1. 初始化数据库
python scripts/init_db.py

📋 配置说明

详细配置说明请参考 配置文档

🔧 开发指南

项目结构

PatentRadar/
├── backend/                 # FastAPI 后端服务
│   ├── app/
│   │   ├── api/            # API 路由
│   │   ├── core/           # 核心配置
│   │   ├── models/         # 数据模型
│   │   ├── services/       # 业务逻辑
│   │   └── utils/          # 工具函数
│   ├── Dockerfile
│   └── requirements.txt
├── discord-bot/            # Discord 机器人
├── data-pipeline/          # 数据处理管道
├── ml-models/             # 机器学习模型
├── scripts/               # 工具脚本
├── docs/                  # 项目文档
├── docker-compose.yml
└── README.md

开发环境设置

参考 开发指南

📊 性能指标

GPU 资源使用

环节 24 GB 3090 显存占用 单日 3k 新专利耗时
Embedding (FP16) ≈6 GB ~4 min (batch 64)
Llama-3-8B QLoRA ≈15 GB 3 cards/s ↯ 17 min
合计 GPU 时间 < 25 min / day

🤝 贡献指南

  1. Fork 项目
  2. 创建特性分支 (git checkout -b feature/AmazingFeature)
  3. 提交更改 (git commit -m 'Add some AmazingFeature')
  4. 推送到分支 (git push origin feature/AmazingFeature)
  5. 打开 Pull Request

📄 许可证

本项目采用 MIT 许可证 - 查看 LICENSE 文件了解详情

🙋‍♂️ 支持

如有问题或建议,请提交 Issue


Built with ❤️ by TimoZhou1024

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published