take notes about coding
- 使用 docker + fastapi 部署 图片分类+目标检测+实例分割等任务
- 先实现python调用三个框架
- 再尝试调用C++
- c++ - STL Qt
- cmake -
- linux -
- design pattern - part1/02/01
- momento design pattern 备忘录设计模式
- ocr
- Intelligently extract text 05
- LLM
- 微调数据集常见形式(列举5个常见数据集的情况),以及如何构建
- LLM如何微调(使用 Unsloth案例、huggingface案例)
- 如何构建Agent(Coze Dify )
- 如何构建RAG 以及存在哪些问题(召回率不高,匹配精度不准),如何优化(切块的问题,向量化的问题)(AnythingLLM RagFlow)
- 如何构建和使用MCP (MCP 配合MongoDB实现类似RAG的效果) (VScode cline)
- 构建自己的微调数据集,实现问答系统
-
粮食安全主动权
-
国际农业技术
-
种业
-
农机
-
农业强国
- 农田战略化
-
安全感
- 社会安定/企业稳定
- 稳定和谐的家庭
- 钱和创造财富的能力
-
政策提振
-
基本面改善
-
方法
- 历史溯源
- 技术形态
- 价量关系
- 0424
- cls dll test
- hw5 hw6
- llm from scratch
- bf vac
- test complete
- yolo algorithm
- collect doc scan datasets about chinese + english + tables
- wk
-
cls det seg dll: run + test + log
- 异常处理
- 推理错误
- c# test code add commit
- 模型文件不存在
- 模型文件格式错误
- 模型文件节点错误
- 几千张图片推理测试是否内存泄漏
- C# 加图像输出
- 写一个TensorRT 推理环境配置的文档 注意tensorrt版本与cuda 显卡的匹配关系
- 异常处理
-
datasets
- 破碎检测 建议保留原有的基础上,加入犯错的
- 压痕检测
-
- vis
- yolo yoloworld
- ocr onnx + training (对扫描文本做ocr 对比pp和VL的识别效果)
- opencv
- FLUX 样本生成
- 表格识别(对比 tablemagic 和 VL的识别效果)
- 对比 1. ocr+llm 2. llm-vl 速度和效果
- llm + vlm
- dataset
- unsloth finetune llm+vlm export gguf
- vllm 可以支持的模型格式有哪些?
- n8n (base on knowlage answer)
- ragflow
- RL(PPO DPO GRPO)
- docker vllm to inference LLM/VLM(Qwen) for screenshot of account
- 模型评测
- EvalScope 阿里团队
-
五一
- vllm model inference
- n8n workflow / compare to dify
- RAGFlow
- unsloth fine tune llm vlm / compare to xtuner
-
0430 把n8n跑起来,跑个小案例
-
TODO
- python unicorn / fastapi (简单的启服务,多并发调用)
- linux vim install extensions to python/C++ ide
- docker compose
- ssh to server
- java server + C++ inference .so
-
国产显卡 沐曦 MXGPU
- LMDeploy
- Xtuner
- 整理LLM notes
- 模型微调与模型导出 LoRA gguf
- 使用huggingface 一步一步推理
- 模型部署推理 vLLM Ollama
- 数据集 组织方式
- 强化微调 GRPO PPO DPO
- 整理完微调的代码和笔记 + alpaca 数据集
- 完成hw5 qwen + llama
-
编程语言
- cpp + cmake
- 设计模式 0/32
- 编程题目
-
OpenCV
- 基础视觉算法应用
-
深度学习算法
- 基础模块
- YOLO
- OCR
- paddleocr
- RapidOcr
- StableDiffusion
-
LLM
- 大模型的使用
- Agent
- RAG
- DeepSeek 算法思想
-
集成算法:
- Boosting
- AdaBoost (Adaptive Boosting): 调整样本权重和弱分类器的权重(迭代过程中加大错分样本权重,减小犯错率高的分类器权重),逐步聚焦难分类样本,最终加权组合
- GBDT (Gradient Boosting):拟合前一个分类器的残差
- Bagging Bootstrap Aggregating
- RandomForest: 每个弱分类器是基于部分样本和部分特征进行训练的
- Boosting
-
决策树
- 分叉的指标:信息增益(ID3),信息增益率(C4.5),基尼指数(CART),
-
项目过程:
- 组织小样本集,基于预训练模型使用默认参数,快速实验,判断是否Work
- 确认算法可行后,使用训练得到的模型,标注更多样本,从BadCase中分析当前模型的问题,对哪种场景识别较差
- 人工修正标注后,重新训练模型,调整超参数,重复几次后可以得到较好的识别精度
- 再考虑模型推理速度,如果不满足速度要求,尝试由大模型蒸馏出轻量化小模型,或者使用小模型基于目前的数据集训练
-
yolo
-
yolov5
-
yolov8
-
yolo11
- 算法细节:
- C3k2 继承于 C2f 仅改变 BottleNeck的方式
- C3k 继承于 C3
- C2PSA 加入注意力机制
- 算法细节:
-
-
ppocr
- 网络:
- dbnet
- crnn
- KIE
- 推理
- OpenVINO
- TensorRT
- 网络:
-
KIE
- key information extraction 从文本或图像中提取结构化关键信息的技术
- SER 语义实体识别:对文本进行分类标注
- RE 关系抽取:建立实体间的关联
-
OCR
- DBNet
- CRNN + CTC Loss
- fastdeploy ocr fps ... TODO...
-
OpenCV 主要算法
- 对比度增强 平衡直方图
- 直方图
- Contual 轮廓
- 二值化
-
需要熟练掌握的:
- 模型训练:cls det(track) seg pose
- YOLO 完整的训练过程 图像前处理
- ViT Swin-Transformer
- 模型部署:ONNX OpenVINO TensorRT
- OpenVINO 量化
- TensorRT 量化
- OCR微调
- 训练过程
- OCR是怎么识别出一个序列的??
- Qwen2.5-vl 做 图片理解 ocr 目标检测
- 怎么做LoRA微调!!!
- 模型训练:cls det(track) seg pose
-
数据、流量、场景、数据分析
-
解决问题,分析数据,使用大模型训练行业垂类模型
-
项目中主要困难点:
- 异常数据占比低
- 小目标检测
- 密集目标检测
- 对象跟踪
- 动作识别
-
问题:
- 对象跟踪,是不是只能基于目标检测?
- 密集目标怎么做跟踪
- 动作识别的原理
- huggingface的使用 diffuser tranformers pytorch-models
- P2PNet 密集计数
- 复现经典骨干网络 -- 熟悉经典网络的数据流、pytorch搭建过程
- 复现经典下游任务 目标检测 计数 跟踪
- 大模型算法思想
- 大模型微调
- 视觉大模型应用
- vscode
- 打开命令面板:ctrl+shift+p
- 打开终端: ctrl+`
- 多行上下移动:alt+up/down
- 多个光标: alt+鼠标点击
- 选取多个相同的元素:ctrl+D
- 选取所有相同元素:ctrl+shift+L
- 光标跳到句首/尾:ctrl+left/right
- 查找类或方法的定义:ctrl+鼠标点击 / F12