Skip to content

Commit 8957211

Browse files
更新文档
1 parent da38e24 commit 8957211

File tree

1 file changed

+6
-0
lines changed

1 file changed

+6
-0
lines changed

README.md

Lines changed: 6 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -2,13 +2,19 @@ SeimiCrawler
22
==========
33
An agile,powerful,distributed crawler framework.
44

5+
SeimiCrawler的目标是成为Java世界最好用最实用的爬虫框架。
6+
57
# 简介 #
68

79
SeimiCrawler是一个敏捷的,支持分布式的爬虫开发框架,希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛,以及提升开发爬虫系统的开发效率。在SeimiCrawler的世界里,绝大多数人只需关心去写抓取的业务逻辑就够了,其余的Seimi帮你搞定。设计思想上SeimiCrawler受Python的爬虫框架Scrapy启发很大,同时融合了Java语言本身特点与Spring的特性,并希望在国内更方便且普遍的使用更有效率的XPath解析HTML,所以SeimiCrawler默认的HTML解析器是[JsoupXpath](http://jsoupxpath.wanghaomiao.cn),默认解析提取HTML数据工作均使用XPath来完成(当然,数据处理亦可以自行选择其他解析器)。
810

911
# 原理示例 #
12+
## 基本原理 ##
1013
![SeimiCrawler原理图](http://77g8ty.com1.z0.glb.clouddn.com/v2_Seimi.png)
1114

15+
## 集群原理 ##
16+
![SeimiCrawler集群原理图](http://77g8ty.com1.z0.glb.clouddn.com/v1_distributed.png)
17+
1218
# 快速开始 #
1319

1420
添加maven依赖(已经同步到中央maven库):

0 commit comments

Comments
 (0)