Skip to content

Commit 48344a7

Browse files
committed
更新了爬虫第2天文档
1 parent 2315b0c commit 48344a7

File tree

1 file changed

+19
-4
lines changed

1 file changed

+19
-4
lines changed

Day66-75/02.数据采集和解析.md

+19-4
Original file line numberDiff line numberDiff line change
@@ -53,21 +53,36 @@
5353
2. URL参数和请求头。
5454
3. 复杂的POST请求(文件上传)。
5555
4. 操作Cookie。
56+
5. 设置代理服务器。
57+
6. 超时设置。
5658

57-
### 三种采集方式
59+
> 说明:关于requests的详细用法可以参考它的[官方文档](http://docs.python-requests.org/zh_CN/latest/user/quickstart.html)
5860
59-
#### 三种采集方式的比较
61+
### 四种采集方式
62+
63+
#### 四种采集方式的比较
6064

6165
| 抓取方法 | 速度 | 使用难度 | 备注 |
6266
| ---------- | --------------------- | -------- | ------------------------------------------ |
6367
| 正则表达式 || 困难 | 常用正则表达式<br>在线正则表达式测试 |
6468
| lxml || 一般 | 需要安装C语言依赖库<br>唯一支持XML的解析器 |
6569
| Beautiful | 快/慢(取决于解析器) | 简单 | |
70+
| PyQuery | 较快 | 简单 | Python版的jQuery |
6671

6772
> 说明:Beautiful的解析器包括:Python标准库(html.parser)、lxml的HTML解析器、lxml的XML解析器和html5lib。
6873
6974
#### BeautifulSoup的使用
7075

71-
1. 遍历文档树。
72-
2. 五种过滤器:字符串、正则表达式、列表、True、方法。
76+
1. 遍历文档树
77+
- 获取标签
78+
- 获取标签属性
79+
- 获取标签内容
80+
- 获取子(孙)节点
81+
- 获取父节点/祖先节点
82+
- 获取兄弟节点
83+
2. 搜索树节点
84+
- find / find_all:字符串、正则表达式、列表、True、函数或Lambda。
85+
- select_one / select:CSS选择器
86+
87+
> 说明:更多内容可以参考BeautifulSoup的[官方文档]()
7388

0 commit comments

Comments
 (0)