File tree 1 file changed +19
-4
lines changed
1 file changed +19
-4
lines changed Original file line number Diff line number Diff line change 53
53
2 . URL参数和请求头。
54
54
3 . 复杂的POST请求(文件上传)。
55
55
4 . 操作Cookie。
56
+ 5 . 设置代理服务器。
57
+ 6 . 超时设置。
56
58
57
- ### 三种采集方式
59
+ > 说明:关于requests的详细用法可以参考它的 [ 官方文档 ] ( http://docs.python-requests.org/zh_CN/latest/user/quickstart.html ) 。
58
60
59
- #### 三种采集方式的比较
61
+ ### 四种采集方式
62
+
63
+ #### 四种采集方式的比较
60
64
61
65
| 抓取方法 | 速度 | 使用难度 | 备注 |
62
66
| ---------- | --------------------- | -------- | ------------------------------------------ |
63
67
| 正则表达式 | 快 | 困难 | 常用正则表达式<br >在线正则表达式测试 |
64
68
| lxml | 快 | 一般 | 需要安装C语言依赖库<br >唯一支持XML的解析器 |
65
69
| Beautiful | 快/慢(取决于解析器) | 简单 | |
70
+ | PyQuery | 较快 | 简单 | Python版的jQuery |
66
71
67
72
> 说明:Beautiful的解析器包括:Python标准库(html.parser)、lxml的HTML解析器、lxml的XML解析器和html5lib。
68
73
69
74
#### BeautifulSoup的使用
70
75
71
- 1 . 遍历文档树。
72
- 2 . 五种过滤器:字符串、正则表达式、列表、True、方法。
76
+ 1 . 遍历文档树
77
+ - 获取标签
78
+ - 获取标签属性
79
+ - 获取标签内容
80
+ - 获取子(孙)节点
81
+ - 获取父节点/祖先节点
82
+ - 获取兄弟节点
83
+ 2 . 搜索树节点
84
+ - find / find_all:字符串、正则表达式、列表、True、函数或Lambda。
85
+ - select_one / select:CSS选择器
86
+
87
+ > 说明:更多内容可以参考BeautifulSoup的[ 官方文档] ( ) 。
73
88
You can’t perform that action at this time.
0 commit comments