File tree Expand file tree Collapse file tree 1 file changed +19
-4
lines changed Expand file tree Collapse file tree 1 file changed +19
-4
lines changed Original file line number Diff line number Diff line change 53532 . URL参数和请求头。
54543 . 复杂的POST请求(文件上传)。
55554 . 操作Cookie。
56+ 5 . 设置代理服务器。
57+ 6 . 超时设置。
5658
57- ### 三种采集方式
59+ > 说明:关于requests的详细用法可以参考它的 [ 官方文档 ] ( http://docs.python-requests.org/zh_CN/latest/user/quickstart.html ) 。
5860
59- #### 三种采集方式的比较
61+ ### 四种采集方式
62+
63+ #### 四种采集方式的比较
6064
6165| 抓取方法 | 速度 | 使用难度 | 备注 |
6266| ---------- | --------------------- | -------- | ------------------------------------------ |
6367| 正则表达式 | 快 | 困难 | 常用正则表达式<br >在线正则表达式测试 |
6468| lxml | 快 | 一般 | 需要安装C语言依赖库<br >唯一支持XML的解析器 |
6569| Beautiful | 快/慢(取决于解析器) | 简单 | |
70+ | PyQuery | 较快 | 简单 | Python版的jQuery |
6671
6772> 说明:Beautiful的解析器包括:Python标准库(html.parser)、lxml的HTML解析器、lxml的XML解析器和html5lib。
6873
6974#### BeautifulSoup的使用
7075
71- 1 . 遍历文档树。
72- 2 . 五种过滤器:字符串、正则表达式、列表、True、方法。
76+ 1 . 遍历文档树
77+ - 获取标签
78+ - 获取标签属性
79+ - 获取标签内容
80+ - 获取子(孙)节点
81+ - 获取父节点/祖先节点
82+ - 获取兄弟节点
83+ 2 . 搜索树节点
84+ - find / find_all:字符串、正则表达式、列表、True、函数或Lambda。
85+ - select_one / select:CSS选择器
86+
87+ > 说明:更多内容可以参考BeautifulSoup的[ 官方文档] ( ) 。
7388
You can’t perform that action at this time.
0 commit comments