Skip to content

Raywang80s/Spider

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

25 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Python爬虫

1.知乎爬虫

1.1 模拟登陆知乎 
1.2 使用BeautifalSoup 对页面处理
1.3 设计了两个简单方法,输出知乎主页面的 所有问题和回答的摘要以及详细回答的连接
代码分析的链接:http://www.jianshu.com/p/2577e5bcbf05

2.爬取百度百科词条    

2.1 采用面对对象的设计
2.2 爬取这个词条下面的所有url    
2.3 爬取这个词条下面的所有url后,进入这些url里面,抓取需要的内容    
2.4 内容被保存在文件上面
代码分析的链接 http://www.jianshu.com/p/2251149b9a57

to-do:    
1. 解决编码问题    
2. 以结构化的数据保存到数据库

3.python 实现一个简单的mini shell

代码分析的链接 http://www.jianshu.com/p/30bac36a7651

About

Python爬虫

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%