代码详细说明见: http://xiejava.ishareread.com/posts/eab21fe5/
Python爬虫获取电子书资源实战的全部代码,包括爬取->分析、解析->保存至本地及数据库。下载
pip install requests
pip install pymysql
pip install beautifulsoup4
pip install lxml
DROP TABLE IF EXISTS `ishare_collect_book`;
CREATE TABLE `ishare_collect_book` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`bookcategory` varchar(255) DEFAULT NULL,
`bookname` varchar(255) DEFAULT NULL,
`bookauthor` varchar(255) DEFAULT NULL,
`bookurl` varchar(255) DEFAULT NULL,
`bookdownloadurl` varchar(255) DEFAULT NULL,
`booktype` varchar(255) DEFAULT NULL,
`booksource` varchar(255) DEFAULT NULL,
`booksavepath` varchar(255) DEFAULT NULL,
PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=5820 DEFAULT CHARSET=utf8;
根据自己的环境savebooktodb.py中的修改数据库连接串参数
db = pymysql.connect(host='localhost',user='root', password='mnbvvbnm', port=3306,db="bookdb",charset="utf8")
根据自己的实际情况修改getkgbooks.py中电子书资源保存的本地路径
savepath="J://kgbook//books//"
运行getkgbooks.py
运行效果如下:
Python爬虫获取电子书资源实战的全部代码,包括爬取->分析、解析->保存至本地及数据库。下载