微信公众号文章爬虫

步骤:

从微信公众号平台获取微信公众所有文章的url
登录微信PC端获取文章的阅读数、评论等信息

API操作

# 导入模块
from wechatarticles import OfficialWeChat
from wechatarticles import LoginWeChat

# 添加cookie、token、nickname为需要爬取的公众号
cookie = yourcookie
token = token
nickname = nickname

# 实例化爬取对象
test = OfficialWeChat(token, cookie)
# 获取公众号文章总数
articles_sum = test.totalNums(nickname)
# 获取公众号部分文章信息
artiacle_data = test.get_articles(nickname, begin="10", count="5")
# 获取公众号的一些信息
officical_info = test.get_official_info(nickname)
# 保存数据为txt格式
test.save_txt("test.txt", artiacle_data)
# 保存数据为sqlite3
test.save_sqlite("test.db", "test", artiacle_data)

# 输出
print("articles_sum:", articles_sum)
print("artcles_data:")
pprint(artiacle_data)
print("officical_info:")
pprint(officical_info)

TO-DO

模拟登录微信PC端

获取微信公众号网页的cookie和token

拥有一个微信个人订阅号，附上登陆和注册链接。微信公众平台
登录公众号之后，打开浏览器的开发者选项(F12), 推荐Chrome或者Firefox。
刷新网页，在开发者工具里面，选择Network。如下图位置分别找到Cookie和token, 复制到代码中即可

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
img		img
wechatarticles		wechatarticles
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

微信公众号文章爬虫

API操作

TO-DO

获取微信公众号网页的cookie和token

About

Uh oh!

Releases

Packages

Languages

2024baibai/wechat_articles_spider

Folders and files

Latest commit

History

Repository files navigation

微信公众号文章爬虫

API操作

TO-DO

获取微信公众号网页的cookie和token

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages