Skip to content

2024baibai/wechat_articles_spider

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

6 Commits
 
 
 
 
 
 

Repository files navigation

微信公众号文章爬虫

步骤:

  1. 从微信公众号平台获取微信公众所有文章的url

  2. 登录微信PC端获取文章的阅读数、评论等信息

具体可以参考: 微信公众号爬虫

API操作

# 导入模块
from wechatarticles import OfficialWeChat
from wechatarticles import LoginWeChat

# 添加cookie、token、nickname为需要爬取的公众号
cookie = yourcookie
token = token
nickname = nickname

# 实例化爬取对象
test = OfficialWeChat(token, cookie)
# 获取公众号文章总数
articles_sum = test.totalNums(nickname)
# 获取公众号部分文章信息
artiacle_data = test.get_articles(nickname, begin="10", count="5")
# 获取公众号的一些信息
officical_info = test.get_official_info(nickname)
# 保存数据为txt格式
test.save_txt("test.txt", artiacle_data)
# 保存数据为sqlite3
test.save_sqlite("test.db", "test", artiacle_data)
# 输出
print("articles_sum:", articles_sum)
print("artcles_data:")
pprint(artiacle_data)
print("officical_info:")
pprint(officical_info)

TO-DO

  1. 模拟登录微信PC端

获取微信公众号网页的cookie和token

  1. 拥有一个微信个人订阅号,附上登陆和注册链接。微信公众平台

  2. 登录公众号之后,打开浏览器的开发者选项(F12), 推荐Chrome或者Firefox。

  3. 刷新网页,在开发者工具里面,选择Network。如下图位置分别找到Cookie和token, 复制到代码中即可

description_one

About

微信公众号的爬虫

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%