Skip to content

bjutliulei/Scrapy-BK-data-and-create-KnowledgeGraph

 
 

Repository files navigation

特别感谢原项目作者:[链接]https://github.com/lixiang0/WEB_KG

开源web知识图谱项目

  • 爬取百度百科中文页面
  • 解析三元组和网页内容
  • 构建中文知识图谱

前言:本项目是在Windows上面部署

环境

  • 需要安装MongoDB并且配置为win服务,参考点我吧

PS:还有一些安装时小坑我也放在文档里面,参考点我吧

MISS

  • 安装Neo4j社区版,参考点我吧

  • python 3.7.9

  • re:url正则匹配

  • scrapy:网页爬虫和网页解析 pip install scrapy

  • pip install pymongodb:mongodb的python支持

  • mongodb数据库:安装参考1点我吧2点我吧

  • neo4j:知识图谱图数据库,安装可以参考点我吧

  • pip install neo4j:neo4j python驱动参考:点我吧 PS:原作者用的是from neo4j.v1 import GraphDatabase

我用的时候总是报错,估计是版本的原因,所以换成from neo4j import GraphDatabase

代码执行:

1、启动MongoDB服务

MISS

2、启动Neo4j,账户密码和代码中保持一致即可

MISS

MISS

3、运行爬虫文件

MISS

scrapy crawl baike

4、执行界面(按ctrl+c停止):

MISS

5、运行过程还是有一些Bug,我看了下是由于编码问题造成的,但是不影响程序继续抓取数据,后续有时间再修复

MISS

知识图谱效果图

MISS

可以看到随着爬虫一直进行,Neo4j里面的节点数量一直在增加

MISS

About

使用scrapy爬取百度百科的数据,永久存入MongoDB,存入Neo4j数据库中

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%