开源web知识图谱项目

特别感谢原项目作者：[链接]https://github.com/lixiang0/WEB_KG

开源web知识图谱项目

爬取百度百科中文页面
解析三元组和网页内容
构建中文知识图谱

前言：本项目是在Windows上面部署

环境

需要安装MongoDB并且配置为win服务，参考点我吧

PS：还有一些安装时小坑我也放在文档里面，参考点我吧

安装Neo4j社区版，参考点我吧
python 3.7.9
re:url正则匹配
scrapy:网页爬虫和网页解析 pip install scrapy
pip install pymongodb：mongodb的python支持
mongodb数据库：安装参考1点我吧 2点我吧
neo4j:知识图谱图数据库,安装可以参考点我吧
pip install neo4j：neo4j python驱动参考：点我吧 PS：原作者用的是from neo4j.v1 import GraphDatabase

我用的时候总是报错，估计是版本的原因，所以换成from neo4j import GraphDatabase

代码执行：

1、启动MongoDB服务

2、启动Neo4j，账户密码和代码中保持一致即可

3、运行爬虫文件

scrapy crawl baike

4、执行界面(按ctrl+c停止)：

5、运行过程还是有一些Bug，我看了下是由于编码问题造成的，但是不影响程序继续抓取数据，后续有时间再修复

知识图谱效果图

可以看到随着爬虫一直进行，Neo4j里面的节点数量一直在增加

Name		Name	Last commit message	Last commit date
Latest commit History 24 Commits
KnowledgeGraphCourse		KnowledgeGraphCourse
baike		baike
imgs		imgs
.gitignore		.gitignore
MongoDB安装踩坑记录.docx		MongoDB安装踩坑记录.docx
README.md		README.md
middlewares.py		middlewares.py
scrapy.cfg		scrapy.cfg
爬取百科数据构建知识图谱流程图.drawio		爬取百科数据构建知识图谱流程图.drawio
百科知识图谱构建笔记.docx		百科知识图谱构建笔记.docx

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

特别感谢原项目作者：[链接]https://github.com/lixiang0/WEB_KG

开源web知识图谱项目

环境

代码执行：

知识图谱效果图

About

Uh oh!

Releases

Packages

Languages

bjutliulei/Scrapy-BK-data-and-create-KnowledgeGraph

Folders and files

Latest commit

History

Repository files navigation

特别感谢原项目作者：[链接]https://github.com/lixiang0/WEB_KG

开源web知识图谱项目

环境

代码执行：

知识图谱效果图

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages