一种基于动态知识图谱的文本分析方法技术

技术编号:32853837 阅读:32 留言:0更新日期:2022-03-30 19:20
本发明专利技术涉及一种基于动态知识图谱的文本分析方法,属于文本分析领域。本发明专利技术利用pyhton爬虫按发布时间顺序爬取实验数据,并将其按照发布时间早晚的顺序存放至mysql数据库中;利用python的第三方包pymsql将实验数据按时间顺序存放至语料库output.txt文件中;利用python的第三方包jieba对获取的语料库中的文章数据进行分词,获得候选词;采用jieba分词系统中的TF

【技术实现步骤摘要】
一种基于动态知识图谱的文本分析方法


[0001]本专利技术属于文本分析领域,具体涉及一种基于动态知识图谱的文本分析方 法。

技术介绍

[0002]随着信息技术的发展,互联网数据及资源的传播方式也变得多样化,新闻 热点的追踪与关联性分析成为了热门的研究方向。为了更轻易直观地得到热点 事件之间的关系,可以采用知识图谱对热点事件的关键词进行图谱构建,进而 对不同事件之间的关系进行展示分析。
[0003]知识图谱作为一种基于图的数据可视化方式,将应用数学、图形学等学科 的理论与计量学分析、共现分析等方法结合,可以对结构化数据进行关系描述、 对知识进行画像,具有直观、知识发现等多个特点,主要应用于搜索引擎和问 答系统中。
[0004]知识图谱构建的基本过程是:数据采集、知识抽取、知识链接和融合、数 据可视化及分析。
[0005](1)数据采集是进行知识图谱构建的基础,可以通过对网络已公开数据、 领域共享和合作数据等大规模数据进行采集,为构建图谱做准备。
[0006](2)知识抽取是知识图谱中的关键步骤,是对数据进行粗加工,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于动态知识图谱的文本分析方法,其特征在于,该方法包括如下步骤:步骤一:数据采集利用pyhton爬虫按发布时间顺序从新闻网址上的各个分类中爬取一周内不同类别的新闻文章作为实验数据,并将其按照发布时间早晚的顺序存放至mysql数据库中;步骤二:读入文件利用python的第三方包pymsql从mysql数据库中读取已采集到新闻文本,并将对应文本内容按时间顺序存放至语料库output.txt文件中;步骤三:中文分词利用python的第三方包jieba对获取的语料库中的文章数据进行分词,获得候选词;步骤四:抽取关键词采用jieba分词系统中的TF

IDF方法对候选词进行处理,抽取文章关键词;步骤五:构建词对对步骤四中所得每篇文章的关键词集合进行两两词语的PMI值计算,并选择PMI=1.5作为阈值,将PMI>1.5的两个词作为词语关联性较强的词对,其PMI值代表权重;步骤六:动态构建在步骤五中通过设置PMI阈值为1.5,筛选得到高频词对及其对应PMI值,随后对高频词对使用交互界面进行动态可视化展示。2.如权利要求1所述的基于动态知识图谱的文本分析方法,其特征在于,所述步骤一中不同类别的新闻文章包括娱乐、军事、生活常识、国际、国内和民生。3.如权利要求1所述的基于动态知识图谱的文本分析方法,其特征在于,所述步骤一存放至mysql数据库中时,存放的字段包括:title、context、time、和type;context字段仅保存新闻正文,不保存文本中所含图片内容。4.如权利要求1

3任一项所述的基于动态知识图谱的文本分析方法,其特征在于,所述步骤二中存放至语料库output.txt文件时用换行符分隔。5.如权利要求4所述的基于动态知识图谱的文本分析方法,其特征在于,所述步骤三中,利用python的第三方包jieba中的精确模式对语料库output.txt中的文章内容进行分词,随后用停用词字典进行去除停用词,最终每篇文章均可得到一系列候选词。6.如权利要求5所述的基于动态知识图谱的文本分析方法,其特征在于,所述步骤四的就提实现过程为:对步骤三中经过分词及去停用词后得到的一系列候选词分别计算其TF

IDF值,随后根据每个词的IT

【专利技术属性】
技术研发人员:刘佳雯王楠李小鹏
申请(专利权)人:航天科工网络信息发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1