一种网络舆情监控的应答生成方法及系统技术方案

技术编号:22330238 阅读:31 留言:0更新日期:2019-10-19 12:18
本发明专利技术涉及一种网络舆情监控的应答生成方法及系统,包括采用爬虫从指定的行业相关的网站爬取数据,获取与所述行业的舆情事件相关的页面,通过句法分析器挖掘所述页面的文本信息中所包含的用于表示实体的若干个实体词及用于表征所述若干个实体词之间关系的关系词,基于所述实体词及所述关系词,构建所述行业的知识图谱,根据所述页面及所述行业的知识图谱,通过答复模型,生成对应所述页面的答复文本。本发明专利技术可提高所生成的答复文本的准确性。

【技术实现步骤摘要】
一种网络舆情监控的应答生成方法及系统
本专利技术涉及网络
,尤其涉及一种网络舆情监控的应答生成方法及系统。
技术介绍
微博、论坛、博客等即时通信工具已经成为人们获取信息,进而发表看法、传播信息的重要渠道。借助网络平台,舆情信息迅速传播,引起广泛关注,其传播的速度之快、范围之广、影响力之大,远非传统媒体可比,网络空间的匿名交互性、非时空限制性等特点,使网络舆情这股强大的社会舆论力量,对社会发展和稳定产生一定的冲击和影响。引发舆情危机对政府部门、公众媒体和大型企业来说,对政府部门、公众媒体和大型企业来说,如何加强对网络舆情的及时应对回复,成为网络舆情管理的一大难点。
技术实现思路
本专利技术所要解决的技术问题是针对现有技术的不足,提供一种网络舆情监控的应答生成方法及系统。本专利技术解决上述技术问题的技术方案如下:一种网络舆情监控的应答生成方法,包括:采用爬虫从指定的行业相关的网站爬取数据,获取与所述行业的舆情事件相关的页面;通过句法分析器挖掘所述页面的文本信息中所包含的用于表示实体的若干个实体词及用于表征所述若干个实体词之间关系的关系词;基于所述实体词及所述关系词,构建所述行业的知识图谱;根据所述页面及所述行业的知识图谱,通过答复模型,生成对应所述页面的答复文本。本专利技术的有益效果是:通过指定爬虫爬取行业相关的网站中的数据,获取行业的舆情事件相关的页面,采用句法分析器挖掘页面中文本信息所包含的实体词和实体词之间的关系词,构建行业的知识图谱,根据页面及行业的知识图谱,通过答复模型,生成答复文本,可提高所生成的答复文本的准确性。在上述技术方案的基础上,本专利技术还可以做如下改进。进一步地,所述根据所述页面及所述行业的知识图谱,通过答复模型,生成对应所述页面的答复文本,具体包括以下步骤:依据所述行业的知识图谱分析所述页面,得到所述页面的实体和关系信息;采用word2vector方法提取所述页面的文本信息中的词语,对所述词语的词性标注,得到词向量和词性向量;将所述词向量、所述词性向量及所述页面的实体和关系信息输入所述答复模型,得到对应所述页面的答复文本。进一步地,所述答复模型通过以下步骤进行训练:获取指定网站中与历史舆情事件相关的页面,人工设置所述页面的标准答复文本;获取所述页面的词向量和词性向量;将所述词向量和所述词性向量输入不同参数的所述循环神经网络RNN中,生成多个回复文本;基于所述页面的标准答复文本及所述多个回复文本,得到所述答复模型。进一步地,基于所述页面的标准答复文本及所述多个回复文本,得到所述答复模型,具体步骤包括:分别计算所述生成的回复文本与所述页面的标准答复文本的相似度;选取所述相似度最高的回复文本作为最优回复文本;将生成所述最优回复文本的参数输入所述循环神经网络RNN中,得到所述答复模型。采用上述进一步方案的有益效果是:通过行业的知识图谱分析页面得到页面的实体和关系信息,通过word2vector方法提取页面的文本信息中的词语,得到词向量和词性向量,将词向量、词性向量及页面的实体和关系信息,通过答复模型,获取页面的答复文本,提高了所生成的答复文本的准确性。专利技术还提供了解决上述技术问题的另一种技术方案如下:一种网络舆情监控的应答生成系统,包括:采集模块,用于采用爬虫从指定的行业相关的网站爬取数据,获取与所述行业的舆情事件相关的页面;处理模块,用于通过句法分析器挖掘所述页面的文本信息中所包含的用于表示实体的若干个实体词及用于表征所述若干个实体词之间关系的关系词,基于所述实体词及所述关系词,构建所述行业的知识图谱。回复生成模块,用于根据所述页面及所述行业的知识图谱,通过答复模型,生成对应所述页面的答复文本。本专利技术的有益效果是:基于采集模块、处理模块和回复生成模块,指定爬虫爬取行业相关的网站中的数据,获取行业的舆情事件相关的页面,采用句法分析器挖掘页面中文本信息所包含的实体词和实体词之间的关系词,构建行业的知识图谱,根据页面及行业的知识图谱,通过答复模型,生成答复文本,可提高所生成的答复文本的准确性。在上述技术方案的基础上,本专利技术还可以做如下改进。进一步地,所述回复生成模块具体用于:依据所述行业的知识图谱分析所述页面,得到所述页面的实体和关系信息;采用word2vector方法提取所述页面的文本信息中的词语,对所述词语的词性标注,得到词向量和词性向量;将所述词向量、所述词性向量及所述页面的实体和关系信息输入所述答复模型,得到对应所述页面的答复文本。进一步地,还包括训练模块;所述训练模块,用于通过以下具体步骤训练所述答复模型:获取指定网站中与历史舆情事件相关的页面,人工设置所述页面的标准答复文本;获取所述页面的词向量和词性向量;将所述词向量和所述词性向量输入不同参数的所述循环神经网络RNN中,生成多个回复文本;基于所述页面的标准答复文本及所述多个回复文本,得到所述答复模型。进一步地,所述训练模块,所述训练模块,还具体用于分别计算所述生成的回复文本与所述页面的标准答复文本的相似度;选取所述相似度最高的回复文本作为最优回复文本;将生成所述最优回复文本的参数输入所述循环神经网络RNN中,得到所述答复模型。在上述技术方案的基础上,本专利技术还提供了一种存储介质,存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行如上述技术方案所述的网络舆情监控的应答生成方法。本专利技术附加的方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术实践了解到。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术所述一种网络舆情监控的应答生成方法的流程示意图;图2为本专利技术所述一种网络舆情监控的应答生成系统的模块示意图;图3为本专利技术所述获取到页面的词向量和词性向量的示例。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术的一部分实施例,而不是全部实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本专利技术保护的范围。如图1所示,一种网络舆情监控的应答生成方法的流程示意图,包括:110、采用爬虫从指定的行业相关的网站爬取数据,获取与行业的舆情事件相关的页面。120、通过句法分析器挖掘页面的文本信息中所包含的用于表示实体的若干个实体词及用于表征若干个实体词之间关系的关系词。130、基于实体词及关系词,构建行业的知识图谱。140、根据页面及行业的知识图谱,通过答复模型,生成对应页面的答复文本。应理解,基于本实施例,不限制句法分析器的具体类型。例如,如图3所示获取到页面的词向量和词性向量的示例。例如文本信息为,2018年12月20日,中国上海化工厂发生漏电事故,两名工作人员重伤。抽取此文本中的实体关系及词向量和词性向量,获得,中国(国名)、上海(地名)、化工厂(具体发生地)、漏电(实例)、工作人员(主体)、重伤(实例)。将上述词向量和词性向量输入答复模型,生成答复文本为“2018年1本文档来自技高网...

【技术保护点】
1.一种网络舆情监控的应答生成方法,其特征在于,包括:采用爬虫从指定的行业相关的网站爬取数据,获取与所述行业的舆情事件相关的页面;通过句法分析器挖掘所述页面的文本信息中所包含的用于表示实体的若干个实体词及用于表征所述若干个实体词之间关系的关系词;基于所述实体词及所述关系词,构建所述行业的知识图谱;根据所述页面及所述行业的知识图谱,通过答复模型,生成对应所述页面的答复文本。

【技术特征摘要】
1.一种网络舆情监控的应答生成方法,其特征在于,包括:采用爬虫从指定的行业相关的网站爬取数据,获取与所述行业的舆情事件相关的页面;通过句法分析器挖掘所述页面的文本信息中所包含的用于表示实体的若干个实体词及用于表征所述若干个实体词之间关系的关系词;基于所述实体词及所述关系词,构建所述行业的知识图谱;根据所述页面及所述行业的知识图谱,通过答复模型,生成对应所述页面的答复文本。2.根据权利要求1所述的方法,其特征在于,所述根据所述页面及所述行业的知识图谱,通过答复模型,生成对应所述页面的答复文本,具体包括以下步骤:依据所述行业的知识图谱分析所述页面,得到所述页面的实体和关系信息;采用word2vector方法提取所述页面的文本信息中的词语,对所述词语的词性标注,得到词向量和词性向量;将所述词向量、所述词性向量及所述页面的实体和关系信息输入所述答复模型,得到对应所述页面的答复文本。3.根据权利要求1或2所述的方法,其特征在于,所述答复模型通过以下步骤进行训练:获取指定网站中与历史舆情事件相关的页面,人工设置所述页面的标准答复文本;获取所述页面的词向量和词性向量;将所述词向量和所述词性向量输入不同参数的所述循环神经网络RNN中,生成多个回复文本;基于所述页面的标准答复文本及所述多个回复文本,得到所述答复模型。4.根据权利要求3所述的方法,其特征在于,基于所述页面的标准答复文本及所述多个回复文本,得到所述答复模型,具体步骤包括:分别计算所述生成的回复文本与所述页面的标准答复文本的相似度;选取所述相似度最高的回复文本作为最优回复文本;将生成所述最优回复文本的参数输入所述循环神经网络RNN中,得到所述答复模型。5.一种网络舆情监控的应答生成系统,其特征在于,包括:...

【专利技术属性】
技术研发人员:汤浩武开智
申请(专利权)人:北京牡丹电子集团有限责任公司宁安智慧工程中心
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1