文本数据的处理方法、装置和计算机可读存储介质制造方法及图纸

技术编号:22261181 阅读:21 留言:0更新日期:2019-10-10 14:13
本公开涉及一种文本数据的处理方法、装置和计算机可读存储介质,涉及自然语言处理技术领域。该方法包括:获取文本数据中包含的关键词和实体;根据关键词和实体,确定文本数据的分类信息;根据关键词、实体和分类信息,创建文本数据的文本索引;根据文本数据中各句子包含的关键词和实体,创建各句子的句子索引;利用文本索引,确定目标事件的相关文本数据;利用句子索引,在相关文本数据中确定目标事件的匹配句子;计算匹配句子中与目标事件匹配的关键词的匹配权重;根据匹配权重和第一阈值,确定与目标事件相关的关键词。本公开的技术方案能够提高事件查询准确性。

Text Data Processing Method, Device and Computer Readable Storage Media

【技术实现步骤摘要】
文本数据的处理方法、装置和计算机可读存储介质
本公开涉及自然语言处理
,特别涉及一种文本数据的处理方法、文本数据的装置和计算机可读存储介质。
技术介绍
随着互联网的高速发展、网络数据的不断增加和信息高速公路的兴起,大量的信息以电子文本的形式呈现在人们面前。对于每篇电子文本的舆情分析已经是一种必需的技术。基于事件信息的实时查询也是势在必行的。在相关技术中,首先通过爬虫抓取各网络媒体的文本数据并存入搜索引擎,然后舆情监控人员在舆情网站上根据目标事件通过搜索引擎搜索相关数据,最后通过搜索结果展示目标事件的相关文章。
技术实现思路
本公开的专利技术人发现上述相关技术中存在如下问题:依靠人工通过搜索引擎确定相关数据,导致查询到的相关数据准确性低。针对上述问题,本公开提出了一种查询准确性高的文本数据的处理技术方案。根据本公开的一些实施例,提供了一种文本数据的处理方法,包括:获取文本数据中包含的关键词和实体;根据所述关键词和所述实体,确定所述文本数据的分类信息;根据所述关键词、所述实体和所述分类信息,创建所述文本数据的文本索引;根据所述文本数据中各句子包含的所述关键词和所述实体,创建所述各句子的句子索引;利用所述文本索引,确定目标事件的相关文本数据;利用所述句子索引,在所述相关文本数据中确定所述目标事件的匹配句子;计算所述匹配句子中与所述目标事件匹配的关键词的匹配权重;根据所述匹配权重和第一阈值,确定与所述目标事件相关的关键词。可选地,根据所述关键词、所述实体和所述分类信息中的至少一个,确定所述目标事件的相关文本数据。可选地,获取所述匹配的关键词与所述目标事件的匹配程度,作为第一权重;获取与所述匹配的关键词相关的实体与所述目标事件的匹配程度,作为第二权重;将所述第一权重和所述第二权重的加权和,作为相应关键词的匹配权重。可选地,根据所述第二权重,对所述相关文档的各匹配句子中的各实体进行聚合处理;将聚合结果中所述第二权重大于第二阈值的实体确定为事件相关实体。可选地,根据所述文本数据中的各单词在所述文本数据中出现的频率,和所述各单词出现在其它文本数据中的频率,估计所述各单词在所述文本数据中的重要程度;根据所述重要程度,在所述各单词中确定所述关键词。可选地,利用机器学习方法确定所述文本数据的分类信息,所述分类信息包括与所述文本数据相关的分类和所述分类在所述文本数据中的重要程度。可选地,所述文本索引中包括态度信息,所述态度信息根据所述文本数据中的情感词利用机器学习方法确定。根据本公开的另一些实施例,提供一种文本数据的处理装置,包括:数据获取模块,用于获取文本数据中包含的关键词和实体;分类信息确定模块,用于根据所述关键词和所述实体,确定所述文本数据的分类信息;文本索引建立模块,用于根据所述关键词、所述实体和所述分类信息,创建所述文本数据的文本索引;句子索引建立模块,用于根据所述文本数据中各句子包含的所述关键词和所述实体,创建所述各句子的句子索引;相关文本确定模块,用于利用所述文本索引,确定目标事件的相关文本数据;匹配句子确定模块,用于利用所述句子索引,在所述相关文本数据中确定所述目标事件的匹配句子;匹配权重计算模块,用于计算所述匹配句子中与所述目标事件匹配的关键词的匹配权重;相关关键词确定模块,用于根据所述匹配权重和第一阈值,确定与所述目标事件相关的关键词。可选地,所述相关文本确定模块根据所述关键词、所述实体和所述分类信息中的至少一个,确定所述目标事件的相关文本数据。可选地,所述匹配权重计算模块获取所述匹配的关键词与所述目标事件的匹配程度,作为第一权重,获取与所述匹配的关键词相关的实体与所述目标事件的匹配程度,作为第二权重,将所述第一权重和所述第二权重的加权和,作为相应关键词的匹配权重。可选地,事件相关实体确定模块,用于根据所述第二权重,对所述相关文档的各匹配句子中的各实体进行聚合处理,将聚合结果中所述第二权重大于第二阈值的实体确定为事件相关实体。可选地,所述数据获取模块根据所述文本数据中的各单词在所述文本数据中出现的频率,和所述各单词出现在其它文本数据中的频率,估计所述各单词在所述文本数据中的重要程度,根据所述重要程度,在所述各单词中确定所述关键词。可选地,所述分类信息确定模块利用机器学习方法确定所述文本数据的分类信息,所述分类信息包括与所述文本数据相关的分类和所述分类在所述文本数据中的重要程度。可选地,所述文本索引中包括态度信息,所述态度信息根据所述文本数据中的情感词利用机器学习方法确定。根据本公开的又一些实施例,提供一种文本数据的处理装置,包括:存储器和耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器装置中的指令,执行上述任一个实施例中的文本数据的处理方法。根据本公开的又一些实施例,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一个实施例中的文本数据的处理方法。在上述实施例中,基于关键词、实体和分类信息建立了包含文本索引和句子索引的二级索引查询机制,结合文本数据中的关键词与目标事件之间的匹配程度,能够快速、准确地查找到与目标事件匹配的文本数据和关键词,从而提高了事件查询准确性。附图说明构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:图1示出本公开的文本数据的处理方法的一些实施例的流程图;图2示出本公开的关键词提取方法的一些实施例的流程图;图3示出本公开的匹配权重计算方法的一些实施例的流程图;图4示出本公开的事件相关实体确定方法的一些实施例的流程图;图5示出本公开的文本数据的处理装置的一些实施例的框图;图6示出本公开的文本数据的处理装置的另一些实施例的框图;图7示出本公开的文本数据的处理装置的又一些实施例的框图。具体实施方式现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。图1示出本公开的文本数据的处理方法的一些实施例的流程图。如图1所示,该方法包括:步骤110,获取关键字和实体;步骤120,确定分类信息;步骤130,创建文本索引;步骤140,创建句子索引;步骤150,确定相关文本数据;步骤160,确定匹配句子;步骤170,确定匹配权重;步骤180,确定相关关键词。在步骤110中,获取文本数据中包含的关键词和实体。例如,文本数据可以是通过爬虫系统从各互联网媒体上大范围爬取的各种文本数据,也可以本文档来自技高网...

【技术保护点】
1.一种文本数据的处理方法,包括:获取文本数据中包含的关键词和实体;根据所述关键词和所述实体,确定所述文本数据的分类信息;根据所述关键词、所述实体和所述分类信息,创建所述文本数据的文本索引;根据所述文本数据中各句子包含的所述关键词和所述实体,创建所述各句子的句子索引;利用所述文本索引,确定目标事件的相关文本数据;利用所述句子索引,在所述相关文本数据中确定所述目标事件的匹配句子;计算所述匹配句子中与所述目标事件匹配的关键词的匹配权重;根据所述匹配权重和第一阈值,确定与所述目标事件相关的关键词。

【技术特征摘要】
1.一种文本数据的处理方法,包括:获取文本数据中包含的关键词和实体;根据所述关键词和所述实体,确定所述文本数据的分类信息;根据所述关键词、所述实体和所述分类信息,创建所述文本数据的文本索引;根据所述文本数据中各句子包含的所述关键词和所述实体,创建所述各句子的句子索引;利用所述文本索引,确定目标事件的相关文本数据;利用所述句子索引,在所述相关文本数据中确定所述目标事件的匹配句子;计算所述匹配句子中与所述目标事件匹配的关键词的匹配权重;根据所述匹配权重和第一阈值,确定与所述目标事件相关的关键词。2.根据权利要求1所述的处理方法,其中,所述确定目标事件的相关文本数据包括:根据所述关键词、所述实体和所述分类信息中的至少一个,确定所述目标事件的相关文本数据。3.根据权利要求1所述的处理方法,其中,所述计算所述匹配句子中与所述目标事件匹配的关键词的匹配权重包括:获取所述匹配的关键词与所述目标事件的匹配程度,作为第一权重;获取与所述匹配的关键词相关的实体与所述目标事件的匹配程度,作为第二权重;将所述第一权重和所述第二权重的加权和,作为相应关键词的匹配权重。4.根据权利要求3所述的处理方法,还包括:根据所述第二权重,对所述相关文档的各匹配句子中的各实体进行聚合处理;将聚合结果中所述第二权重大于第二阈值的实体确定为事件相关实体。5.根据权利要求1所述的处理方法,其中,获取文本数据中包含的关键词包括:根据所述文本数据中的各单词在所述文本数据中出现的频率,和所述各单词出现在其它文本数据中的频率,估计所述各单词在所述文本数据中的重要程度;根据所述重要程度,在所述各单词中确定所述关键词。6.根据权利要求1所述的处理方法,其中,所述确定所述文本数据的分类信息包括:利用机器学习方法确定所述文本数据的分类信息,所述分类信息包括与所述文本数据相关的分类和所述分类在所述文本数据中的重要程度。7.根据权利要求1-6任一项所述的处理方法,其中,所述文本索引中包括态度信息,所述态度信息根据所述文本数据中的情感词利用机器学习方法确定。8.一种文本数据的处理装置包括:数据获取模块,用于获取文本数据中包含的关键词和实体;分类信息确定模块,用于根据所述关键词和所述实体,确定所述文本数据的分类信息;文本索引建立模块,用于根据所述关键词、所述实体和...

【专利技术属性】
技术研发人员:温程
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1