交谈信息获取方法、装置、存储介质和电子设备制造方法及图纸

技术编号:35771696 阅读:12 留言:0更新日期:2022-12-01 14:13
本发明专利技术提供了一种交谈信息获取方法、装置、存储介质和电子设备,其中,该方法包括:获取言论数据的标题,判断标题中是否存在预设关键词信息,若是,则对言论数据的言论文本进行预处理;根据标题和预处理后的言论文本获取目标数据,目标数据包括:交谈机构、交谈时间、交谈公司和交谈问题;将获取的目标数据作为交谈信息。通过对言论数据中的交谈信息进行抽取,可以有效地过滤得到言论中与交谈相关的数据,通过获得交谈关键的四个维度信息:交谈机构、交谈时间、交谈公司和交谈问题,可以直接提供给用户结构化的信息,大大降低了用户对于繁杂的言论数据的阅读成本。的言论数据的阅读成本。的言论数据的阅读成本。

【技术实现步骤摘要】
交谈信息获取方法、装置、存储介质和电子设备


[0001]本专利技术涉及计算机
,具体涉及一种交谈信息获取方法、装置、存储介质、电子设备和计算机程序产品。

技术介绍

[0002]目前,每天都会有大量的新闻言论产生,其中又有许多新闻言论和交谈相关。用户希望从大量的言论信息中得到与交谈相关的言论,同时能快速得知交谈的时间、机关、公司和问题等信息。这些信息不仅可以帮助用户快速地发现有关企业的重要动态,更能辅助用户及时做出决策。但由于新闻言论的数量庞大以及内容繁杂,导致用户无法直接从中获取相关信息。
[0003]现有技术中在进行新闻言论的关键信息提取时,往往是通过人工构建抽取规则或者人工去新闻中进行浏览筛选获得交谈的相关信息,这种方式的准确性和实时性都比较差。
[0004]具体地,现有技术中大多是直接通过人工构建抽取规则或者人工浏览筛选的方式来获取交谈的相关信息,并且未能针对重复的新闻言论进行有效地去重处理,导致结果中出现多条重复的数据。并且由于言论的格式复杂,单纯采用抽取规则无法覆盖所有情况,导致抽取的结果准确性较低;而使用人工进行浏览筛选则耗费人力且低效。
[0005]因此,如何对新闻言论中的交谈相关的言论信息进行获取是待解决的技术问题。

技术实现思路

[0006]基于此,针对现有技术中无法有效地对新闻言论中的交谈相关的言论信息进行获取的问题,本专利技术提供了一种交谈信息获取方法、装置、存储介质、电子设备和计算机程序产品。
[0007]第一方面,本专利技术实施例提供了一种交谈信息获取方法,该方法包括:
[0008]获取言论数据的标题,判断标题中是否存在预设关键词信息,若是,则对言论数据的言论文本进行预处理;
[0009]根据标题和预处理后的言论文本获取目标数据,目标数据包括:交谈机构、交谈时间、交谈公司和交谈问题;
[0010]将获取的目标数据作为交谈信息。
[0011]可选地,根据标题和预处理后的言论文本获取目标数据,包括:
[0012]根据预设关键词信息确定言论文本的正文中的交谈行为的数量,并确定各个交谈行为在正文中的位置;
[0013]在确定的各个交谈行为中,提取预设关键词信息的前后各预设数量个字符,作为待抽取文本;
[0014]在获取每一交谈行为的待抽取文本后,根据获取的待抽取文本提取各个交谈行为中的目标数据。
[0015]可选地,根据获取的待抽取文本提取各个交谈行为中的目标数据,包括:
[0016]在待抽取文本的前预设数量个字符中,使用预设规则提取其中的日期作为交谈时间;
[0017]若抽取到多个日期,则选择距离预设关键词信息最近的日期作为交谈时间。
[0018]可选地,根据获取的待抽取文本提取各个交谈行为中的目标数据,包括:在待抽取文本的预设数量个字符中,通过命名实体识别的方式识别出预设数量个字符中的机构类实体,并将机构类实体作为交谈机构;和/或,
[0019]根据获取的待抽取文本提取各个交谈行为中的目标数据,包括:在待抽取文本的预设数量个字符中,通过命名实体识别的方式识别出预设数量个字符中的公司类实体,并将公司类实体作为交谈公司。
[0020]可选地,在根据获取的待抽取文本提取各个交谈行为中的交谈机构和交谈公司之后,该方法还包括:
[0021]选取与预设关键词信息之间文本距离最小的交谈机构或交谈公司,作为交谈机构或交谈公司的选取结果;
[0022]若单一待抽取文本中存在多个交谈机构或交谈公司时,将距离预设关键词信息最近的交谈机构或交谈公司作为选取目标;其余交谈机构或交谈公司在确定与其相邻的上一交谈机构或交谈公司为对应的选取目标后,判断其余交谈机构或交谈公司与其相邻的上一选取目标之间的文本距离,若其余交谈机构或交谈公司与其相邻的上一选取目标之间的文本距离小于预设文本距离,则将其余交谈机构或交谈公司作为选取目标;将所有的选取目标作为选取结果。
[0023]可选地,根据获取的待抽取文本提取各个交谈行为中的目标数据,包括:
[0024]根据预设抽取模板或者采用模型抽取的方式进行交谈问题的抽取,并对抽取结果进行优化。
[0025]可选地,将获取的目标数据作为交谈信息之前,该方法还包括:
[0026]在获取到若干篇言论数据后,提取每一言论数据的目标数据;
[0027]将每一言论数据对应的目标数据进行拼接后,获取一长串;
[0028]依次计算若干篇目标数据两两之间的长串编辑距离值,并将每一目标数据与其他所有目标数据之间的长串编辑距离值相加得到距离总值;
[0029]将得到的若干个目标数据对应的距离总值由小到大进行排序,依次遍历选择后,选择其中一目标数据的同时,去除与其长串编辑距离值小于阈值的目标数据,直至目标数据选择完毕,将最终选择的结果集作为去重后的最终的交谈信息。
[0030]第二方面,本专利技术实施例提供了一种交谈信息获取装置,该装置包括:
[0031]预处理模块,用于获取言论数据的标题,判断标题中是否存在预设关键词信息,若是,则对言论数据的言论文本进行预处理;
[0032]目标数据获取模块,用于根据标题和预处理后的言论文本获取目标数据,目标数据包括:交谈机构、交谈时间、交谈公司和交谈问题;
[0033]交谈信息获取模块,用于将获取的目标数据作为交谈信息。
[0034]第三方面,本专利技术实施例提供了一种电子设备,该电子设备包括:
[0035]处理器;
[0036]用于存储处理器可执行指令的存储器;
[0037]处理器,用于从存储器中读取可执行指令,并执行可执行指令以实现上述方法的步骤。
[0038]第四方面,本专利技术实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序用于执行上述方法的步骤。
[0039]第五方面,本专利技术实施例提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现上述方法的步骤。
[0040]在本专利技术提供的交谈信息获取方法、装置、存储介质和电子设备,获取言论数据的标题,判断标题中是否存在预设关键词信息,若是,则对言论数据的言论文本进行预处理;根据标题和预处理后的言论文本获取目标数据,在对目标数据去重后得到最终的交谈信息,其能够处理各种言论数据,既保证召回率,又有较高的准确率,同时通过对言论数据中的交谈信息进行抽取,可以有效地过滤得到言论中与交谈相关的数据,通过获得交谈关键的四个维度信息:交谈机构、交谈时间、交谈公司和交谈问题,可以直接提供给用户结构化的信息,大大降低了用户对于繁杂的言论数据的阅读成本;另外,通过采用正则表达式结合模型抽取的方式进行信息抽取,不仅保证了较高的处理性能,对于海量的言论数据来说,可以有效地提高数据处理效率,节省人力和物力,同时针对重复的结果进行了有效地去重处理,可以得到质量更高的结构化数据。
附图说明
[0041]通过参考下面的附图,可以更为完整地理解本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种交谈信息获取方法,其特征在于,所述方法包括:获取言论数据的标题,判断所述标题中是否存在预设关键词信息,若是,则对所述言论数据的言论文本进行预处理;根据标题和预处理后的言论文本获取目标数据,所述目标数据包括:交谈机构、交谈时间、交谈公司和交谈问题;将获取的所述目标数据作为交谈信息。2.根据权利要求1所述的交谈信息获取方法,其特征在于,所述根据标题和预处理后的言论文本获取目标数据,包括:根据所述预设关键词信息确定所述言论文本的正文中的交谈行为的数量,并确定各个所述交谈行为在所述正文中的位置;在确定的各个所述交谈行为中,提取所述预设关键词信息的前后各预设数量个字符,作为待抽取文本;在获取每一所述交谈行为的待抽取文本后,根据获取的所述待抽取文本提取各个所述交谈行为中的目标数据。3.根据权利要求2所述的交谈信息获取方法,其特征在于,所述根据获取的所述待抽取文本提取各个所述交谈行为中的目标数据,包括:在所述待抽取文本的前预设数量个字符中,使用预设规则提取其中的日期作为所述交谈时间;若抽取到多个日期,则选择距离所述预设关键词信息最近的日期作为所述交谈时间。4.根据权利要求2所述的交谈信息获取方法,其特征在于,所述根据获取的所述待抽取文本提取各个所述交谈行为中的目标数据,包括:在所述待抽取文本的预设数量个字符中,通过命名实体识别的方式识别出所述预设数量个字符中的机构类实体,并将所述机构类实体作为所述交谈机构;和/或,所述根据获取的所述待抽取文本提取各个所述交谈行为中的目标数据,包括:在所述待抽取文本的预设数量个字符中,通过命名实体识别的方式识别出所述预设数量个字符中的公司类实体,并将所述公司类实体作为所述交谈公司。5.根据权利要求4所述的交谈信息获取方法,其特征在于,在根据获取的所述待抽取文本提取各个所述交谈行为中的交谈机构和交谈公司之后,所述方法还包括:选取与所述预设关键词信息之间文本距离最小的交谈机构或交谈公司,作为所述交谈机构或交谈公司的选取结果;若单一所述待抽取文本中存在多个所述交谈机构或交谈公司时,将距离所述预设关键词信息最近的交谈机构或交谈公司作为选取目标;其余交谈机构或交谈公司在确定与其相邻的...

【专利技术属性】
技术研发人员:李凯
申请(专利权)人:北京金堤科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1