问题信息提取方法、装置、电子设备和存储介质制造方法及图纸

技术编号:21952437 阅读:28 留言:0更新日期:2019-08-24 17:43
本申请提供了一种问题信息提取方法、装置、电子设备及存储介质,涉及数据挖掘技术领域。该方法包括:获取目标领域的问题信息;将问题信息进行标准化处理,得到标准化问题信息;从标准化问题信息中提取出满足预设条件的目标问题信息;其中,预设条件包括:目标问题信息中的目标领域关键词的数量达到预设的第一数量阈值,并且目标问题信息对应的回复信息的数量达到预设的第二数量阈值。本申请实现了准确提取目标领域的问题信息,基于本申请技术方案得到的目标问题信息构造的问答系统回复答案的准确性更高,具有更好的性能。

Problem Information Extraction Method, Device, Electronic Equipment and Storage Media

【技术实现步骤摘要】
问题信息提取方法、装置、电子设备和存储介质
本申请涉及数据挖掘
,具体而言,本申请涉及一种问题信息提取方法、装置、电子设备和存储介质。
技术介绍
随着计算机技术的发展,人工智能得到越来越广泛的重视。人工智能是研究人类智能活动的规律,构造具有一定智能的计算机系统,研究如何让计算机去完成以往需要人的智力才能胜任的工作,也就是研究如何应用计算机的软硬件来模拟人类智能行为的技术。人工智能技术在智能家居、智能车载、智能手机等领域得到了广泛应用。将人工智能技术应用到问答系统中,能够自动回复用户提出的问题,在节省人力的同时,还能够提高回复效率。因此,需要一种从海量的语料中识别出满足要求的问题信息的解决方案,现有技术中的问题信息识别方案的识别效果不好,从而影响了问答系统回复答案的准确性。
技术实现思路
本申请提供了一种问题信息提取方法、装置、电子设备和存储介质,用于解决现有技术中的问题信息识别方案的识别效果不好,影响问答系统回复答案的准确性的问题。第一方面,提供了一种问题信息提取方法,该方法包括:获取目标领域的问题信息;将问题信息进行标准化处理,得到标准化问题信息;从标准化问题信息中提取出满足预设条件的目标问题信息;其中,预设条件包括:目标问题信息中的目标领域关键词的数量达到预设的第一数量阈值,并且目标问题信息对应的回复信息的数量达到预设的第二数量阈值。在一种可能的实现方式中,在从所述标准化问题信息中提取出满足预设条件的目标问题信息之后,所述方法还包括:基于所述目标领域关键词在每个所述目标问题信息中的词频-逆文本频率TF-IDF将所述目标问题信息进行聚类,得到多个类别的目标问题信息;确定每个类别的目标问题信息中的任意两个目标问题信息的相似度,根据所述相似度进行去重处理。在一种可能的实现方式中,方法还包括:获取回复信息中的目标领域关键词数量特征参数和回复信息的长度特征参数;将目标领域关键词数量特征参数和长度特征参数进行加权计算,根据加权计算结果确定答案信息。在一种可能的实现方式中,在获取目标领域的问题信息之前,方法还包括:对原始语料进行分词处理,得到候选目标领域关键词;计算候选目标领域关键词的互信息、左熵以及右熵;将互信息、左熵以及右熵相加,得到候选目标领域关键词的排序信息;基于排序信息确定目标领域关键词。在一种可能的实现方式中,获取目标领域的问题信息,包括:将目标领域关键词与问题信息预料库中的问题信息进行匹配度计算,将匹配度满足预设范围的问题信息作为目标领域问题信息。在一种可能的实现方式中,将问题信息进行标准化处理,得到标准化问题信息,包括:计算问题信息中的各个词汇与预定的口语化表达词汇表中各个口语化词汇的相似度;将相似度大于预设的第一相似度阈值的问题信息中的词汇进行过滤处理,得到过滤处理后的标准化问题信息。在一种可能的实现方式中,从标准化问题信息中提取出满足预设条件的目标问题信息,包括:利用支持向量机SVM模型从标准化问题信息中提取出目标问题信息。在一种可能的实现方式中,方法还包括:接收用户输入的问题信息,计算用户输入的问题信息与目标问题信息的语义相似度;当语义相似度达到预设的第二相似度阈值时,将目标问题信息对应的答案信息作为用户输入的问题信息对应的答案信息。在一种可能的实现方式中,计算用户输入的问题信息与目标问题信息的语义相似度,包括:计算用户输入的问题信息与目标问题信息之间的N-gram特征参数和语义距离特征参数;将N-gram特征参数和语义距离特征参数进行线性加权计算,根据线性加权计算结果确定用户输入的问题信息与目标问题信息的语义相似度。第二方面,提供了一种问题信息提取装置,包括:获取模块,用于获取目标领域的问题信息;处理模块,用于将问题信息进行标准化处理,得到标准化问题信息;提取模块,用于从标准化问题信息中提取出满足预设条件的目标问题信息;其中,预设条件包括:目标问题信息中的目标领域关键词的数量达到预设的第一数量阈值,并且目标问题信息对应的回复信息的数量达到预设的第二数量阈值。在一种可能的实现方式中,装置还包括去重模块,去重模块用于:基于目标领域关键词在每个目标问题信息中的词频-逆文本频率TF-IDF将目标问题信息进行聚类,得到多个类别的目标问题信息;确定每个类别的目标问题信息中的任意两个目标问题信息的相似度,根据相似度进行去重处理。在一种可能的实现方式中,装置还包括答案确定模块,答案确定模块用于:获取回复信息中的目标领域关键词数量特征参数和回复信息的长度特征参数;将目标领域关键词数量特征参数和长度特征参数进行加权计算,根据加权计算结果确定答案信息。在一种可能的实现方式中,装置还包括关键词确定模块,关键词确定模块用于:对原始语料进行分词处理,得到候选目标领域关键词;计算候选目标领域关键词的互信息、左熵以及右熵;将互信息、左熵以及右熵相加,得到候选目标领域关键词的排序信息;基于排序信息确定目标领域关键词。在一种可能的实现方式中,获取模块具体用于:将目标领域关键词与问题信息预料库中的问题信息进行匹配度计算,将匹配度满足预设范围的问题信息作为目标领域问题信息。在一种可能的实现方式中,处理模块具体用于:计算问题信息中的各个词汇与预定的口语化表达词汇表中各个口语化词汇的相似度;将相似度大于预设的第一相似度阈值的问题信息中的词汇进行过滤处理,得到过滤处理后的标准化问题信息。在一种可能的实现方式中,提取模块具体用于:利用支持向量机SVM模型从标准化问题信息中提取出目标问题信息。在一种可能的实现方式中,装置还包括答案获取模块,答案获取模块包括计算单元和判断单元;计算单元用于:接收用户输入的问题信息,计算用户输入的问题信息与目标问题信息的语义相似度;判断单元用于:当语义相似度达到预设的第二相似度阈值时,将目标问题信息对应的答案信息作为用户输入的问题信息对应的答案信息。在一种可能的实现方式中,计算单元具体用于:计算用户输入的问题信息与目标问题信息之间的N-gram特征参数和语义距离特征参数;将N-gram特征参数和语义距离特征参数进行线性加权计算,根据线性加权计算结果确定用户输入的问题信息与目标问题信息的语义相似度。第三方面,提供了一种电子设备,其特征在于,包括:一个或多个处理器;存储器;一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于:执行根据第一方面或者第一方面任一可能的实现方式所示的问题信息提取方法。第四方面,提供了一种计算机可读存储介质,其特征在于,计算机可读存储介质用于存储计算机指令,当其在计算机上运行时,使得计算机可以执行根据第一方面或者第一方面任一可能的实现方式所示的问题信息提取方法。本申请提供的技术方案带来的有益效果是:本申请提供了一种问题信息提取方法、装置、电子设备和存储介质,通过获取目标领域的问题信息;然后将问题信息进行标准化处理,得到标准化问题信息;从标准化问题信息中提取出满足预设条件的目标问题信息;其中,预设条件包括:目标问题信息中的目标领域关键词的数量达到预设的第一数量阈值,并且目标问题信息对应的回复信息的数量达到预设的第二数量阈值。本申请实现了准确提取目标领域的问题信息后,得到问题信息对应的目标问题信息,由于目标问题信本文档来自技高网...

【技术保护点】
1.一种问题信息提取方法,其特征在于,包括:获取目标领域的问题信息;将所述问题信息进行标准化处理,得到标准化问题信息;从所述标准化问题信息中提取出满足预设条件的目标问题信息;其中,所述预设条件包括:所述目标问题信息中的目标领域关键词的数量达到预设的第一数量阈值,并且所述目标问题信息对应的回复信息的数量达到预设的第二数量阈值。

【技术特征摘要】
1.一种问题信息提取方法,其特征在于,包括:获取目标领域的问题信息;将所述问题信息进行标准化处理,得到标准化问题信息;从所述标准化问题信息中提取出满足预设条件的目标问题信息;其中,所述预设条件包括:所述目标问题信息中的目标领域关键词的数量达到预设的第一数量阈值,并且所述目标问题信息对应的回复信息的数量达到预设的第二数量阈值。2.根据权利要求1所述的问题信息提取方法,其特征在于,在从所述标准化问题信息中提取出满足预设条件的目标问题信息之后,所述方法还包括:基于所述目标领域关键词在每个所述目标问题信息中的词频-逆文本频率TF-IDF将所述目标问题信息进行聚类,得到多个类别的目标问题信息;确定每个类别的目标问题信息中的任意两个目标问题信息的相似度,根据所述相似度进行去重处理。3.根据权利要求1或2所述的问题信息提取方法,其特征在于,所述方法还包括:获取所述回复信息中的目标领域关键词数量特征参数和所述回复信息的长度特征参数;将所述目标领域关键词数量特征参数和所述长度特征参数进行加权计算,根据加权计算结果确定所述答案信息。4.根据权利要求1或2所述的问题信息提取方法,其特征在于,在获取目标领域的问题信息之前,所述方法还包括:对原始语料进行分词处理,得到候选目标领域关键词;计算所述候选目标领域关键词的互信息、左熵以及右熵;将所述互信息、左熵以及右熵相加,得到所述候选目标领域关键词的排序信息;基于所述排序信息确定目标领域关键词。5.根据权利要求4所述的问题信息提取方法,其特征在于,获取目标领域的问题信息,包括:将所述目标领域关键词与问题信息预...

【专利技术属性】
技术研发人员:王卓然亓超马宇驰陈华荣秦海龙郭伟
申请(专利权)人:三角兽北京科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1