一种短文本相似度确定方法技术

技术编号:39487112 阅读:8 留言:0更新日期:2023-11-24 11:07
本发明专利技术实施例公开了一种短文本相似度确定方法

【技术实现步骤摘要】
一种短文本相似度确定方法、装置及终端


[0001]本专利技术涉及人工智能
,特别是涉及一种短文本相似度确定方法

装置及终端


技术介绍

[0002]随着人工智能技术的发展,尤其是信息相似性的排查技术,已成为当前对信息
/
文本分类的主要技术之一

目前,对于文本相似度的识别,主要是通过自然语言
NLP
实现,例如通过自然语言技术进行语义检索,基于语义来判断两者是否相似,但是目前的语义检索方案只能解析出词语在当前的段落中的语义,并没有进行上下文的关联,导致其语义不准确,导致相似度的计算误差


技术实现思路

[0003]基于此,本专利技术提供一种短文本相似度确定方法

装置

芯片及终端,可以提高短文语义相似度的准确率和效率

[0004]第一方面,提供一种短文本相似度确定方法,包括:
[0005]获取待处理的两个短文本,提取各短文本的词条文件,其中所述词条文件包括多个词对;
[0006]基于所述词条文件对对应的所述短文本进行短语提取,得到短语数组,其中所述短语数组中的每条短语至少包含所述词对中的至少一个词语;
[0007]以所述词条文件中的词对作为分割单位,对所述短语数组中的各短语进行分词,并剔除分词后的短语中的无语义词,得到对应的特征模板;
[0008]对两个短文本对应的所述特征模板进行聚类合并,并统计各所述特征模板在其对应的短语数组中的频率,生成对应的特征模板数组和模板频率数组;
[0009]基于两个所述短文本对应的特征模板数组和模板频率数组,利用预先训练得到的关系相似度计算模型计算出两个短文本的相似度,其中,所述关系相似度计算模型是通过将基于语义词典的语义相关度算法应用于基于统计的词对关系相似度算法中加以训练得到的相似度计算模型

[0010]可选的,所述获取待处理的两个短文本,提取各短文本的词条文件,包括:
[0011]利用
MediaWiki
引擎软件架设
wikipedi
的本地镜像平台;
[0012]利用预设的语义识别模型,对从已知的短文数据库中获取到的两个短文本进行词义识别,并基于识别的结果筛选出语义表示为词干词和选择项词的词语;
[0013]将筛选出来的词语输入至本地镜像平台进行镜像处理,得到各词语的镜像词语,其中,所述镜像词语与对应的词语之间为语义相同或者相近的词语;
[0014]将所述词语与对应的镜像词语构建词对,得到词条文件

[0015]可选的,所述基于所述词条文件对对应的所述短文本进行短语提取,得到短语数组,包括:
[0016]以所述词条文件中的各词对分别作为索引,查找对应的短文本中以所述词对的词语作为起始语和
/
或结束语的句子;
[0017]判断所述句子的长度是否满足长度范围阈值,并基于判断结果为位于所述长度范围阈值内的句子构建短语数组

[0018]可选的,所述判断所述句子的长度是否满足长度范围阈值,并基于判断结果为位于所述长度范围阈值内的句子构建短语数组,包括:
[0019]判断以所述词对中的第一词语作为结束语的句子的长度是否不超过第一阈值区域;
[0020]判断以所述词对中的第二词语作为结束语的句子的长度是否不超过第二阈值区域;
[0021]提取不超过第一阈值区域和
/
或不超过第二阈值区域的句子作为短语,构建对应的短文本的短语数组

[0022]可选的,所述以所述词条文件中的词对作为分割单位,对所述短语数组中的各短语进行分词,并剔除分词后的短语中的无语义词,得到对应的特征模板,包括:
[0023]确定所述词条文件中的目标词对,并提取所述短语数组中与所述目标词对的第一词语和第二词语对应的目标短语;
[0024]标记所述目标短语中的第一词语和第二词语的位置;
[0025]确定所述第一词语和所述第二词语的词性,并基于所述词性确定位于所述第一词语和所述第二词语之间的停用词和连接词;
[0026]剔除所述目标短语中的停用词,得到对应的特征模板

[0027]可选的,所述对两个短文本对应的所述特征模板进行聚类合并,并统计各所述特征模板在其对应的短语数组中的频率,生成对应的特征模板数组和模板频率数组,包括:
[0028]统计各所述短文本中存在同一词对的特征模板的个数,并基于所述个数计算对应的特征模板出现的频率;
[0029]识别存在同一词对的特征模板之间是否存在相同的连接词;
[0030]若存在,则将对应的两个特征模板合并,并将对应的频率相加,得到合并后的特征模板在对应的短语数组中的频率,生成对应的特征模板数组和模板频率数组

[0031]可选的,所述基于两个所述短文本对应的特征模板数组和模板频率数组,利用预先训练得到的关系相似度计算模型计算出两个短文本的相似度,包括:
[0032]基于各所述短文本对应的特征模板数组确定各词对对应的连接词数组;
[0033]基于所述词对中的词干词和选择项词,从所述连接词数组中确定对应的连接词,并将确定的连接词输入至预先训练得到的关系相似度计算模型的两输入端,通过所述关系相似度计算模型对所述词对进行向量填充,得到对应的高位稠密向量;
[0034]基于所述关系相似度计算模型中的孪生网络确定共享权重,并基于所述共享权重计算两个所述短文本的主语义信息的特征权重;
[0035]根据所述特征权重计算两词对对应的高位稠密向量之间的距离,得到两个短文本的相似度

[0036]第二方面,提供一种短文本的相似度确定装置,包括:
[0037]第一提取模块,用于获取待处理的两个短文本,提取各短文本的词条文件,其中所
述词条文件包括多个词对;
[0038]第二提取模块,用于基于所述词条文件对对应的所述短文本进行短语提取,得到短语数组,其中所述短语数组中的每条短语至少包含所述词对中的至少一个词语;
[0039]剔除模块,用于以所述词条文件中的词对作为分割单位,对所述短语数组中的各短语进行分词,并剔除分词后的短语中的无语义词,得到对应的特征模板;
[0040]聚类模块,用于对两个短文本对应的所述特征模板进行聚类合并,并统计各所述特征模板在其对应的短语数组中的频率,生成对应的特征模板数组和模板频率数组;
[0041]计算模块,用于基于两个所述短文本对应的特征模板数组和模板频率数组,利用预先训练得到的关系相似度计算模型计算出两个短文本的相似度,其中,所述关系相似度计算模型是通过将基于语义词典的语义相关度算法应用于基于统计的词对关系相似度算法中加以训练得到的相似度计算模型

[0042]可选的,所述第一提取模块具体用于:...

【技术保护点】

【技术特征摘要】
1.
一种短文本相似度确定方法,其特征在于,包括:获取待处理的两个短文本,提取各短文本的词条文件,其中所述词条文件包括多个词对;基于所述词条文件对对应的所述短文本进行短语提取,得到短语数组,其中所述短语数组中的每条短语至少包含所述词对中的至少一个词语;以所述词条文件中的词对作为分割单位,对所述短语数组中的各短语进行分词,并剔除分词后的短语中的无语义词,得到对应的特征模板;对两个短文本对应的所述特征模板进行聚类合并,并统计各所述特征模板在其对应的短语数组中的频率,生成对应的特征模板数组和模板频率数组;基于两个所述短文本对应的特征模板数组和模板频率数组,利用预先训练得到的关系相似度计算模型计算出两个短文本的相似度,其中,所述关系相似度计算模型是通过将基于语义词典的语义相关度算法应用于基于统计的词对关系相似度算法中加以训练得到的相似度计算模型
。2.
如权利要求1所述的短文本相似度确定方法,其特征在于,所述获取待处理的两个短文本,提取各短文本的词条文件,包括:利用
MediaWiki
引擎软件架设
wikipedi
的本地镜像平台;利用预设的语义识别模型,对从已知的短文数据库中获取到的两个短文本进行词义识别,并基于识别的结果筛选出语义表示为词干词和选择项词的词语;将筛选出来的词语输入至本地镜像平台进行镜像处理,得到各词语的镜像词语,其中,所述镜像词语与对应的词语之间为语义相同或者相近的词语;将所述词语与对应的镜像词语构建词对,得到词条文件
。3.
如权利要求1所述的短文本相似度确定方法,其特征在于,所述基于所述词条文件对对应的所述短文本进行短语提取,得到短语数组,包括:以所述词条文件中的各词对分别作为索引,查找对应的短文本中以所述词对的词语作为起始语和
/
或结束语的句子;判断所述句子的长度是否满足长度范围阈值,并基于判断结果为位于所述长度范围阈值内的句子构建短语数组
。4.
如权利要求3所述的短文本相似度确定方法,其特征在于,所述判断所述句子的长度是否满足长度范围阈值,并基于判断结果为位于所述长度范围阈值内的句子构建短语数组,包括:判断以所述词对中的第一词语作为结束语的句子的长度是否不超过第一阈值区域;判断以所述词对中的第二词语作为结束语的句子的长度是否不超过第二阈值区域;提取不超过第一阈值区域和
/
或不超过第二阈值区域的句子作为短语,构建对应的短文本的短语数组
。5.
如权利要求4所述的短文本相似度确定方法,其特征在于,所述以所述词条文件中的词对作为分割单位,对所述短语数组中的各短语进行分词,并剔除分词后的短语中的无语义词,得到对应的特征模板,包括:确定所述词条文件中的目标词对,并提取所述短语数组中与所述目标词对的第一词语和第二词语对应的目标短语;
标记所述目标短语中...

【专利技术属性】
技术研发人员:请求不公布姓名
申请(专利权)人:南京朗拓科技投资有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1