【技术实现步骤摘要】
一种短文本相似度确定方法、装置及终端
[0001]本专利技术涉及人工智能
,特别是涉及一种短文本相似度确定方法
、
装置及终端
。
技术介绍
[0002]随着人工智能技术的发展,尤其是信息相似性的排查技术,已成为当前对信息
/
文本分类的主要技术之一
。
目前,对于文本相似度的识别,主要是通过自然语言
NLP
实现,例如通过自然语言技术进行语义检索,基于语义来判断两者是否相似,但是目前的语义检索方案只能解析出词语在当前的段落中的语义,并没有进行上下文的关联,导致其语义不准确,导致相似度的计算误差
。
技术实现思路
[0003]基于此,本专利技术提供一种短文本相似度确定方法
、
装置
、
芯片及终端,可以提高短文语义相似度的准确率和效率
。
[0004]第一方面,提供一种短文本相似度确定方法,包括:
[0005]获取待处理的两个短文本,提取各短文本的词条文件,其中所述词条文件包括多个词对;
[0006]基于所述词条文件对对应的所述短文本进行短语提取,得到短语数组,其中所述短语数组中的每条短语至少包含所述词对中的至少一个词语;
[0007]以所述词条文件中的词对作为分割单位,对所述短语数组中的各短语进行分词,并剔除分词后的短语中的无语义词,得到对应的特征模板;
[0008]对两个短文本对应的所述特征模板进行聚类合并,并统计各所述特征模板在其对
【技术保护点】
【技术特征摘要】
1.
一种短文本相似度确定方法,其特征在于,包括:获取待处理的两个短文本,提取各短文本的词条文件,其中所述词条文件包括多个词对;基于所述词条文件对对应的所述短文本进行短语提取,得到短语数组,其中所述短语数组中的每条短语至少包含所述词对中的至少一个词语;以所述词条文件中的词对作为分割单位,对所述短语数组中的各短语进行分词,并剔除分词后的短语中的无语义词,得到对应的特征模板;对两个短文本对应的所述特征模板进行聚类合并,并统计各所述特征模板在其对应的短语数组中的频率,生成对应的特征模板数组和模板频率数组;基于两个所述短文本对应的特征模板数组和模板频率数组,利用预先训练得到的关系相似度计算模型计算出两个短文本的相似度,其中,所述关系相似度计算模型是通过将基于语义词典的语义相关度算法应用于基于统计的词对关系相似度算法中加以训练得到的相似度计算模型
。2.
如权利要求1所述的短文本相似度确定方法,其特征在于,所述获取待处理的两个短文本,提取各短文本的词条文件,包括:利用
MediaWiki
引擎软件架设
wikipedi
的本地镜像平台;利用预设的语义识别模型,对从已知的短文数据库中获取到的两个短文本进行词义识别,并基于识别的结果筛选出语义表示为词干词和选择项词的词语;将筛选出来的词语输入至本地镜像平台进行镜像处理,得到各词语的镜像词语,其中,所述镜像词语与对应的词语之间为语义相同或者相近的词语;将所述词语与对应的镜像词语构建词对,得到词条文件
。3.
如权利要求1所述的短文本相似度确定方法,其特征在于,所述基于所述词条文件对对应的所述短文本进行短语提取,得到短语数组,包括:以所述词条文件中的各词对分别作为索引,查找对应的短文本中以所述词对的词语作为起始语和
/
或结束语的句子;判断所述句子的长度是否满足长度范围阈值,并基于判断结果为位于所述长度范围阈值内的句子构建短语数组
。4.
如权利要求3所述的短文本相似度确定方法,其特征在于,所述判断所述句子的长度是否满足长度范围阈值,并基于判断结果为位于所述长度范围阈值内的句子构建短语数组,包括:判断以所述词对中的第一词语作为结束语的句子的长度是否不超过第一阈值区域;判断以所述词对中的第二词语作为结束语的句子的长度是否不超过第二阈值区域;提取不超过第一阈值区域和
/
或不超过第二阈值区域的句子作为短语,构建对应的短文本的短语数组
。5.
如权利要求4所述的短文本相似度确定方法,其特征在于,所述以所述词条文件中的词对作为分割单位,对所述短语数组中的各短语进行分词,并剔除分词后的短语中的无语义词,得到对应的特征模板,包括:确定所述词条文件中的目标词对,并提取所述短语数组中与所述目标词对的第一词语和第二词语对应的目标短语;
标记所述目标短语中...
【专利技术属性】
技术研发人员:请求不公布姓名,
申请(专利权)人:南京朗拓科技投资有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。