基于词性对齐的文本相似度计算方法技术

技术编号:26531463 阅读:18 留言:0更新日期:2020-12-01 14:12
本发明专利技术涉及自然语言处理技术领域,具体为基于词性对齐的文本相似度计算方法,包括:S100:对第一语句和第二语句进行分词和词性标注;S300:计算第一语句的分词和第二语句的分词之间的同义词关系,得到同义词矩阵;S400:依次对每一种词性执行步骤S401至步骤S404;S401:从第一语句和第二语句中提取当前词性对应的分词,得到第一分词序列和第二分词序列;S403:判断第一分词序列与第二分词序列的各个分词之间的对应关系,得到第一语句和第二语句的对齐结果;S404:根据对齐结果统计当前词性的对齐特征;S500:根据统计的对齐特征,计算文本相似度。本申请的基于词性对齐的文本相似度计算方法,能够解决现有算法存在的训练数据量大、计算复杂、准确率低的问题。

【技术实现步骤摘要】
基于词性对齐的文本相似度计算方法
本专利技术涉及自然语言处理
,具体为基于词性对齐的文本相似度计算方法。
技术介绍
影响智能问答系统准确度的核心算法是文本相似度算法。现有的文本相似度算法有:编辑距离、jaccard集合相似度、tfidf、bm25、wmd算法等,这些都是传统的文本相似度算法,具有快速、稳定性高的特点。随着深度学习技术的发展,出现了如averageembedding、tfidfembedding、sif等非监督的基于词向量线性加权的文本相似度算法以及infersent、esim、bert等监督的基于深度学习的文本相似度算法,非监督的基于词向量模型的相似度算法总体效果略优于传统算法,但由于词向量模型所需内存较大(中文常达到7-8G),部署成本也相应增加,且与深度学习算法相比,精度较差。基于深度学习的文本相似度算法在固定场景下能够获得传统方法无法达到的效果。但是这类算法的跨场景迁移能力很差,同时需要大量数据样本训练,对系统配置要求高。
技术实现思路
本专利技术意在提供基于词性对齐的文本相似度计算方法,能够解决现有的文本相似度算法存在的需要大数据训练、计算复杂以及准确率低的问题。本申请提供如下技术方案:基于词性对齐的文本相似度计算方法,包括:S100:对待计算的第一语句和第二语句进行分词;S200:对第一语句和第二语句的分词进行词性标注;S300:计算第一语句的分词和第二语句的分词之间的同义词关系,得到同义词矩阵;S400:依次以第一语句和第二语句中出现的每一种词性为当前词性并执行步骤S401至步骤S404:S401:从第一语句中提取当前词性对应的分词,得到第一分词序列;S402:从第二语句中提取当前词性对应的分词,得到第二分词序列;S403:根据同义词矩阵判断第一分词序列的各个分词与第二分词序列的各个分词之间的对应关系,根据对应关系得到当前词性下第一语句和第二语句的对齐结果;S404:根据对齐结果统计当前词性的对齐特征;S500:根据统计的对齐特征,按照预设公式计算文本相似度。本专利技术技术方案中,通过语句之间分词的对齐结果来计算统计对齐特征,进而基于统计特征计算文本相似度,该方法是一种非监督文本相似度算法,相比目前非监督算法,准确率有明显的提高,逼近于采用了大数据训练的基于深度神经网络算法,相比于深度神经网络算法,本方案计算过程简单,不需要大数据训练,跨场景稳定性高。进一步,所述对齐特征包括:词性为空、对齐总数、对齐程度以及词性权重。词性为空表示当前词性是否为空,为空则在后续文本相似度计算时予以排除,避免产生误差,对齐总数表示第一语句和第二语句的同词性下分词的对应的总数量占比;对齐程度用于反应第一语句与第二语句同词性下分词的对齐程度;词性权重则用于反应当前词性在计算文本相似度时所占的权重大小。进一步,所述预设公式为:k=1,(pi[in]≥0)k=pi[in],(pi[in]<0)其中,s代表相似度,n为不为空的词性个数,pi[t]表示第i个词性的对齐总数,pi[r]表示第i个词性的词性权重,pi[in]表示第i个词性的对齐程度。进一步,所述S300中,仅对同词性的分词进行同义词的计算。进一步,所述S403具体包括:S4031:依次判断第一分词序列的每个分词是否在第二分词序列中有对应的同义词,若是,则判定相应的分词已对齐,若否,则判定相应的分词未对齐;S4032:依次判断第二分词序列的每个分词是否在第一分词序列中有对应的同义词,若是,则判定相应的分词已对齐,若否,则判定相应的分词未对齐。进一步,S404具体包括:S4041:统计第一分词序列和第二分词序列中已对齐的分词个数以及未对齐的分词的个数;S4042:计算已对齐的分词个数占总分词个数的比例作为对齐总数。进一步,所述S404还包括:S4043:判断是否存在未对齐分词,若是,则执行S4044,若否,则令对齐程度为1;S4044:判断是否第一分词序列和第二分词序列中均存在未对齐分词,若是,则执行S4045;若否,则令对齐程度为0;S4045:计算第一分词序列中已对齐分词个数所占比例与第二分词序列中已对齐分词个数所占比例的乘积,以乘积乘以-1的结果作为对齐程度。进一步,所述S404还包括:S4046:将当前词性下第一分词序列和第二分词序列中分词的数量占第一语句和第二语句总的分词数量的比例作为当前词性权重。进一步,还包括:S600:根据文本相似度判断第一语句和第二语句是否相似。基于文本相似度,最终得到两个文本是否相似的结果。附图说明图1为本申请基于词性对齐的文本相似度计算方法实施例中的流程图;图2为本申请基于词性对齐的文本相似度计算方法实施例中的对比实验结果图;图3为本申请基于词性对齐的文本相似度计算方法实施例中另一对比实验结果图。具体实施方式下面通过具体实施方式进一步详细说明:实施例一如图1所示,本实施例的基于词性对齐的文本相似度计算方法,包括以下内容:S100:对待计算的第一语句和第二语句进行分词。S200:对第一语句和第二语句的分词进行词性标注。S300:计算第一语句的分词和第二语句的分词之间的同义词关系,得到同义词矩阵。本实施例中,仅对同词性的分词进行同义词的计算。S400:依次以第一语句和第二语句中出现的每一种词性为当前词性并执行步骤S401至步骤S404。S401:从第一语句中提取当前词性对应的分词,得到第一分词序列。S402:从第二语句中提取当前词性对应的分词,得到第二分词序列。S403:根据同义词矩阵判断第一分词序列的各个分词与第二分词序列的各个分词之间的对应关系,根据对应关系得到当前词性下第一语句和第二语句的对齐结果。S403具体包括:S4031:依次判断第一分词序列的每个分词是否在第二分词序列中有对应的同义词,若是,则判定相应的分词已对齐,若否,则判定相应的分词未对齐;S4032:依次判断第二分词序列的每个分词是否在第一分词序列中有对应的同义词,若是,则判定相应的分词已对齐,若否,则判定相应的分词未对齐。S404:根据对齐结果统计当前词性的对齐特征;对齐特征包括:词性为空、对齐总数、对齐程度以及词性权重。词性为空表示当前词性是否为空,为空则在后续文本相似度计算时予以排除,避免产生误差,对齐总数表示第一语句和第二语句的同词性下分词的对应的总数量占比;对齐程度用于反应第一语句与第二语句同词性下分词的对齐程度;词性权重则用于反应当前词性在计算文本相似度时所占的权重大小。S404具体包括:S4041:统计第一分词序列和第二分词序列中已对齐的分词个数以及未对齐的分词的个数;S4042:计算已本文档来自技高网...

【技术保护点】
1.基于词性对齐的文本相似度计算方法,其特征在于:包括以下步骤:/nS100:对待计算的第一语句和第二语句进行分词;/nS200:对第一语句和第二语句的分词进行词性标注;/nS300:计算第一语句的分词和第二语句的分词之间的同义词关系,得到同义词矩阵;/nS400:依次以第一语句和第二语句中出现的每一种词性为当前词性并执行步骤S401至步骤S404:/nS401:从第一语句中提取当前词性对应的分词,得到第一分词序列;/nS402:从第二语句中提取当前词性对应的分词,得到第二分词序列;/nS403:根据同义词矩阵判断第一分词序列的各个分词与第二分词序列的各个分词之间的对应关系,根据对应关系得到当前词性下第一语句和第二语句的对齐结果;/nS404:根据对齐结果统计当前词性的对齐特征;/nS500:根据统计的对齐特征,按照预设公式计算文本相似度。/n

【技术特征摘要】
1.基于词性对齐的文本相似度计算方法,其特征在于:包括以下步骤:
S100:对待计算的第一语句和第二语句进行分词;
S200:对第一语句和第二语句的分词进行词性标注;
S300:计算第一语句的分词和第二语句的分词之间的同义词关系,得到同义词矩阵;
S400:依次以第一语句和第二语句中出现的每一种词性为当前词性并执行步骤S401至步骤S404:
S401:从第一语句中提取当前词性对应的分词,得到第一分词序列;
S402:从第二语句中提取当前词性对应的分词,得到第二分词序列;
S403:根据同义词矩阵判断第一分词序列的各个分词与第二分词序列的各个分词之间的对应关系,根据对应关系得到当前词性下第一语句和第二语句的对齐结果;
S404:根据对齐结果统计当前词性的对齐特征;
S500:根据统计的对齐特征,按照预设公式计算文本相似度。


2.根据权利要求1所述的基于词性对齐的文本相似度计算方法,其特征在于:所述对齐特征包括:词性为空、对齐总数、对齐程度以及词性权重。


3.根据权利要求2所述的基于词性对齐的文本相似度计算方法,其特征在于:所述预设公式为:



k=1,(pi[in]≥0)
k=pi[in],(pi[in]<0)
其中,s代表相似度,n为不为空的词性个数,pi[t]表示第i个词性的对齐总数,pi[r]表示第i个词性的词性权重,pi[in]表示第i个词性的对齐程度。


4.根据权利要求3所述的基于词性对齐的文本相似度计算方法,其特征在于:所述S300中,仅对同词性的分词进行同义词的计算。


5.根据权利要求4所述...

【专利技术属性】
技术研发人员:覃勋辉杜若唐成友
申请(专利权)人:重庆邂智科技有限公司
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1