基于词性对齐的文本相似度计算方法技术

技术编号：26531463 阅读：18 留言：0更新日期：2020-12-01 14:12

本发明专利技术涉及自然语言处理技术领域，具体为基于词性对齐的文本相似度计算方法，包括：S100：对第一语句和第二语句进行分词和词性标注；S300：计算第一语句的分词和第二语句的分词之间的同义词关系，得到同义词矩阵；S400：依次对每一种词性执行步骤S401至步骤S404；S401：从第一语句和第二语句中提取当前词性对应的分词，得到第一分词序列和第二分词序列；S403：判断第一分词序列与第二分词序列的各个分词之间的对应关系，得到第一语句和第二语句的对齐结果；S404：根据对齐结果统计当前词性的对齐特征；S500：根据统计的对齐特征，计算文本相似度。本申请的基于词性对齐的文本相似度计算方法，能够解决现有算法存在的训练数据量大、计算复杂、准确率低的问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于词性对齐的文本相似度计算方法
本专利技术涉及自然语言处理
，具体为基于词性对齐的文本相似度计算方法。
技术介绍
影响智能问答系统准确度的核心算法是文本相似度算法。现有的文本相似度算法有：编辑距离、jaccard集合相似度、tfidf、bm25、wmd算法等，这些都是传统的文本相似度算法，具有快速、稳定性高的特点。随着深度学习技术的发展，出现了如averageembedding、tfidfembedding、sif等非监督的基于词向量线性加权的文本相似度算法以及infersent、esim、bert等监督的基于深度学习的文本相似度算法，非监督的基于词向量模型的相似度算法总体效果略优于传统算法，但由于词向量模型所需内存较大(中文常达到7-8G)，部署成本也相应增加，且与深度学习算法相比，精度较差。基于深度学习的文本相似度算法在固定场景下能够获得传统方法无法达到的效果。但是这类算法的跨场景迁移能力很差，同时需要大量数据样本训练，对系统配置要求高。
技术实现思路
本专利技术意在提供基于词性对齐的文本相似度计算方法，能够解决现有的文本相似度算法存在的需要大数据训练、计算复杂以及准确率低的问题。本申请提供如下技术方案：基于词性对齐的文本相似度计算方法，包括：S100：对待计算的第一语句和第二语句进行分词；S200：对第一语句和第二语句的分词进行词性标注；S300：计算第一语句的分词和第二语句的分词之间的同义词关系，得到同义词矩阵；S400：依次...

【技术保护点】
1.基于词性对齐的文本相似度计算方法，其特征在于：包括以下步骤：/nS100：对待计算的第一语句和第二语句进行分词；/nS200：对第一语句和第二语句的分词进行词性标注；/nS300：计算第一语句的分词和第二语句的分词之间的同义词关系，得到同义词矩阵；/nS400：依次以第一语句和第二语句中出现的每一种词性为当前词性并执行步骤S401至步骤S404：/nS401：从第一语句中提取当前词性对应的分词，得到第一分词序列；/nS402：从第二语句中提取当前词性对应的分词，得到第二分词序列；/nS403：根据同义词矩阵判断第一分词序列的各个分词与第二分词序列的各个分词之间的对应关系，根据对应关系得到当前词性下第一语句和第二语句的对齐结果；/nS404：根据对齐结果统计当前词性的对齐特征；/nS500：根据统计的对齐特征，按照预设公式计算文本相似度。/n

【技术特征摘要】
1.基于词性对齐的文本相似度计算方法，其特征在于：包括以下步骤：
S100：对待计算的第一语句和第二语句进行分词；
S200：对第一语句和第二语句的分词进行词性标注；
S300：计算第一语句的分词和第二语句的分词之间的同义词关系，得到同义词矩阵；
S400：依次以第一语句和第二语句中出现的每一种词性为当前词性并执行步骤S401至步骤S404：
S401：从第一语句中提取当前词性对应的分词，得到第一分词序列；
S402：从第二语句中提取当前词性对应的分词，得到第二分词序列；
S403：根据同义词矩阵判断第一分词序列的各个分词与第二分词序列的各个分词之间的对应关系，根据对应关系得到当前词性下第一语句和第二语句的对齐结果；
S404：根据对齐结果统计当前词性的对齐特征；
S500：根据统计的对齐特征，按照预设公式计算文本相似度。

2.根据权利要求1所述的基于词性对齐的文本相似度计算方法，其特征在于：所述对齐特征包括：词性为空、对齐总数、对齐程度以及词性权重。

3.根据权利要求2所述的基于词性对齐的文本相似度计算方法，其特征在于：所述预设公式为：

k＝1,(pi[in]≥0)
k＝pi[in],(pi[in]<0)
其中，s代表相似度，n为不为空的词性个数，pi[t]表示第i个词性的对齐总数，pi[r]表示第i个词性的词性权重，pi[in]表示第i个词性的对齐程度。

4.根据权利要求3所述的基于词性对齐的文本相似度计算方法，其特征在于：所述S300中，仅对同词性的分词进行同义词的计算。

5.根据权利要求4所述...

【专利技术属性】
技术研发人员：覃勋辉，杜若，唐成友，
申请(专利权)人：重庆邂智科技有限公司，
类型：发明
国别省市：重庆;50

全部详细技术资料下载我是这个专利的主人