一种同义文本提示方法、装置及电子设备制造方法及图纸

技术编号:27810687 阅读:16 留言:0更新日期:2021-03-30 09:43
本发明专利技术属于计算机技术领域,提供一种同义文本提示方法、装置及电子设备,所述方法包括:将输入文本切分为词单元;根据所述输入文本的切分情况从所述词单元中确定目标词单元,通过预设模型获取所述目标词单元对应的候选词组成候选集合,对所述候选集合中的候选词进行排序,得到所述目标词单元对应的综合排序候选集;根据所述输入文本的切分情况及所述综合排序候选集提示所述输入文本的同义文本。本发明专利技术在提高同义文本识别率的同时也提高了用户体验,用户通常只需根据提示的前一两个同义文本就可以选出目标同义文本。就可以选出目标同义文本。就可以选出目标同义文本。

【技术实现步骤摘要】
一种同义文本提示方法、装置及电子设备


[0001]本专利技术计算机
,特别适用于计算机同义文本识别技术,更具体的是涉及一种同义文本提示方法、装置、电子设备及计算机可读介质。

技术介绍

[0002]随着计算机技术与互联网技术的发展,在质检系统、Web搜索、问答系统、知识图谱构建等应用领域中,同义信息都发挥着不可或缺的作用。例如,质检平台寻找与用户输入关键词、短语等同义的文本,搜索引擎寻找与用户输入文本在语义上相同或者相似的文本,或者问答平台寻找与用户所提出的新问题同义的问题的集合等。
[0003]现有技术在进行同义文本识别时,需要依赖例如切词工具、词性分析、句子模板提取等辅助工具对文本进行辅助处理,得到核心词,再通过两个核心词之间的编辑距离,确定该两个核心词之间是否为同义词。其中,编辑距离是指一个字符串变成另一个字符串所需经过的处理次数,编辑距离可以表示两个字符串的差异程度。当两个词之间的编辑距离小于或等于预设值时,确定这两个词为同义词;当两个词之间的编辑距离大于预设值时,确定这两个词为非同义词。而实际中存在编辑距离较小的非同义词对,导致同义文本的识别准确性较低。

技术实现思路

[0004](一)要解决的技术问题
[0005]本专利技术旨在解决现有技术中对同义文本识别准确率低的技术问题。
[0006](二)技术方案
[0007]为解决上述技术问题,本专利技术的一方面提出一种同义文本提示方法,所述同义文本指与输入文本意思相同或相近的文本,同义文本包括与输入文本意思相同的文本、和/或与输入文本意思相近的文本,所述文本可以是单个词语,也可以是由至少两个词语组成的文本。所述方法包括如下步骤:
[0008]将输入文本切分为词单元;
[0009]根据所述输入文本的切分情况从所述词单元中确定目标词单元,所述输入文本的切分情况包括:输入文本被切分为唯一一个词单元,输入文本被切分为至少两个词单元;
[0010]通过预设模型获取所述目标词单元对应的候选词组成候选集合,所述候选词是所述目标词单元的同义词或近义词;
[0011]对所述候选集合中的候选词进行排序,得到所述目标词单元对应的综合排序候选集;
[0012]根据所述输入文本的切分情况及所述综合排序候选集提示所述输入文本的同义文本。
[0013]根据本专利技术一种优选实施方式,所述通过预设模型获取所述目标词单元对应的候选词组成候选集合包括:
[0014]获取不同语料作为训练集训练多个word2vec模型;
[0015]通过训练好的每个word2vec模型获取所述目标词单元对应的候选词组成一个候选集合。
[0016]根据本专利技术一种优选实施方式,所述通过训练好的每个word2vec模型获取所述目标词单元对应的候选词组成一个候选集合包括:
[0017]将所述目标词单元输入训练好的一个word2vec模型中,得到该word2vec模型输出的所述目标词单元的词向量;
[0018]获取与所述目标词单元的词向量之间的相似度小于阈值的候选词向量;
[0019]将所述候选词向量转换为对应的候选词组成一个候选集合。
[0020]根据本专利技术一种优选实施方式,所述对所述候选集合中的候选词进行排序包括:
[0021]获取各个word2vec模型输出的候选集合;
[0022]根据候选词的预设权重及候选词在各个候选集合中的排列位置确定该候选词的总权重;
[0023]根据候选词的总权重对所述候选集合中的候选词进行排序。
[0024]根据本专利技术一种优选实施方式,所述输入文本被切分为唯一一个词单元,将所述唯一一个词单元作为目标词单元。
[0025]根据本专利技术一种优选实施方式,所述根据所述输入文本的切分情况及所述综合排序候选集提示所述输入文本的同义文本包括:
[0026]根据预设词长度、预设词性及预设词频从所述综合排序候选集中过滤出符合条件的目标词语;
[0027]按照目标词语在所述综合排序候选集中的顺序提示所述目标词语。
[0028]根据本专利技术一种优选实施方式,所述输入文本被切分为至少两个词单元,根据词性和/或词频选取所述至少两个词单元中的一个词单元作为目标词单元。
[0029]根据本专利技术一种优选实施方式,所述根据所述输入文本的切分情况及所述综合排序候选集提示所述输入文本的同义文本包括:
[0030]获取所述综合排序候选集中总权重前N的候选词;
[0031]将从输入文本中切分的其他词单元与所述总权重前N的候选词合并,得到N个候选文本;
[0032]根据所述候选文本的历史出现频率对所述候选文本进行排序;
[0033]按照候选文本的排序提示候选文本。
[0034]根据本专利技术一种优选实施方式,若多个所述候选文本的历史出现频率为零,根据所述多个候选文本中候选词对应的词向量与所述目标词单元对应的词向量的相似度大小对所述多个候选文本进行排序。
[0035]本专利技术第二方面提供一种同义文本提示装置,所述同义文本指与输入文本意思相同或相近的文本,其特征在于,所述装置包括:
[0036]切分单元,用于将输入文本切分为词单元;
[0037]确定模块,用于根据所述输入文本的切分情况从所述词单元中确定目标词单元,所述输入文本的切分情况包括:输入文本被切分为唯一一个词单元,输入文本被切分为至少两个词单元;
[0038]获取模块,用于通过预设模型获取所述目标词单元对应的候选词组成候选集合,所述候选词是所述目标词单元的同义词或近义词;
[0039]排序模块,用于对所述候选集合中的候选词进行排序,得到所述目标词单元对应的综合排序候选集;
[0040]提示模块,用于根据所述输入文本的切分情况及所述综合排序候选集提示所述输入文本的同义文本。
[0041]本专利技术第三方面提出一种电子设备,包括处理器和存储器,所述存储器用于存储计算机可执行程序,当所述计算机程序被所述处理器执行时,所述处理器执行所述的方法。
[0042]本专利技术第四方面还提出一种计算机可读介质,存储有计算机可执行程序,所述计算机可执行程序被执行时,实现所述的方法。
[0043](三)有益效果
[0044]本专利技术通过预设模型获取目标词单元的候选集合,再对候选集合中的候选词进行排序,从而使得候选词在候选集合中根据其与目标词单元之间同义识别的准确率来排序,提高了对目标词单元同义识别的准确率。最后根据输入文本的切分情况和目标词单元对应候选词的排序确定并提示输入文本的同义文本,从而保证根据同义识别的准确率来提示同义文本。本专利技术在提高同义文本识别率的同时也提高了用户体验,用户通常只需根据提示的前一两个同义文本就可以选出目标同义文本。
[0045]本专利技术通过获取不同语料作为训练集训练多个word2vec模型;通过训练好的每个word2vec模型获取所述目标词单元对应的候选词组成一个候选集合。这样,一个目标词单元本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种同义文本提示方法,其特征在于,所述方法包括如下步骤:将输入文本切分为词单元;根据所述输入文本的切分情况从所述词单元中确定目标词单元,所述输入文本的切分情况包括:输入文本被切分为唯一一个词单元,输入文本被切分为至少两个词单元;通过预设模型获取所述目标词单元对应的候选词组成候选集合,所述候选词是所述目标词单元的同义词或近义词;对所述候选集合中的候选词进行排序,得到所述目标词单元对应的综合排序候选集;根据所述输入文本的切分情况及所述综合排序候选集提示所述输入文本的同义文本。2.根据权利要求1所述的同义文本提示方法,其特征在于,所述通过预设模型获取所述目标词单元对应的候选词组成候选集合包括:获取不同语料作为训练集训练多个word2vec模型;通过训练好的每个word2vec模型获取所述目标词单元对应的候选词组成一个候选集合。3.根据权利要求1或2所述的同义文本提示方法,其特征在于,所述通过训练好的每个word2vec模型获取所述目标词单元对应的候选词组成一个候选集合包括:将所述目标词单元输入训练好的一个word2vec模型中,得到该word2vec模型输出的所述目标词单元的词向量;获取与所述目标词单元的词向量之间的相似度小于阈值的候选词向量;将所述候选词向量转换为对应的候选词组成一个候选集合。4.根据权利要求1

3任一所述的同义文本提示方法,其特征在于,所述对所述候选集合中的候选词进行排序包括:获取各个word2vec模型输出的候选集合;根据候选词的预设权重及候选词在各个候选集合中的排列位置确定该候选词的总权重;根据候选词的总权重对所述候选集合中的候选词进行排序;可选地,所述输入文本被切分为唯一一个词单元,将所述唯一一个词单元作为目标词单元。5.根据权利要求1

4任一所述的同义文本提示方法,其特征在于,所述根据所述输入文本的切分情况及所述综合排序候选集提示所述输入文本的同义文本包括:根据预设词长度、预设词性及预设词频从所述综合排序候选集中过...

【专利技术属性】
技术研发人员:任帅王博弘张振蒋宏飞宋旸王瑞阳王阳赵慧娟
申请(专利权)人:作业帮教育科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1