【技术实现步骤摘要】
同义词的生成方法、装置、设备和计算机可读存储介质
[0001]本公开涉及计算机
,特别涉及一种同义词的生成方法、装置、设备和计算机可读存储介质。
技术介绍
[0002]同义词挖掘是自然语言处理领域的一种常见方法,同义词在智能客服、搜索应用、机器人的对话生成、机器翻译、句子改写等多个领域中发挥着重要作用,高质量的同义词库可以为用户提供更好的服务。
[0003]现有同义词挖掘的方法主要基于词语的相似度计算来获取同义词,但是仅仅根据相似度的计算挖掘到的同义词存在较大的局限,影响同义词挖掘的准确性。
技术实现思路
[0004]本公开提供一种同义词的生成方法、装置、设备和计算机可读存储介质,根据该方法,可以提高同义词挖掘的准确性。
[0005]第一方面,本公开提供了一种同义词的生成方法,该同义词的生成方法包括:将历史文本按照多个主题进行分段,得到多个主题段落文本;其中,每个主题段落文本对应于一个主题;根据预设业务标签词中的词性组合,从所述多个主题段落文本中筛选与所述词性组合匹配的主题核心词,每个主 ...
【技术保护点】
【技术特征摘要】
1.一种同义词的生成方法,其特征在于,包括:将历史文本按照多个主题进行分段,得到多个主题段落文本;其中,每个主题段落文本对应于一个主题;根据预设业务标签词中的词性组合,从所述多个主题段落文本中筛选与所述词性组合匹配的主题核心词,每个主题核心词用于表征一个主题段落文本的文本特征;根据与每个主题段落文本相对应的主题核心词,生成与所述预设业务标签词相对应的同义词库。2.根据权利要求1所述的方法,其特征在于,所述根据预设业务标签词中的词性组合,从所述多个主题段落文本中筛选与所述词性组合匹配的主题核心词,包括:从每个主题段落文本中筛选出符合所述词性组合的至少一个候选词;针对所述每个主题,计算对应候选词的词向量和所述对应候选词的词向量平均值;根据所述对应候选词的词向量以及所述词向量平均值得到所述主题核心词,所述主题核心词为与所述词向量平均值相似度最高的词向量所对应的候选词。3.根据权利要求1所述的方法,其特征在于,所述根据与每个主题段落文本相对应的主题核心词,生成与所述预设业务标签词相对应的同义词库,包括:按照所述预设业务标签词对应的多个类别,对多个主题核心词进行聚类,得到多个类别的主题核心词,所述多个主题核心词包括与每个主题段落文本相对应的主题核心词;根据所述多个类别的主题核心词,生成与所述预设业务标签词相对应的多个类别的同义词库,所述同义词库中包括所述预设业务标签词的多个类别的同义词。4.根据权利要求3所述的方法,其特征在于,在所述得到聚类后的多个类别的主题核心词之后,所述方法还包括:对每个类别的主题核心词进行向量化处理,得到所述每个类别的核心词向量;将所述每个类别的核心词向量的平均值,作为所述每个类别的聚类中心,并将所述每个类别的聚类中心作为当前每个聚类中心;从新的文本中获取待分类词,计算所述待分类词与当前每个聚类中心的相似度值;在所述相似度值的最大值大于预定阈值的情况下,将所述待分类词归类到与所述相似度值的最大值对应的聚类中心所属类别的同义词库中。5.根据权利要求4所述的方法,在所述计算所述待分类词与每个聚类中心的相似度值之后,还包括:在所述相似度值的最大值小于或等于预定阈值的情况下,将所述待分类词作为噪声词;确定对所述噪声词不进行归类处理。6.根据权利要求4所述的方法,其特征在于,在所述将所述每个类别的聚类中心作为当前每个聚类中心之后,所述方法还包括:获取新的业务标签词,根据所述新的业务标签词对应的类别,对所述多个类别进行增量更新,得...
【专利技术属性】
技术研发人员:范智超,蒋宁,夏粉,吴海英,章乐,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。