基于机器学习的句子距离映射方法、装置和计算机设备制造方法及图纸

技术编号:21090096 阅读:24 留言:0更新日期:2019-05-11 10:09
本申请揭示了一种基于机器学习的句子距离映射方法、装置、计算机设备和存储介质,所述方法包括:获取输入的单句语音信息;将所述单句语音信息转换为单句文字信息;对所述单句文字信息进行预处理,并查询预设的词向量库以获取所述预处理后的单句文字信息中各个单词对应的词向量;根据所述单句文字信息中各个单词对应的词向量,使用预设算法计算出所述单句文字信息与预设的标准单句的距离;将所述距离输入预设函数,映射出评分,其中所述预设函数通过训练数据训练得出。从而精确计算出句子间的相似度,具有更准确、更直观的技术效果。

【技术实现步骤摘要】
基于机器学习的句子距离映射方法、装置和计算机设备
本申请涉及到计算机领域,特别是涉及到一种基于机器学习的句子距离映射方法、装置、计算机设备和存储介质。
技术介绍
自然语言处理领域中,句子相似度计算是其中的一项重要内容(即计算出两个句子之间的相似程度),具体地,在信息检索、问答系统、机器翻译等应用领域中被应用地越来越频繁。但是,现有技术多是余弦相似性,以计算两个句子的相似程度。这种方法一般是统计两个句子间相同的词的词频,以形成词频向量,再利用词频向量以计算两个句子的相似程度。由于现有技术的方法仅是利用两个句子的相同词的词频,因此计算出的相似度准确度不高。另外,现有技术计算出的相似程度一般不为人类习惯用的打分制度(例如百分制),因此将计算出的相似度输出时,不能直观地反映两个句子间究竟有多高的相似程度。
技术实现思路
本申请的主要目的为提供一种基于机器学习的句子距离映射方法、装置、计算机设备和存储介质,旨在精确计算出句子间的相似度,直观准确地反映句子间的相似度。为了实现上述专利技术目的,本申请提出一种基于机器学习的句子距离映射方法,包括以下步骤:获取输入的单句语音信息;将所述单句语音信息转换为单句文字信息;对所述单句文字信息进行预处理,并查询预设的词向量库以获取所述预处理后的单句文字信息中各个单词对应的词向量,其中,所述预处理至少包括分词处理;根据所述单句文字信息中各个单词对应的词向量,使用预设算法计算出所述单句文字信息与预设的标准单句的距离,其中所述预设的标准单句至少经过了分词处理;将所述距离输入预设函数,映射出评分,其中所述预设函数通过训练数据训练得出,所述训练数据包括训练用单句、训练用标准单句、所述训练用单句与所述训练用标准单句的距离、和人为对所述训练用单句与所述训练用标准单句的相似程度的评分。进一步地,所述对所述单句文字信息进行预处理,并查询预设的词向量库以获取所述预处理后的单句文字信息中各个单词对应的词向量,其中,所述预处理至少包括分词处理的步骤,包括;对所述单句文字信息进行分词处理,得到包含多个单词的单词序列;通过查询预设的同义词库,判断所述单词序列中是否存在同义词组;若存在同义词组,则将所述同义词组中所有单词替换为所述同义词组中的任意一个。进一步地,所述根据所述单句文字信息中各个单词对应的词向量,使用预设算法计算出所述单句文字信息与预设的标准单句的距离的步骤,包括:采用公式:计算出所述单句文字信息与预设的标准单句的距离,其中,Distance(I,R)为单句I与单句R的距离;I为所述单句文字信息;R为所述预设的标准单句;|I|是所述单句文字信息所包含具有词向量的单词数;|R|是所述预设的标准单句所包含具有词向量的单词数;w是词向量;α为调整两个词向量间的余弦相似度的放大系数;max(α×CosDis(w,R))是计算单句R中所有词对应的词向量与单句I中的词向量w的余弦相似度中的最大值。进一步地,所述根据所述单句文字信息中各个单词对应的词向量,使用预设算法计算出所述单句文字信息与预设的标准单句的距离的步骤,包括:采用公式:,满足计算出所述单句文字信息与预设的标准单句的距离;其中Distance(I,R)为单句I与单句R的距离;I为所述单句文字信息;R为所述预设的标准单句;Tij为单句I中第i个词至单句R中的第j个词的权重转移量;di为第i个词在单句I中的词频;d’j为第j个词在单句R中的词频;c(i,j)为单句I中的第i个词与单句R中第j个词的欧氏距离;m为单句I中具有词向量的单词数量;n为单句R中具有词向量的单词数量。进一步地,所述预设函数为一元二次方程,所述预设函数通过训练数据训练得出的步骤,包括:建立一元二次方程f(x)=ax2+bx+c,其中x为代表句子距离的自变量,f(x)为代表映射评分的因变量;获取数量为n的样本数据,将所述样本数据随机分为n/3组,其中每组具有3个样本数据,所述样本数据包括训练单句与标准单句的训练距离,以及与所述训练距离对应的人工评分结果,n为3的倍数;将所述n/3组数据代入所述一元二次方程,得到n/3组参数a、b、c的值;对所述n/3组参数a、b、c的值作均值处理,得到参数a、b、c的最终值。进一步地,所述预设的词向量库通过产生词向量工具word2vec训练得到,所述词向量库的获得方法包括:使用word2vec工具的CBOW模型(连续词袋模型),对预设的语料库中的单词进行词向量训练,以得到所述预设的词向量库,其中所述语料库是用于训练词向量的单词库。进一步地,所述根据所述单句文字信息中各个单词对应的词向量,使用预设算法计算出所述单句文字信息与预设的标准单句的距离的步骤之前,包括:采用重叠词相似度算法计算所述单句文字信息与标准单句库中所有标准单句的相似度;判断是否存在所述相似度大于第一阈值的标准单句;若存在,则将所述相似度大于第一阈值的标准单句设置为所述预设的标准单句。本申请提供一种基于机器学习的句子距离映射装置,包括:单句语音信息获取单元,用于获取输入的单句语音信息;单句文字信息转换单元,用于将所述单句语音信息转换为单句文字信息;预处理单元,用于对所述单句文字信息进行预处理,并查询预设的词向量库以获取所述预处理后的单句文字信息中各个单词对应的词向量,其中,所述预处理至少包括分词处理;句子距离计算单元,用于根据所述单句文字信息中各个单词对应的词向量,使用预设算法计算出所述单句文字信息与预设的标准单句的距离,其中所述预设的标准单句至少经过了分词处理;评分映射单元,用于将所述距离输入预设函数,映射出评分,其中所述预设函数通过训练数据训练得出,所述训练数据包括训练用单句、训练用标准单句、所述训练用单句与所述训练用标准单句的距离、和人为对所述训练用单句与所述训练用标准单句的相似程度的评分。本申请提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。本申请提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。本申请的基于机器学习的句子距离映射方法、装置、计算机设备和存储介质,通过将获取的单句语音信息转换为单句文字信息,再经由预处理获得所述预处理后的单句文字信息中各个单词对应的词向量,利用所述词向量使用预设算法计算出所述单句文字信息与预设的标准单句的距离,更将所述距离输入预设函数以映射出评分,具有更准确、更直观的技术效果。附图说明图1为本申请一实施例的基于机器学习的句子距离映射方法的流程示意图;图2为本申请一实施例的基于机器学习的句子距离映射装置的结构示意框图;图3为本申请一实施例的计算机设备的结构示意框图。本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。参照图1,本申请实施例提供一种基于机器学习的句子距离映射方法,包括以下步骤:S1、获取输入的单句语音信息;S2、将所述单句语音信息转换为单句文字信息;S3、对所述单句文字信息进行预处理,并查询预设的本文档来自技高网...

【技术保护点】
1.一种基于机器学习的句子距离映射方法,其特征在于,包括以下步骤:获取输入的单句语音信息;将所述单句语音信息转换为单句文字信息;对所述单句文字信息进行预处理,并查询预设的词向量库以获取所述预处理后的单句文字信息中各个单词对应的词向量,其中,所述预处理至少包括分词处理;根据所述单句文字信息中各个单词对应的词向量,利用预设算法计算出所述单句文字信息与预设的标准单句的距离,其中所述预设的标准单句至少经过了分词处理;将所述距离输入预设函数,映射出评分,其中所述预设函数通过训练数据训练得出,所述训练数据包括训练用单句、训练用标准单句、所述训练用单句与所述训练用标准单句的距离、和人为对所述训练用单句与所述训练用标准单句的相似程度的评分。

【技术特征摘要】
1.一种基于机器学习的句子距离映射方法,其特征在于,包括以下步骤:获取输入的单句语音信息;将所述单句语音信息转换为单句文字信息;对所述单句文字信息进行预处理,并查询预设的词向量库以获取所述预处理后的单句文字信息中各个单词对应的词向量,其中,所述预处理至少包括分词处理;根据所述单句文字信息中各个单词对应的词向量,利用预设算法计算出所述单句文字信息与预设的标准单句的距离,其中所述预设的标准单句至少经过了分词处理;将所述距离输入预设函数,映射出评分,其中所述预设函数通过训练数据训练得出,所述训练数据包括训练用单句、训练用标准单句、所述训练用单句与所述训练用标准单句的距离、和人为对所述训练用单句与所述训练用标准单句的相似程度的评分。2.根据权利要求1所述的基于机器学习的距离映射方法,其特征在于,所述对所述单句文字信息进行预处理,并查询预设的词向量库以获取所述预处理后的单句文字信息中各个单词对应的词向量,其中,所述预处理至少包括分词处理的步骤,包括;对所述单句文字信息进行分词处理,得到包含多个单词的单词序列;通过查询预设的同义词库,判断所述单词序列中是否存在同义词组;若存在同义词组,则将所述同义词组中所有单词替换为所述同义词组中的任意一个。3.根据权利要求1所述的基于机器学习的距离映射方法,其特征在于,所述根据所述单句文字信息中各个单词对应的词向量,使用预设算法计算出所述单句文字信息与预设的标准单句的距离的步骤,包括:采用公式:计算出所述单句文字信息与预设的标准单句的距离,其中,Distance(I,R)为单句I与单句R的距离;I为所述单句文字信息;R为所述预设的标准单句;|I|是所述单句文字信息所包含具有词向量的单词数;|R|是所述预设的标准单句所包含具有词向量的单词数;w是词向量;α为调整两个词向量间的余弦相似度的放大系数;max(α×CosDis(w,R))是计算单句R中所有词对应的词向量与单句I中的词向量w的余弦相似度中的最大值。4.根据权利要求1所述的基于机器学习的距离映射方法,其特征在于,所述根据所述单句文字信息中各个单词对应的词向量,使用预设算法计算出所述单句文字信息与预设的标准单句的距离的步骤,包括:采用公式:,满足计算出所述单句文字信息与预设的标准单句的距离;其中Distance(I,R)为单句I与单句R的距离;I为所述单句文字信息;R为所述预设的标准单句;Tij为单句I中第i个词至单句R中的第j个词的权重转移量;di为第i个词在单句I中的词频;d’j为第j个词在单句R中的词频;c(i,j)为单句I中的第i个词与单句R中第j个词的欧氏距离;m为单句I中具有词向量的单词数量;n为单句R中具有词向量的单词数量。5....

【专利技术属性】
技术研发人员:刘宇超郭典韩铃
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1