基于机器学习的句子距离映射方法、装置和计算机设备制造方法及图纸

技术编号：21090096 阅读：24 留言：0更新日期：2019-05-11 10:09

本申请揭示了一种基于机器学习的句子距离映射方法、装置、计算机设备和存储介质，所述方法包括：获取输入的单句语音信息；将所述单句语音信息转换为单句文字信息；对所述单句文字信息进行预处理，并查询预设的词向量库以获取所述预处理后的单句文字信息中各个单词对应的词向量；根据所述单句文字信息中各个单词对应的词向量，使用预设算法计算出所述单句文字信息与预设的标准单句的距离；将所述距离输入预设函数，映射出评分，其中所述预设函数通过训练数据训练得出。从而精确计算出句子间的相似度，具有更准确、更直观的技术效果。

全部详细技术资料下载

【技术实现步骤摘要】
基于机器学习的句子距离映射方法、装置和计算机设备
本申请涉及到计算机领域，特别是涉及到一种基于机器学习的句子距离映射方法、装置、计算机设备和存储介质。
技术介绍
自然语言处理领域中，句子相似度计算是其中的一项重要内容(即计算出两个句子之间的相似程度)，具体地，在信息检索、问答系统、机器翻译等应用领域中被应用地越来越频繁。但是，现有技术多是余弦相似性，以计算两个句子的相似程度。这种方法一般是统计两个句子间相同的词的词频，以形成词频向量，再利用词频向量以计算两个句子的相似程度。由于现有技术的方法仅是利用两个句子的相同词的词频，因此计算出的相似度准确度不高。另外，现有技术计算出的相似程度一般不为人类习惯用的打分制度(例如百分制)，因此将计算出的相似度输出时，不能直观地反映两个句子间究竟有多高的相似程度。
技术实现思路
本申请的主要目的为提供一种基于机器学习的句子距离映射方法、装置、计算机设备和存储介质，旨在精确计算出句子间的相似度，直观准确地反映句子间的相似度。为了实现上述专利技术目的，本申请提出一种基于机器学习的句子距离映射方法，包括以下步骤：获取输入的单句语音信息；将所述单句语音信息转换为单句文字信息；对所述单句文字信息进行预处理，并查询预设的词向量库以获取所述预处理后的单句文字信息中各个单词对应的词向量，其中，所述预处理至少包括分词处理；根据所述单句文字信息中各个单词对应的词向量，使用预设算法计算出所述单句文字信息与预设的标准单句的距离，其中所述预设的标准单句至少经过了分词处理；将所述距离输入预设函数，映射出评分，其中所述预设函数通过训练数据训练得出，所述训练...

【技术保护点】
1.一种基于机器学习的句子距离映射方法，其特征在于，包括以下步骤：获取输入的单句语音信息；将所述单句语音信息转换为单句文字信息；对所述单句文字信息进行预处理，并查询预设的词向量库以获取所述预处理后的单句文字信息中各个单词对应的词向量，其中，所述预处理至少包括分词处理；根据所述单句文字信息中各个单词对应的词向量，利用预设算法计算出所述单句文字信息与预设的标准单句的距离，其中所述预设的标准单句至少经过了分词处理；将所述距离输入预设函数，映射出评分，其中所述预设函数通过训练数据训练得出，所述训练数据包括训练用单句、训练用标准单句、所述训练用单句与所述训练用标准单句的距离、和人为对所述训练用单句与所述训练用标准单句的相似程度的评分。

【技术特征摘要】
1.一种基于机器学习的句子距离映射方法，其特征在于，包括以下步骤：获取输入的单句语音信息；将所述单句语音信息转换为单句文字信息；对所述单句文字信息进行预处理，并查询预设的词向量库以获取所述预处理后的单句文字信息中各个单词对应的词向量，其中，所述预处理至少包括分词处理；根据所述单句文字信息中各个单词对应的词向量，利用预设算法计算出所述单句文字信息与预设的标准单句的距离，其中所述预设的标准单句至少经过了分词处理；将所述距离输入预设函数，映射出评分，其中所述预设函数通过训练数据训练得出，所述训练数据包括训练用单句、训练用标准单句、所述训练用单句与所述训练用标准单句的距离、和人为对所述训练用单句与所述训练用标准单句的相似程度的评分。2.根据权利要求1所述的基于机器学习的距离映射方法，其特征在于，所述对所述单句文字信息进行预处理，并查询预设的词向量库以获取所述预处理后的单句文字信息中各个单词对应的词向量，其中，所述预处理至少包括分词处理的步骤，包括；对所述单句文字信息进行分词处理，得到包含多个单词的单词序列；通过查询预设的同义词库，判断所述单词序列中是否存在同义词组；若存在同义词组，则将所述同义词组中所有单词替换为所述同义词组中的任意一个。3.根据权利要求1所述的基于机器学习的距离映射方法，其特征在于，所述根据所述单句文字信息中各个单词对应的词向量，使用预设算法计算出所述单句文字信息与预设的标准单句的距离的步骤，包括：采用公式：计算出所述单句文字信息与预设的标准单句的距离，其中,Distance(I,R)为单句I与单句R的距离；I为所述单句文字信息；R为所述预设的标准单句；|I|是所述单句文字信息所包含具有词向量的单词数；|R|是所述预设的标准单句所包含具有词向量的单词数；w是词向量；α为调整两个词向量间的余弦相似度的放大系数；max(α×CosDis(w，R))是计算单句R中所有词对应的词向量与单句I中的词向量w的余弦相似度中的最大值。4.根据权利要求1所述的基于机器学习的距离映射方法，其特征在于，所述根据所述单句文字信息中各个单词对应的词向量，使用预设算法计算出所述单句文字信息与预设的标准单句的距离的步骤，包括：采用公式:，满足计算出所述单句文字信息与预设的标准单句的距离；其中Distance(I,R)为单句I与单句R的距离；I为所述单句文字信息；R为所述预设的标准单句；Tij为单句I中第i个词至单句R中的第j个词的权重转移量；di为第i个词在单句I中的词频；d’j为第j个词在单句R中的词频；c(i,j)为单句I中的第i个词与单句R中第j个词的欧氏距离；m为单句I中具有词向量的单词数量；n为单句R中具有词向量的单词数量。5....

【专利技术属性】
技术研发人员：刘宇超，郭典，韩铃，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人