【技术实现步骤摘要】
基于分词的单词序列获取方法、装置和计算机设备
本申请涉及到计算机领域,特别是涉及到一种基于分词的单词序列获取方法、装置、计算机设备和存储介质。
技术介绍
自然语言处理是计算机领域中的重要组成部分。进行自然语言处理时,需要先对输入的文本进行分词处理,因此分词处理的准确性对自然语言处理具有不可忽视的影响。传统的分词工具(例如腾讯文智、阿里云NLP等),仅能适合于有限场景下的分词任务,例如腾讯文智更适于与处理社交环境的文本,而阿里云NLP更适于处理网购环境的文本。因此,在对于不同场景中的文本,传统方法采用单一的文本分词工具进行分词的方式的分词准确性有待提高。
技术实现思路
本申请的主要目的为提供一种基于分词的单词序列获取方法、装置、计算机设备和存储介质,旨在提高分词的准确性。为了实现上述专利技术目的,本申请提出一种基于分词的单词序列获取方法,包括以下步骤:获取待分词的指定文本;执行第一次分词指令,所述第一次分词指令用于指示将所述指定文本分别输入至预设的n个分词工具,以得到所述n个分词工具 ...
【技术保护点】
1.一种基于分词的单词序列获取方法,其特征在于,包括:/n获取待分词的指定文本;/n执行第一次分词指令,所述第一次分词指令用于指示将所述指定文本分别输入至预设的n个分词工具,以得到所述n个分词工具对应输出的n个第一分词结果,其中所述第一分词结果由第一分词和除所述第一分词之外的第一剩余文本构成;/n执行第一次筛选指令,所述第一次筛选指令用于指示根据预设的分词结果筛选方法,从所述n个第一分词结果中筛选出指定第一分词结果,其中所述指定第一分词结果由指定第一分词和指定第一剩余文本构成;/n依次执行第二次分词指令和第二次筛选指令、第三次分词指令和第三次筛选指令、...、第m次分词指令 ...
【技术特征摘要】 【专利技术属性】
1.一种基于分词的单词序列获取方法,其特征在于,包括:
获取待分词的指定文本;
执行第一次分词指令,所述第一次分词指令用于指示将所述指定文本分别输入至预设的n个分词工具,以得到所述n个分词工具对应输出的n个第一分词结果,其中所述第一分词结果由第一分词和除所述第一分词之外的第一剩余文本构成;
执行第一次筛选指令,所述第一次筛选指令用于指示根据预设的分词结果筛选方法,从所述n个第一分词结果中筛选出指定第一分词结果,其中所述指定第一分词结果由指定第一分词和指定第一剩余文本构成;
依次执行第二次分词指令和第二次筛选指令、第三次分词指令和第三次筛选指令、...、第m次分词指令和第m次筛选指令,其中所述第m次分词指令用于指示将指定第m-1剩余文本分别输入至所述n个分词工具,以得到所述n个分词工具对应输出的n个第m分词结果,所述第m分词结果由第m分词和除所述第m分词之外的第m剩余文本构成,m为大于1的整数;所述第m次筛选指令用于指示根据预设的分词结果筛选方法,从所述n个第m分词结果中筛选出指定第m分词结果,其中所述指定第m分词结果由指定第m分词和指定第m剩余文本构成;
根据预设的分词判断方法,判断所述指定第m剩余文本是否能够再次分词;
若所述指定第m剩余文本不能再次分词,则将指定第一分词、...、指定第m分词和所述指定第m剩余文本顺序连接,从而得到指定单词序列。
2.根据权利要求1所述的基于分词的单词序列获取方法,其特征在于,所述根据预设的分词结果筛选方法,从所述n个第一分词结果中筛选出指定第一分词结果的步骤,包括:
对所述n个第一分词结果进行聚类处理,从而得到多个类别,其中同一个类别中的第一分词结果相同;
从所述多个类别中选出指定类别,其中所述指定类别中的第一分词结果的数量多于其他类别中的第一分词结果的数量;
将所述指定类别中的第一分词结果记为指定第一分词结果。
3.根据权利要求1所述的基于分词的单词序列获取方法,其特征在于,所述根据预设的分词结果筛选方法,从所述n个第一分词结果中筛选出指定第一分词结果的步骤,包括:
调取预设的权重参数序列W1、W2、...、Wn,所述权重参数序列W1、W2、...、Wn与所述n个分词工具一一对应;
根据预设的向量映射方法,将所述n个第一分词结果分别映射为n个具有相同维度的初始向量A1、A2、...、An,其中,所述初始向量由一个取值为1的分向量和取值为0的其余分向量构成;
根据公式:M=W1A1+W2A2+...+WnAn,计算得到综合向量M;
从所述综合向量M中的所有分向量中选出指定分向量,并获取所述指定分向量在所述综合向量M中的指定位置,其中所述指定分向量的数值大于其他分向量的数值;
根据预设的分向量位置与第一分词结果的对应关系,获取与所述指定位置对应的第一分词结果,并记为指定第一分词结果。
4.根据权利要求3所述的基于分词的单词序列获取方法,其特征在于,所述权重参数序列W1、W2、...、Wn通过预设的权重参数预测模型预测得到,所述权重参数预测模型基于神经网络模型训练而成,所述调取预设的权重参数序列W1、W2、...、Wn,所述权重参数序列W1、W2、...、Wn与所述n个分词工具一一对应的步骤之前,包括:
从预设的数据库中调取指定数据,并将所述指定数据划分为训练数据和验证数据,其中所述指定数据由训练文本和与所述训练文本关联的训练单词序列构成;
构建预设的神经网络模型与所述n个分词工具的连接通道,以使所述神经网络模型在训练时能够获取所述n个分词工具的使用权限;
利用所述训练数据训练所述神经网络模型,从而得到中间模型,利用所述验证数据验证所述中间模型,并判断所述中间模型是否验证通过;
若所述中间模型验证通过,则将所述中间模型记为所述权重参数预测模型。
5.根据权利要求3所述的基于分词的单词序列获取方法,其特征在于,所述根据预设的向量映射方法,将所述n个第一分词结果分别映射为n个具有相同维度的初始向量A1、A2、...、An,其中,所述初始向量由一个取值为1的分向量和取值为0的其余分向量构成的步骤,包括:
技术研发人员:王伟印,
申请(专利权)人:平安医疗健康管理股份有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。