【技术实现步骤摘要】
词语语义模型的构建方法、装置、计算机设备及存储介质
本申请涉及到语义识别领域,特别是涉及到一种词语语义模型的构建方法、装置、计算机设备及存储介质。
技术介绍
目前的词语语义模型无法解决一词多义的问题,尤其是中文词语语义,如不同语境下的苹果可分别代替水果或手机,目前的词语语义模型是以英文语言为出发点,其输入粒度为以空格为间隔的英文单词,而中文语言没有天然的空格作为分隔符,在目前的模型的输入中所有的中文词汇都会被拆成每个字符送入模型中,这代表在模型中无法利用中文词语这一先验知识,对一个词语进行组合后再整体识别,对于法律、金融、医疗等垂直领域,现有的词语语义模型就难以准确学习到专业词汇的信息、语义。
技术实现思路
本申请的主要目的为提供一种词语语义模型的构建方法、装置、计算机设备及存储介质,旨在解决目前的词语语义模型难以准确学习到专业词汇的信息、语义的问题。为了实现上述专利技术目的,本申请提出一种词语语义模型的构建方法,包括:获取包含若干词语信息的语句,根据先验数据识别所述语句,将所述语句进行分 ...
【技术保护点】
1.一种词语语义模型的构建方法,其特征在于,包括:/n获取包含若干词语信息的语句,根据先验数据识别所述语句,将所述语句进行分词处理;所述先验数据包含了不同领域下的专业词语;/n获取所述语句进行分词处理后的多字词与单字词,对所述多字词与单字词进行编码,得到编码后的多字词与单字词,根据编码后的多字词与单字词生成词信息提取矩阵;/n获取编码后的多字词,建立同一个多字词包含的不同字的关联关系,将同一个多字词以首个字作为代表对所述多字词进行提取;获取编码后的单字词,对所述单字词进行提取,根据提取后的多字词与单字词生成词信息代表矩阵;/n获取BERT模型的填充矩阵,将所述词信息提取矩阵 ...
【技术特征摘要】
1.一种词语语义模型的构建方法,其特征在于,包括:
获取包含若干词语信息的语句,根据先验数据识别所述语句,将所述语句进行分词处理;所述先验数据包含了不同领域下的专业词语;
获取所述语句进行分词处理后的多字词与单字词,对所述多字词与单字词进行编码,得到编码后的多字词与单字词,根据编码后的多字词与单字词生成词信息提取矩阵;
获取编码后的多字词,建立同一个多字词包含的不同字的关联关系,将同一个多字词以首个字作为代表对所述多字词进行提取;获取编码后的单字词,对所述单字词进行提取,根据提取后的多字词与单字词生成词信息代表矩阵;
获取BERT模型的填充矩阵,将所述词信息提取矩阵、词信息代表矩阵与所述填充矩阵进行与操作,生成词语语义识别模型。
2.根据权利要求1所述的词语语义模型的构建方法,其特征在于,所述获取若干词语信息的语句,根据先验数据识别所述语句,将所述语句进行分词处理,包括:
获取包含若干词语信息的语句;
确定所述语句的专属领域;
根据所述专属领域匹配先验数据;
根据匹配的先验数据识别所述语句,将所述语句进行分词处理。
3.根据权利要求2所述的词语语义模型的构建方法,其特征在于,所述生成词语语义识别模型,包括:
根据所述专属领域生成对应专属领域的词语语义识别模型;
所述根据所述专属领域生成对应专属领域的词语语义识别模型之后,还包括:
获取所述专属领域的原始模型,将所述原始模型替换为所述专属领域的词语语义识别模型。
4.根据权利要求3所述的词语语义模型的构建方法,其特征在于,所述将所述原始模型替换为所述专属领域的词语语义识别模型之后,还包括:
获取具有专属领域的若干词语信息的测试语句;
将所述测试语句输入至专属领域的词语语义识别模型,获取输出结果数据;
将所述输出结果数据与期望结果数据相比较,得到比较结果;
根据比较结果确定所述专属领域的词语语义识别模型的正确率。
5.根据权利要求1所述的词语语义模型的构建方法,其特征在于,所述获取分词后的语句包含的多字词与单字词,对所述多字词与单字词进行编码,包括:
获取分词后的待定多字词的字数,并匹配具有相同字数且相同类型的目标多字词;
将所述目标多字词替换所述待定多...
【专利技术属性】
技术研发人员:陈庆伟,
申请(专利权)人:平安国际智慧城市科技股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。