标签数据的语义识别方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:29675098 阅读:14 留言:0更新日期:2021-08-13 21:57
本申请涉及语义识别领域,揭示了一种标签数据的语义识别方法、装置、计算机设备及存储介质,其中方法包括:获取标签数据,所述标签数据为预设领域的语句;基于BERT模型对所述语句进行分词处理,获取所述语句包含的词语;将各个词语转化为词向量,并基于各所述词向量生成所述语句对应的句子向量;基于条件随机场函数对所述句子向量中的词向量所对应的词语进行词性标注,生成词性标注序列;计算各个所述词性标注序列的评分值,将所述评分值最高的词性标注序列确定为目标词性标注序列;根据所述目标词性标注序列生成所述标签数据的语义信息。本申请能够提高专属领域下的标签数据的语义识别准确率。

【技术实现步骤摘要】
标签数据的语义识别方法、装置、计算机设备及存储介质
本申请涉及到语义识别领域,特别是涉及到一种标签数据的语义识别方法、装置、计算机设备及存储介质。
技术介绍
目前对于不同专业领域的语句标签识别时,大多采用关键词提取后进行识别,关键词提取需要分词器对文本切词,而分词器对专业领域的切分粒度和准确度不高,容易产生关键词切分不正确的情况,无法适用具有专业领域的词语,即包含专业领域的词语的语义提取的准确度较低。
技术实现思路
本申请的主要目的为提供一种标签数据的语义识别方法、装置、计算机设备及存储介质,旨在解决目前采用分词器对包含专业领域的词语的语义识别准确度较低的问题。为了实现上述专利技术目的,本申请提出一种标签数据的语义识别方法,包括:获取标签数据,所述标签数据为预设领域的语句;基于BERT模型对所述语句进行分词处理,获取所述语句包含的词语;将各个词语转化为词向量,并基于各所述词向量生成所述语句对应的句子向量;基于条件随机场函数对所述句子向量中的词向量所对应的词语进行词性标注,生成词性标注序列;计算各个所述词性标注序列的评分值,将所述评分值最高的词性标注序列确定为目标词性标注序列;根据所述目标词性标注序列生成所述标签数据的语义信息。进一步地,所述基于BERT模型对所述语句进行分词处理,获取所述语句包含的词语,包括:基于BERT模型对所述语句进行分词预处理,得到第一分词;将所述第一分词输入至所述预设领域的词语库中进行匹配,基于所述预设领域的词语库提取所述第一分词中预设领域的词语;将所述第一分词中预设领域的词语进行组合,得到第二分词;将所述第二分词及未组合的第一分词作为所述语句包含的词语。进一步地,所述将各个词语转化为词向量,并基于所述词向量生成所述语句对应的句子向量,包括:获取各个词语中的通用词语,将所述通用词语转化为第一词向量;获取各个词语中预设领域的目标词语,将所述预设领域的目标词语添加领域标注后转化为第二词向量;基于所述第一词向量与第二词向量生成所述语句的句子向量。进一步地,所述基于条件随机场函数对所述句子向量中的词向量所对应的词语进行词性标注,生成词性标注序列之前,还包括:获取条件随机场函数的预设数据结构;根据所述预设数据结构对所述句子向量进行编码,将所述句子向量转化为符合所述条件随机场函数的预设数据结构的数据序列。进一步地,所述计算各个所述词性标注序列的评分值,包括:获取若干个特征函数;根据每个特征函数分别计算每一个所述词性标注序列在该特征函数下的评分值;根据每一个词性标注序列在多个特征函数下的评分值,计算得到每一个所述词性标注序列的评分值。进一步地,所述根据每一个词性标注序列在多个特征函数下的评分值,计算得到每一个所述词性标注序列的评分值,包括:获取各个特征函数的权重;将每一个词性标注序列在不同特征函数下的评分值与所述特征函数的权重进行加权累加,得到每一个所述词性标注序列的评分值。进一步地,所述根据所述目标词性标注序列生成所述标签数据的语义信息,包括:获取所述目标词性标注序列中各个词语的词性标注;获取所述各个词语的语义;当所述词语的语义与所述词语的词性标注相匹配时,根据所述词语的语义与所述词语的词性标注生成所述标签数据的语义信息。本申请还提供一种标签数据的语义识别装置,包括:数据获取模块,用于获取标签数据,所述标签数据为预设领域的语句;分词处理模块,用于基于BERT模型对所述语句进行分词处理,获取所述语句包含的词语;向量转换模块,用于将各个词语转化为词向量,并基于各所述词向量生成所述语句对应的句子向量;词性标注模块,用于基于条件随机场函数对所述句子向量中的词向量所对应的词语进行词性标注,生成词性标注序列;评分筛选模块,用于计算各个所述词性标注序列的评分值,将所述评分值最高的词性标注序列确定为目标词性标注序列;语义确定模块,用于根据所述目标词性标注序列生成所述标签数据的语义信息。本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述标签数据的语义识别方法的步骤。本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述标签数据的语义识别方法的步骤。本申请例提供了一种语义与词性标注相结合的标签数据的语义识别方法,在获取标签数据,所述标签数据为预设领域的语句,基于BERT模型对所述语句进行分词处理,获取所述语句包含的词语,能够识别各个词语的语义,再将各个词语转化为词向量,并基于所述词向量生成所述语句对应的句子向量,使得生成的句子向量即包含了整个语句的语义,也包含了各个词语的语义,然后基于条件随机场函数对所述句子向量包含的各个词语进行词性标注,生成若干个词性标注序列,再计算各个所述词性标注序列的评分值,再根据所述评分值进行筛选,将所述评分值最高的词性标注序列确定为目标词性标注序列,根据所述目标词性标注序列便可以确定所述句子中包含的各个词语的词性,由对语句进行分词处理能够得到各个词语的语义,然后根据各个词语的语义及对应的词性生成所述标签数据的语义信息,通过句子向量考虑整个句子的上下文信息,并且通过语义与词性标注的结合,避免词语语义识别发生歧义,从而提高标签数据中不同预设领域的语句的语义识别准确率。附图说明图1为本申请标签数据的语义识别方法的一实施例流程示意图;图2为本申请标签数据的语义识别方法的步骤S2的具体流程示意图;图3为本申请标签数据的语义识别装置的一实施例结构示意图;图4为本申请计算机设备的一实施例结构示意框图。本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。参照图1,本申请实施例提供一种标签数据的语义识别方法,包括步骤S10-S60,对于所述标签数据的语义识别方法的各个步骤的详细阐述如下,所述标签数据的语义识别方法可以由内置有相应功能的应用程序完成,例如内置于应用程序中的“标签数据识别”功能,通过该功能使得应用程序能够完成标签数据的语义识别,所述应用程序可以运行于终端设备上或运行于云端服务器中,因此,所述标签数据的语义识别方法也可以理解为由运行所述应用程序的终端设备或云端服务器完成。S10、获取标签数据,所述标签数据为预设领域的语句。本实施例应用于标签数据的识别场景,随着数字化的不断发展,各行各业都通过数字化进行信息的采集,并且,不同专属领域的信息填写均设定了模板,例如税收领域的发票模板,医疗领域的病例本文档来自技高网...

【技术保护点】
1.一种标签数据的语义识别方法,其特征在于,包括:/n获取标签数据,所述标签数据为预设领域的语句;/n基于BERT模型对所述语句进行分词处理,获取所述语句包含的词语;/n将各个词语转化为词向量,并基于各所述词向量生成所述语句对应的句子向量;/n基于条件随机场函数对所述句子向量中的词向量所对应的词语进行词性标注,生成词性标注序列;/n计算各个所述词性标注序列的评分值,将所述评分值最高的词性标注序列确定为目标词性标注序列;/n根据所述目标词性标注序列生成所述标签数据的语义信息。/n

【技术特征摘要】
1.一种标签数据的语义识别方法,其特征在于,包括:
获取标签数据,所述标签数据为预设领域的语句;
基于BERT模型对所述语句进行分词处理,获取所述语句包含的词语;
将各个词语转化为词向量,并基于各所述词向量生成所述语句对应的句子向量;
基于条件随机场函数对所述句子向量中的词向量所对应的词语进行词性标注,生成词性标注序列;
计算各个所述词性标注序列的评分值,将所述评分值最高的词性标注序列确定为目标词性标注序列;
根据所述目标词性标注序列生成所述标签数据的语义信息。


2.根据权利要求1所述的标签数据的语义识别方法,其特征在于,所述基于BERT模型对所述语句进行分词处理,获取所述语句包含的词语,包括:
基于BERT模型对所述语句进行分词预处理,得到第一分词;
将所述第一分词输入至所述预设领域的词语库中进行匹配,基于所述预设领域的词语库提取所述第一分词中预设领域的词语;
将所述第一分词中预设领域的词语进行组合,得到第二分词;
将所述第二分词及未组合的第一分词作为所述语句包含的词语。


3.根据权利要求1所述的标签数据的语义识别方法,其特征在于,所述将各个词语转化为词向量,并基于所述词向量生成所述语句对应的句子向量,包括:
获取各个词语中的通用词语,将所述通用词语转化为第一词向量;
获取各个词语中预设领域的目标词语,将所述预设领域的目标词语添加领域标注后转化为第二词向量;
基于所述第一词向量与第二词向量生成所述语句的句子向量。


4.根据权利要求1所述的标签数据的语义识别方法,其特征在于,所述基于条件随机场函数对所述句子向量中的词向量所对应的词语进行词性标注,生成词性标注序列之前,还包括:
获取条件随机场函数的预设数据结构;
根据所述预设数据结构对所述句子向量进行编码,将所述句子向量转化为符合所述条件随机场函数的预设数据结构的数据序列。


5.根据权利要求1所述的标签数据的语义识别方法,其特征在于,所述计算各个所述词性标注序列的评分值,包括:
获取若干个特征函数;<...

【专利技术属性】
技术研发人员:刘金克张炜
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1