一种确定中文语义的方法、装置、计算机存储介质及终端制造方法及图纸

技术编号:35854822 阅读:21 留言:0更新日期:2022-12-07 10:41
本申请公开一种确定中文语义的方法、装置、计算机存储介质及终端,本发明专利技术实施例由第一模型、第二模型和第三模型,构建了用于语义识别的语义识别模型,基于构建的语义识别模型实现了对待分析中文语句中的英文缩略词的中文语义分析,避免了解读待分析中文语句中的英文缩略词时,因为包含多种中文语义而发生解读混淆的情况。混淆的情况。混淆的情况。

【技术实现步骤摘要】
一种确定中文语义的方法、装置、计算机存储介质及终端


[0001]本文涉及但不限于文本信息处理技术,尤指一种确定中文语义的方法、装置、计算机存储介质及终端。

技术介绍

[0002]缩略词识别是中文信息处理领域研究中的非常重要的一个方面。随着科技的快速发展,各领域的术语层出不穷,由于领域专业术语全称通常较长,专业人员在科技文献、技术报告、普及演讲中更倾向于使用缩略词对专业术语进行表示;然而对于不了解该领域的用户,要读懂含有专业术语缩略词的文本语句是十分不易的;另外,不同领域的缩略词有时会采用相通的表达形式,即一个缩略语对应不同的专业术语全称,这又增加了非专业技术人员在互联网对该缩略词进行检索以理解其含义的难度。如何设计术语缩略词识别方法对相同表示的缩略词在不同的行业领域进行准确地识别,对于非专科人员阅读与理解该领域的文本报告十分有意义。
[0003]目前,对于缩略词识别技术的研究往往集中在相同的语言领域,即中文缩略语识别中文全称,英文缩略语识别英文全称。然而,随着信息的发展与科技的交流,在中文语句中往往开始采用英文缩略词对专业术语进行表示,如何对中文语句中的英文缩略词进行中文语义的识别,以避免在不同领域采用相同的英文缩略词时造成的中文语义混淆的问题,是中文信息处理领域研究中的一个空白。

技术实现思路

[0004]以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
[0005]本专利技术实施例提供一种确定中文语义的方法、装置、计算机存储介质及终端,能够对中文语句中的英文缩略词进行中文语义识别。
[0006]本专利技术实施例提供了一种确定中文语义的方法,包括:
[0007]通过预设的第一模型对包含英文缩略词的第一中文语句进行处理,获得第一中文语句的第一词向量表示和其中英文缩略词的第一位置,以及,确定所述英文缩略词的第二词向量表示;
[0008]根据所述第一位置对第一中文语句进行掩码,并根据所述第一词向量表示确定第一位置被掩码后的第一中文语句的第一位置掩码嵌入表示;
[0009]通过预设的第二模型对所述第一位置掩码嵌入表示与所述第二词向量表示进行处理,获得第一位置的英文对应的中文语义的第一中文语义嵌入表示;
[0010]通过预设的第三模型对预先获得的中文语义被掩码的第一中文语句进行处理,获得中文语义位置对应的第二中文语义嵌入表示;
[0011]根据所述第一中文语义嵌入表示与第二中文语义嵌入表示的相似度,对第二模型和第三模型进行优化;
[0012]根据第一模型、优化后的第二模型和第三模型,构建语义识别模型;
[0013]根据构建的语义识别模型对待分析中文语句进行处理,以确定待分析中文语句中英文缩略词的中文语义;
[0014]其中,所述第一位置掩码嵌入表示为:所述第一词向量表示中所述第一位置被掩码后的嵌入表示。
[0015]另一方面,本专利技术实施例还提供一种计算机存储介质,所述计算机存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现上述确定中文语义的方法。
[0016]再一方面,本专利技术实施例还提供一种终端,包括:存储器和处理器,所述存储器中保存有计算机程序;其中,
[0017]处理器被配置为执行存储器中的计算机程序;
[0018]所述计算机程序被所述处理器执行时实现如上述确定中文语义的方法。
[0019]还一方面,本专利技术实施例还提供一种确定中文语义的装置,包括:第一模型单元、掩码处理单元、第二模型单元、第三模型单元、协同训练单元、构建单元和确定单元;其中,
[0020]第一模型单元设置为:通过预设的第一模型对包含英文缩略词的第一中文语句进行处理,获得第一中文语句的第一词向量表示和其中英文缩略词的第一位置,以及,确定所述英文缩略词的第二词向量表示;
[0021]掩码处理单元设置为:根据所述第一位置对第一中文语句进行掩码,并根据所述第一词向量表示确定第一位置被掩码后的第一中文语句的第一位置掩码嵌入表示;
[0022]第二模型单元设置为:通过预设的第二模型对所述第一位置掩码嵌入表示与所述第二词向量表示进行处理,获得第一位置的英文对应的中文语义的第一中文语义嵌入表示;
[0023]第三模型单元设置为:通过预设的第三模型对预先获得的中文语义被掩码的第一中文语句进行处理,获得中文语义位置对应的第二中文语义嵌入表示;
[0024]协同训练单元设置为:根据所述第一中文语义嵌入表示与第二中文语义嵌入表示的相似度,对第二模型和第三模型进行优化;
[0025]构建单元设置为:根据第一模型、优化后的第二模型和第三模型,构建语义识别模型;
[0026]确定单元设置为:根据构建的语义识别模型对待分析中文语句进行处理,以确定待分析中文语句中英文缩略词的中文语义;
[0027]其中,所述第一位置掩码嵌入表示为:所述第一词向量表示中所述第一位置被掩码后的嵌入表示。
[0028]本申请技术方案包括:通过预设的第一模型对包含英文缩略词的第一中文语句进行处理,获得第一中文语句的第一词向量表示和其中英文缩略词的第一位置,以及,确定所述英文缩略词的第二词向量表示;根据所述第一位置对第一中文语句进行掩码,并根据所述第一词向量表示确定第一位置被掩码后的第一中文语句的第一位置掩码嵌入表示;通过预设的第二模型对所述第一位置掩码嵌入表示与所述第二词向量表示进行处理,获得第一位置的英文对应的中文语义的第一中文语义嵌入表示;通过预设的第三模型对预先获得的中文语义被掩码的第一中文语句进行处理,获得中文语义位置对应的第二中文语义嵌入表示;根据所述第一中文语义嵌入表示与第二中文语义嵌入表示的相似度,对第二模型和第
三模型进行优化;根据第一模型、优化后的第二模型和第三模型,构建语义识别模型;根据构建的语义识别模型对待分析中文语句进行处理,以确定待分析中文语句中英文缩略词的中文语义;其中,所述第一位置掩码嵌入表示为:所述第一词向量表示中所述第一位置被掩码后的嵌入表示。本专利技术实施例由第一模型、第二模型和第三模型,构建了用于语义识别的语义识别模型,基于构建的语义识别模型实现了对待分析的待分析中文语句中的英文缩略词的中文语义分析,避免了解读待分析中文语句中的英文缩略词时,因为包含多种中文语义而发生解读混淆的情况。
[0029]本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
[0030]附图用来提供对本专利技术技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本专利技术的技术方案,并不构成对本专利技术技术方案的限制。
[0031]图1为本专利技术实施例确定中文语义的方法的流程图;
[0032]图2为本专利技术实施例确定中文语义的装置的结构框图;
[0033]图3为本专利技术应用示例中文语义本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种确定中文语义的方法,包括:通过预设的第一模型对包含英文缩略词的第一中文语句进行处理,获得第一中文语句的第一词向量表示和其中英文缩略词的第一位置,以及,确定所述英文缩略词的第二词向量表示;根据所述第一位置对第一中文语句进行掩码,并根据所述第一词向量表示确定第一位置被掩码后的第一中文语句的第一位置掩码嵌入表示;通过预设的第二模型对所述第一位置掩码嵌入表示与所述第二词向量表示进行处理,获得第一位置的英文对应的中文语义的第一中文语义嵌入表示;通过预设的第三模型对预先获得的中文语义被掩码的第一中文语句进行处理,获得中文语义位置对应的第二中文语义嵌入表示;根据所述第一中文语义嵌入表示与第二中文语义嵌入表示的相似度,对第二模型和第三模型进行优化;根据第一模型、优化后的第二模型和第三模型,构建语义识别模型;根据构建的语义识别模型对待分析中文语句进行处理,以确定待分析中文语句中英文缩略词的中文语义;其中,所述第一位置掩码嵌入表示为:所述第一词向量表示中所述第一位置被掩码后的嵌入表示。2.根据权利要求1所述的方法,其特征在于,所述第一模型包括由第一知识增强语义表示模型ERNIE组成的第一ERNIE层;所述第二模型包括由第二ERNIE组成的第二ERNIE层;所述第三模型包括由第三ERNIE组成的第三ERNIE层。3.根据权利要求2所述的方法,其特征在于,所述第一模型包括:所述第一ERNIE层、双向长短时记忆Bi

LSTM层、全连接层以及归一化层;其中,所述第一ERNIE层用于:对所述第一中文语句进行分词与嵌入编码,获得所述第一词向量表示;所述Bi

LSTM层用于:对由所述第一ERNIE层获得的所述第一词向量表示组成的序列进行特征映射,获得特征表示序列;所述全连接层用于:将获得的所述特征表示序列转化为一维向量;所述归一化层用于:根据所述转化获得的一维向量对所述第一中文语句中的英文缩略词的位置进行预测,获得所述第一位置。4.根据权利要求2所述的方法,其特征在于,所述第二ERNIE层用于:根据所述第一位置掩码嵌入表示与所述第二词向量表示,对所述第一位置的中文语义进行嵌入表示预测,以获得所述第一中文语义嵌入表示。5.根据权利要求2所述的方法,其特征在于,所述第三ERNIE层用于:对所述中文语义被掩码的第一中文语句进行嵌入表示预测,以获得所述第二中文语义嵌入表示。6.根据权利要求1~5任一项所述的方法,其特征在于,所述对第二模型和第三模型进行训练,包括:根据所述相似度设置损失函数;对所述第二模型和所述第三模型进行迭代训练,以确定最小化的所述损失函数;
将确定最小化损失函数时所述第二模型和所述第三模型的参数,确定为所述第二模型和所述第三模型的参数。7.根据权利要求1~5任一项所述的方法,其特征在于,所述根据构建的语义...

【专利技术属性】
技术研发人员:姜娜杨康孙泽懿
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1