语料文本处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:27360867 阅读:20 留言:0更新日期:2021-02-19 13:42
本发明专利技术涉及人工智能领域,涉及一种语料文本处理方法、装置、设备及存储介质。该语料文本处理方法包括获取目标语料文本,对所述目标语料文本进行语义角色标注,得到所述目标语料文本对应的多个携带词序的语义单元;基于所述语义单元和预设规则集,构建与所述目标语料文本对应的正则语义表达式;所述正则语义表达式包括多个正则语义标签;构建与所述正则语义标签对应的语义词典基于所述正则语义表达式和所述语义词典,生成与所述目标语料文本对应的正则语义模板。该语料文本处理方法有效避免传统的关键词匹配或正则表达式匹配在构建挖掘模板时采用字面表达的方式所导致执行效率低的问题。本发明专利技术还涉及数字医疗,应用于机器人在线医疗咨询和问诊。线医疗咨询和问诊。线医疗咨询和问诊。

【技术实现步骤摘要】
语料文本处理方法、装置、计算机设备及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种语料文本处理方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着信息时代的飞速发展,以深度学习为核心的人工智能技术日益成为新一轮产业革命的重要引擎。其中,自然语言处理(Natural Language Processing,NLP)则是人工智能技术的一代表性领域,目的是使计算机正确处理人类语言,并与人类进行交互。
[0003]但自然语言处理需要从线上挖掘大量的语料数据对深度学习模型进行训练,传统语料挖掘方法包括关键词匹配和正则表达式匹配。不同的挖掘方式在进行语料挖掘前,均需要构建对应的挖掘规则或挖掘模板,而对于关键词匹配所构建的挖掘模板,由于无法考虑每一关键词的词序,导致在进行语料挖掘时,会得到多个存在语病的文本,准确率较低。对于正则表达式匹配所构建的模板,虽然可以控制词序,但对于语义相近的关键词,只能通过替换不同的关键词进行组合,以生成大量的正则表达式模板,而在进行匹配时,需要遍历每一正则表达式模板进行匹配,效率较低。

技术实现思路

[0004]本专利技术实施例提供一种语料文本处理方法、装置、计算机设备及存储介质,以解决传统语料挖掘方法的匹配效率低且准确率不高的问题。
[0005]一种语料文本处理方法,包括:
[0006]获取目标语料文本,对所述目标语料文本进行语义角色标注,得到所述目标语料文本对应的多个携带词序的语义单元;
[0007]基于所述语义单元和预设规则集,构建与所述目标语料文本对应的正则语义表达式;所述正则语义表达式包括多个正则语义标签;
[0008]构建与所述正则语义标签对应的语义词典;所述语义词典为包含多个与所述正则语义标签的语义相近的关联词的词典;
[0009]基于所述正则语义表达式和所述语义词典,生成与所述目标语料文本对应的正则语义模板。
[0010]一种语料文本处理装置,包括:
[0011]语义角色标签模块,用于获取目标语料文本,对所述目标语料文本进行语义角色标注,得到所述目标语料文本对应的多个携带词序的语义单元;
[0012]正则语义表达式构建模块,用于基于所述语义单元和预设规则集,构建与所述目标语料文本对应的正则语义表达式;所述正则语义表达式包括多个正则语义标签;
[0013]语义词典构建模块,用于构建与所述正则语义标签对应的语义词典;所述语义词典为包含多个与所述正则语义标签的语义相近的关联词的词典;
[0014]正则语义模板生成模块,用于基于所述正则语义表达式和所述语义词典,生成与
所述目标语料文本对应的正则语义模板。
[0015]一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述语料文本处理方法的步骤。
[0016]一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述语料文本处理方法的步骤。
[0017]上述语料文本处理方法、装置、计算机设备及存储介质中,通过对目标语料文本中的不同句式进行语义角色标注,并得到每一句式对应的多个携带词序的语义单元,以通过语义表达的方式表达文本中的关键词,然后再将语义单元进行符号化处理,即将语义单元与特征字符以及匹配模式相结合,构建正则语义表达式,以将语义单元符号化,实现抽象化表达某一句式,不再局限于具体的字面表达,极大的扩展了挖掘模板的表达范围和边界,可有效避免传统的关键词匹配或正则表达式匹配在构建挖掘模板时采用字面表达的方式所导致执行效率低的问题。最后,通过构建与正则语义标签对应的语义词典,再根据语义词典和正则语义表达式,生成正则语义模版,以扩充模板的表达范围,提高模板的泛化性。
附图说明
[0018]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0019]图1是本专利技术一实施例中语料文本处理方法的一应用环境示意图;
[0020]图2是本专利技术一实施例中语料文本处理方法的一流程图;
[0021]图3是步骤S202的一具体流程图;
[0022]图4是图2中步骤S203的一具体流程图;
[0023]图5是图2中步骤S203的一具体流程图;
[0024]图6是图5中步骤S501的一具体流程图;
[0025]图7是本专利技术一实施例中语料文本处理方法的一流程图;
[0026]图8是本专利技术一实施例中语料文本处理方法的一流程图;
[0027]图9是本专利技术一实施例中语料文本处理装置的一示意图;
[0028]图10是本专利技术一实施例中计算机设备的一示意图。
具体实施方式
[0029]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0030]该语料文本处理方法可应用在如图1的应用环境中,其中,计算机设备通过网络与服务器进行通信。计算机设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器来实现。
[0031]在一实施例中,如图2所示,提供一种语料文本处理方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
[0032]S201:获取目标语料文本,对目标语料文本进行语义角色标注,得到目标语料文本对应的多个携带词序的语义单元。
[0033]其中,目标语料文本可通过采集线上业务数据获取,或者通过大数据平台中获取,此处不做限定。该目标语料文本可包含多个不同的句式,本案可针对不同的句式构建正则语义模板,此处以对某一句式构建正则语义模板为例进行说明。语义单元是目标预料文本中的语义表达单元。语义角色标注(Semantic Role Labeling,简称SRL)是一种浅层的语义分析。给定一个句子,SRL的任务是找出句子中谓词的相应语义角色成分,包括核心语义角色(如施事者、受事者等)和附属语义角色(如地点、时间、方式、原因等)。
[0034]具体地,根据句子中的谓词和变元之间不同的语义关系把变元(与谓词有直接关系并受谓词支配的语义成分)分出的不同的类型即为语义角色(即语义单元)。具体地,在进行语义角色标注时,会按照文本中的字符顺序进行标注,即得到多个携带词序的多个语义单元,以通过该多个语义单元表达某一句式中的语义。
[0035]具体地,对目标预料文本进行语义角色标注时,可按照采用BIO标注的方法给该目标语料文本进行语义角色标注,B代表语义单元的开始,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语料文本处理方法,其特征在于,包括:获取目标语料文本,对所述目标语料文本进行语义角色标注,得到所述目标语料文本对应的多个携带词序的语义单元;基于所述语义单元和预设规则集,构建与所述目标语料文本对应的正则语义表达式;所述正则语义表达式包括多个正则语义标签;构建与所述正则语义标签对应的语义词典;所述语义词典为包含多个与所述正则语义标签的语义相近的关联词的词典;基于所述正则语义表达式和所述语义词典,生成与所述目标语料文本对应的正则语义模板。2.如权利要求1所述语料文本处理方法,其特征在于,所述预设规则集包括多个模式运算符;所述基于所述语义单元和预设规则集,构建与所述目标语料文本对应的正则语义表达式,包括:获取预设正则表达式模板;所述预设正则表达式模板包括语义单元填充位以及运算符位;将所述语义单元按照所述词序填充至所述语义单元填充位;从所述预设规则集中依序或随机选取所述模式运算符填充至所述运算符位,以构建与所述目标语料文本对应的正则语义表达式。3.如权利要求1所述语料文本处理方法,其特征在于,所述正则语义标签对应一基准词;所述构建与所述正则语义标签对应的语义词典,包括:采用近义词库对所述基准词进行分析,获取至少一个关联词;基于所述基准词与所述关联词,构建所述正则语义标签关联的语义词典。4.如权利要求1所述语料文本处理方法,其特征在于,所述正则语义标签对应一基准词;所述构建与所述正则语义标签对应的语义词典,包括:对所述目标语料文本进行分词,获取至少一个分割词;对所述基准词和所述分割词进行语义相似度分析,获取至少一个关联词;基于所述基准词与所述关联词,构建所述正则语义标签关联的语义词典。5.如权利要求4所述语料文本处理方法,其特征在于,所述对所述目标语料文本进行分词,获取至少一个分割词,包括:基于预设结束符,将所述目标语料文本拆分为多个待切分句子;按照预设切分长度对所述待切分句子进行切分,得到待匹配字符串;将所述待匹配字符串与预设分词库进行比对;当所述预设分词库中存在所述待匹配字符串,则将所述待匹配字符串作为所述分割词,并更新所述待切分句子;当更新后的待切分句子的句子长度不大于所述预设切分长度,则将所述待切分句子作为待匹配字符串,重复执行所述将所述待匹配字符串与预设分词库进行比对的步骤;当更新后的待切分句子的句子长度大于所述预设切分长度,则重复执行所述按照预设
切分长度对所述待切分句子进行切分,得到待匹配字符串的步骤;当所述预设分词库中不存在所述待匹配...

【专利技术属性】
技术研发人员:杨静远赵知纬高维国陆凯
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1