语料文本处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：27360867 阅读：20 留言：0更新日期：2021-02-19 13:42

本发明专利技术涉及人工智能领域，涉及一种语料文本处理方法、装置、设备及存储介质。该语料文本处理方法包括获取目标语料文本，对所述目标语料文本进行语义角色标注，得到所述目标语料文本对应的多个携带词序的语义单元；基于所述语义单元和预设规则集，构建与所述目标语料文本对应的正则语义表达式；所述正则语义表达式包括多个正则语义标签；构建与所述正则语义标签对应的语义词典基于所述正则语义表达式和所述语义词典，生成与所述目标语料文本对应的正则语义模板。该语料文本处理方法有效避免传统的关键词匹配或正则表达式匹配在构建挖掘模板时采用字面表达的方式所导致执行效率低的问题。本发明专利技术还涉及数字医疗，应用于机器人在线医疗咨询和问诊。线医疗咨询和问诊。线医疗咨询和问诊。

全部详细技术资料下载

【技术实现步骤摘要】
语料文本处理方法、装置、计算机设备及存储介质

[0001]本专利技术涉及人工智能
，尤其涉及一种语料文本处理方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着信息时代的飞速发展，以深度学习为核心的人工智能技术日益成为新一轮产业革命的重要引擎。其中，自然语言处理(Natural Language Processing，NLP)则是人工智能技术的一代表性领域，目的是使计算机正确处理人类语言，并与人类进行交互。
[0003]但自然语言处理需要从线上挖掘大量的语料数据对深度学习模型进行训练，传统语料挖掘方法包括关键词匹配和正则表达式匹配。不同的挖掘方式在进行语料挖掘前，均需要构建对应的挖掘规则或挖掘模板，而对于关键词匹配所构建的挖掘模板，由于无法考虑每一关键词的词序，导致在进行语料挖掘时，会得到多个存在语病的文本，准确率较低。对于正则表达式匹配所构建的模板，虽然可以控制词序，但对于语义相近的关键词，只能通过替换不同的关键词进行组合，以生成大量的正则表达式模板，而在进行匹配时，需要遍历每一正则表达式模板进行匹配，效率较低。

技术实现思路

[0004]本专利技术实施例提供一种语料文本处理方法、装置、计算机设备及存储介质，以解决传统语料挖掘方法的匹配效率低且准确率不高的问题。
[0005]一种语料文本处理方法，包括：
[0006]获取目标语料文本，对所述目标语料文本进行语义角色标注，得到所述目标语料文本对应的多个携带词序的语义单元；
[0007]基于所述语义单元和预...

【技术保护点】

【技术特征摘要】
1.一种语料文本处理方法，其特征在于，包括：获取目标语料文本，对所述目标语料文本进行语义角色标注，得到所述目标语料文本对应的多个携带词序的语义单元；基于所述语义单元和预设规则集，构建与所述目标语料文本对应的正则语义表达式；所述正则语义表达式包括多个正则语义标签；构建与所述正则语义标签对应的语义词典；所述语义词典为包含多个与所述正则语义标签的语义相近的关联词的词典；基于所述正则语义表达式和所述语义词典，生成与所述目标语料文本对应的正则语义模板。2.如权利要求1所述语料文本处理方法，其特征在于，所述预设规则集包括多个模式运算符；所述基于所述语义单元和预设规则集，构建与所述目标语料文本对应的正则语义表达式，包括：获取预设正则表达式模板；所述预设正则表达式模板包括语义单元填充位以及运算符位；将所述语义单元按照所述词序填充至所述语义单元填充位；从所述预设规则集中依序或随机选取所述模式运算符填充至所述运算符位，以构建与所述目标语料文本对应的正则语义表达式。3.如权利要求1所述语料文本处理方法，其特征在于，所述正则语义标签对应一基准词；所述构建与所述正则语义标签对应的语义词典，包括：采用近义词库对所述基准词进行分析，获取至少一个关联词；基于所述基准词与所述关联词，构建所述正则语义标签关联的语义词典。4.如权利要求1所述语料文本处理方法，其特征在于，所述正则语义标签对应一基准词；所述构建与所述正则语义标签对应的语义词典，包括：对所述目标语料文本进行分词，获取至少一个分割词；对所述基准词和所述分割词进行语义相似度分析，获取至少一个关联词；基于所述基准词与所述关联词，构建所述正则语义标签关联的语义词典。5.如权利要求4所述语料文本处理方法，其特征在于，所述对所述目标语料文本进行分词，获取至少一个分割词，包括：基于预设结束符，将所述目标语料文本拆分为多个待切分句子；按照预设切分长度对所述待切分句子进行切分，得到待匹配字符串；将所述待匹配字符串与预设分词库进行比对；当所述预设分词库中存在所述待匹配字符串，则将所述待匹配字符串作为所述分割词，并更新所述待切分句子；当更新后的待切分句子的句子长度不大于所述预设切分长度，则将所述待切分句子作为待匹配字符串，重复执行所述将所述待匹配字符串与预设分词库进行比对的步骤；当更新后的待切分句子的句子长度大于所述预设切分长度，则重复执行所述按照预设
切分长度对所述待切分句子进行切分，得到待匹配字符串的步骤；当所述预设分词库中不存在所述待匹配...

【专利技术属性】
技术研发人员：杨静远，赵知纬，高维国，陆凯，
申请(专利权)人：中国平安人寿保险股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人