文本的实体识别方法、装置、电子设备和存储介质制造方法及图纸

技术编号:27609744 阅读:63 留言:0更新日期:2021-03-10 10:35
本申请提出一种文本的实体识别方法、装置、电子设备和存储介质,涉及数据处理技术领域,其中,方法包括:获取待处理文本;其中,待处理文本为至少两种语言混合文本;根据语言类别获取分句工具,并通过分句工具对待处理文本进行分句处理,获取多个待处理句子;对多个待处理句子进行切词处理,获取多个待处理分词,并将多个待处理分词拼接成目标长度的字符串;在目标长度大于预设长度阈值时,基于词典的词条对多个待处理分词进行匹配标注,获取实体识别结果。由此,实现对多语言混合文本的实体识别,以及能够提高对过长文本的实体识别的精准性。以及能够提高对过长文本的实体识别的精准性。以及能够提高对过长文本的实体识别的精准性。

【技术实现步骤摘要】
文本的实体识别方法、装置、电子设备和存储介质


[0001]本申请涉及数据处理
,尤其涉及一种文本的实体识别方法、装置电子设备和存储介质。

技术介绍

[0002]目前,随着医疗卫生领域的不断发展,医疗卫生领域不同来源不同格式的数据不断涌现出来,这些大数据中隐藏着大量可以被识别和挖掘的信息。作为医疗数据分析的最重要的一步,医疗实体识别(特别是疾病类实体识别)可以抽取出相关文本中存在的医疗术语,对后续的研究起到重要作用。由于不同来源医疗文本存在不同的问题,比如:以中文为主体的医药类文献中的常常掺杂着英文描述的疾病词,靶点词等;医药类专利文本中常常存在描述语句过长等现象。
[0003]相关技术中,以多语言编码微调模型BERT为首的或BERT变体的算法成为了NLP(Natural Language Processing,自然语言处理)领域新的技术标杆,其中包括实体识别。然而,以BERT为代表的预训练微调的方案对基于英语数据微调的BERT模型无法直接迁移应用到中文数据的预测上,且对超长句子面临输入文本数据被截断而无法完整识别的问题,以及对和疾病靶点识别特定场景有关的细节预处理不够精准。

技术实现思路

[0004]本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
[0005]为此,本申请的第一个目的在于提出一种文本的实体识别方法,以实现对多语言混合文本的实体识别,以及能够提高对过长文本的实体识别的精准性,解决现有技术中对超长句子面临输入文本数据被截断而无法完整识别,以及识别结果不够精准的技术问题。
[0006]本申请的第二个目的在于提出一种文本的实体识别装置。
[0007]本申请的第三个目的在于提出一种计算机设备。
[0008]本申请的第四个目的在于提出一种非临时性计算机可读存储介质。
[0009]本申请的第五个目的在于提出一种计算机程序产品。
[0010]为达上述目的,本申请第一方面实施例提出了一种文本的实体识别方法,包括:
[0011]获取待处理文本;其中,所述待处理文本为至少两种语言混合文本;
[0012]根据语言类别获取分句工具,并通过分句工具对所述待处理文本进行分句处理,获取多个待处理句子;
[0013]对所述多个待处理句子进行切词处理,获取多个待处理分词,并将所述多个待处理分词拼接成目标长度的字符串;
[0014]在所述目标长度大于预设长度阈值时,基于词典的词条对所述多个待处理分词进行匹配标注,获取实体识别结果。
[0015]本申请实施例的文本的实体识别方法,通过获取待处理文本;其中,待处理文本为至少两种语言混合文本;根据语言类别获取分句工具,并通过分句工具对待处理文本进行
分句处理,获取多个待处理句子;对多个待处理句子进行切词处理,获取多个待处理分词,并将多个待处理分词拼接成目标长度的字符串;在目标长度大于预设长度阈值时,基于词典的词条对多个待处理分词进行匹配标注,获取实体识别结果。由此,实现对多语言混合文本的实体识别,以及能够提高对过长文本的实体识别的精准性。
[0016]在本申请的一个实施例中,在所述目标长度小于等于所述预设长度阈值时,将所述字符串输入多语言编码微调模型进行实体识别,获取实体识别结果。
[0017]在本申请的一个实施例中,在所述基于词典的词条对所述多个待处理分词进行匹配标注,获取标注结果之前,还包括:
[0018]获取目标类别的词条列表;
[0019]对所述词条列表中的词条进行语义分析,按照语义信息进行对所述词条列表中的词条进行调整,并从所述词条列表中删除停止词;
[0020]按照词条之间的上下包含关系将各个词条划分为一组,并按照预设长度对各组进行排序;其中,每个词条与对应的实体类型组成一对。
[0021]在本申请的一个实施例中,所述基于词典的词条对所述多个待处理分词进行匹配标注,获取实体识别结果,包括:
[0022]将每个待处理分词与所述词条列表中的词条进行第一匹配,将完全匹配对应的待处理分词替换成标签;
[0023]在所述第一匹配后,将所述多个待处理分词没有替换成标签的待处理分词与所述词条列表中的词条进行第二匹配,将完全匹配对应的待处理分词替换成标签,直到所述多个待处理分词都完成匹配,获取实体识别结果。
[0024]在本申请的一个实施例中,所述文本的实体识别方法,还包括:
[0025]获取训练数据文本;
[0026]对所述训练数据文本进行切分获取多个训练分词,获取所述多个训练分词的字符长度大于最大序列长度值的目标训练数据;
[0027]将所述目标训练数据对应的训练分词的字符长度按照降序排序,选取最小字符长度作为所述目标长度。
[0028]在本申请的一个实施例中,所述文本的实体识别方法,所述通过分句工具对所述待处理文本进行分句处理,获取多个待处理句子,包括:
[0029]基于正则从所述待处理文本中每个汉字进行切分,获取各个汉字的分词结果和非中文文本;
[0030]按照空格对所述非中文文本进行切分。
[0031]为达上述目的,本申请第二方面实施例提出了一种文本的实体识别装置,包括:
[0032]获取模块,用于获取待处理文本;其中,所述待处理文本为至少两种语言混合文本;
[0033]获取分词模块,用于根据语言类别获取分句工具,并通过分句工具对所述待处理文本进行分句处理,获取多个待处理句子;
[0034]分词拼接模块,用于对所述多个待处理句子进行切词处理,获取多个待处理分词,并将所述多个待处理分词拼接成目标长度的字符串;
[0035]处理模块,用于在所述目标长度大于预设长度阈值时,基于词典的词条对所述多
个待处理分词进行匹配标注,获取实体识别结果。
[0036]本申请实施例的文本的实体识别装置,通过获取待处理文本;其中,待处理文本为至少两种语言混合文本;根据语言类别获取分句工具,并通过分句工具对待处理文本进行分句处理,获取多个待处理句子;对多个待处理句子进行切词处理,获取多个待处理分词,并将多个待处理分词拼接成目标长度的字符串;在目标长度大于预设长度阈值时,基于词典的词条对多个待处理分词进行匹配标注,获取实体识别结果。由此,实现对多语言混合文本的实体识别,以及能够提高对过长文本的实体识别的精准性。
[0037]为达上述目的,本申请第三方面实施例提出了一种计算机设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行第一方面实施例所述的文本的实体识别方法。
[0038]为了实现上述目的,本申请第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如本申请第一方面实施例所述的文本的实体识别方法。
[0039]为了实现上述目的,本申请第五方面实施例提出了一种计算本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本的实体识别方法,其特征在于,包括以下步骤:获取待处理文本;其中,所述待处理文本为至少两种语言混合文本;根据语言类别获取分句工具,并通过分句工具对所述待处理文本进行分句处理,获取多个待处理句子;对所述多个待处理句子进行切词处理,获取多个待处理分词,并将所述多个待处理分词拼接成目标长度的字符串;在所述目标长度大于预设长度阈值时,基于词典的词条对所述多个待处理分词进行匹配标注,获取实体识别结果。2.如权利要求1所述的文本的实体识别方法,其特征在于,还包括:在所述目标长度小于等于所述预设长度阈值时,将所述字符串输入多语言编码微调模型进行实体识别,获取实体识别结果。3.如权利要求1所述的文本的实体识别方法,其特征在于,在所述基于词典的词条对所述多个待处理分词进行匹配标注,获取标注结果之前,还包括:获取目标类别的词条列表;对所述词条列表中的词条进行语义分析,按照语义信息进行对所述词条列表中的词条进行调整,并从所述词条列表中删除停止词;按照词条之间的上下包含关系将各个词条划分为一组,并按照预设长度对各组进行排序;其中,每个词条与对应的实体类型组成一对。4.如权利要求3所述的文本的实体识别方法,其特征在于,所述基于词典的词条对所述多个待处理分词进行匹配标注,获取实体识别结果,包括:将每个待处理分词与所述词条列表中的词条进行第一匹配,将完全匹配对应的待处理分词替换成标签;在所述第一匹配后,将所述多个待处理分词没有替换成标签的待处理分词与所述词条列表中的词条进行第二匹配,将完全匹配对应的待处理分词替换成标签,直到所述多个待处理分词都完成匹配,获取实体识别结果。5.如权利要求1所述的文本的实体识别方法,其特征在于,还包括:获取训练数据...

【专利技术属性】
技术研发人员:郭韦良阳晓文张荣驰何小莲邓奕
申请(专利权)人:北京华彬立成科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1