文本的实体识别方法、装置、电子设备和存储介质制造方法及图纸

技术编号：27609744 阅读：63 留言：0更新日期：2021-03-10 10:35

本申请提出一种文本的实体识别方法、装置、电子设备和存储介质，涉及数据处理技术领域，其中，方法包括：获取待处理文本；其中，待处理文本为至少两种语言混合文本；根据语言类别获取分句工具，并通过分句工具对待处理文本进行分句处理，获取多个待处理句子；对多个待处理句子进行切词处理，获取多个待处理分词，并将多个待处理分词拼接成目标长度的字符串；在目标长度大于预设长度阈值时，基于词典的词条对多个待处理分词进行匹配标注，获取实体识别结果。由此，实现对多语言混合文本的实体识别，以及能够提高对过长文本的实体识别的精准性。以及能够提高对过长文本的实体识别的精准性。以及能够提高对过长文本的实体识别的精准性。

全部详细技术资料下载

【技术实现步骤摘要】
文本的实体识别方法、装置、电子设备和存储介质

[0001]本申请涉及数据处理
，尤其涉及一种文本的实体识别方法、装置电子设备和存储介质。

技术介绍

[0002]目前，随着医疗卫生领域的不断发展，医疗卫生领域不同来源不同格式的数据不断涌现出来，这些大数据中隐藏着大量可以被识别和挖掘的信息。作为医疗数据分析的最重要的一步，医疗实体识别(特别是疾病类实体识别)可以抽取出相关文本中存在的医疗术语，对后续的研究起到重要作用。由于不同来源医疗文本存在不同的问题，比如：以中文为主体的医药类文献中的常常掺杂着英文描述的疾病词，靶点词等；医药类专利文本中常常存在描述语句过长等现象。
[0003]相关技术中,以多语言编码微调模型BERT为首的或BERT变体的算法成为了NLP(Natural Language Processing，自然语言处理)领域新的技术标杆，其中包括实体识别。然而，以BERT为代表的预训练微调的方案对基于英语数据微调的BERT模型无法直接迁移应用到中文数据的预测上，且对超长句子面临输入文本数据被截断而无法完整识别的问题，以及对和疾病靶点识别特定场景有关的细节预处理不够精准。

技术实现思路

[0004]本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
[0005]为此，本申请的第一个目的在于提出一种文本的实体识别方法，以实现对多语言混合文本的实体识别，以及能够提高对过长文本的实体识别的精准性，解决现有技术中对超长句子面临输入文本数据被截断而无法完整识别，以及识别结果不够精准...

【技术保护点】

【技术特征摘要】
1.一种文本的实体识别方法，其特征在于，包括以下步骤：获取待处理文本；其中，所述待处理文本为至少两种语言混合文本；根据语言类别获取分句工具，并通过分句工具对所述待处理文本进行分句处理，获取多个待处理句子；对所述多个待处理句子进行切词处理，获取多个待处理分词，并将所述多个待处理分词拼接成目标长度的字符串；在所述目标长度大于预设长度阈值时，基于词典的词条对所述多个待处理分词进行匹配标注，获取实体识别结果。2.如权利要求1所述的文本的实体识别方法，其特征在于，还包括：在所述目标长度小于等于所述预设长度阈值时，将所述字符串输入多语言编码微调模型进行实体识别，获取实体识别结果。3.如权利要求1所述的文本的实体识别方法，其特征在于，在所述基于词典的词条对所述多个待处理分词进行匹配标注，获取标注结果之前，还包括：获取目标类别的词条列表；对所述词条列表中的词条进行语义分析，按照语义信息进行对所述词条列表中的词条进行调整，并从所述词条列表中删除停止词；按照词条之间的上下包含关系将各个词条划分为一组，并按照预设长度对各组进行排序；其中，每个词条与对应的实体类型组成一对。4.如权利要求3所述的文本的实体识别方法，其特征在于，所述基于词典的词条对所述多个待处理分词进行匹配标注，获取实体识别结果，包括：将每个待处理分词与所述词条列表中的词条进行第一匹配，将完全匹配对应的待处理分词替换成标签；在所述第一匹配后，将所述多个待处理分词没有替换成标签的待处理分词与所述词条列表中的词条进行第二匹配，将完全匹配对应的待处理分词替换成标签，直到所述多个待处理分词都完成匹配，获取实体识别结果。5.如权利要求1所述的文本的实体识别方法，其特征在于，还包括：获取训练数据...

【专利技术属性】
技术研发人员：郭韦良，阳晓文，张荣驰，何小莲，邓奕，
申请(专利权)人：北京华彬立成科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人