基于自然语言理解的文本要素提取方法、装置和设备制造方法及图纸

技术编号：37124825 阅读：19 留言：0更新日期：2023-04-01 05:21

本公开提供了一种基于自然语言理解的文本要素提取方法、神经网络的训练方法、装置和设备，涉及人工智能领域，具体涉及自然语言处理、深度学习技术，可应用在智慧城市、智慧政务场景下。文本要素提取方法包括：在目标文本中确定目标下位词；构造目标输入，目标输入至少包括目标文本；利用预训练模型对目标输入进行处理，以得到中间特征，其中，中间特征表征目标文本的语义信息，并且表征目标下位词的语义信息和目标下位词在目标文本中的位置中的至少一个；以及利用上位词确定子网络对中间特征进行处理，以得到与目标下位词对应的上位词。以得到与目标下位词对应的上位词。以得到与目标下位词对应的上位词。

全部详细技术资料下载

【技术实现步骤摘要】
基于自然语言理解的文本要素提取方法、装置和设备

[0001]本公开涉及人工智能领域，具体涉及自然语言处理、深度学习技术，可应用在智慧城市、智慧政务场景下，特别涉及一种基于自然语言理解的文本要素提取方法、神经网络的训练方法、基于自然语言理解的文本要素提取装置、神经网络的训练装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
[0003]在处理同领域的大量文本内容时，相关人员需要通篇看完文本内容，再人工从中筛选出需要的核心关注文本段，如病例中的现病史、症状、处方等等。但即便人工抽取出这些核心要素，针对“症状”等要素，其文本内容的描述形式还是多样化的，相关人员很难在成千上万个病例中发现各个病例的“症状”的联系，但是如果能将“症状”的多样化的细节描述向外延成更广的主题词(即上位词)，则相关人员可以从较轻易地根据上位词来筛选或查找相同“症状”的病例。
[0004]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中...

【技术保护点】

【技术特征摘要】
1.一种基于自然语言理解的文本要素提取方法，神经网络包括用于自然语言处理的预训练模型和上位词确定子网络，所述方法包括：在目标文本中确定目标下位词；构造目标输入，所述目标输入至少包括所述目标文本；利用所述预训练模型对所述目标输入进行处理，以得到中间特征，其中，所述中间特征表征所述目标文本的语义信息，并且表征所述目标下位词的语义信息和所述目标下位词在所述目标文本中的位置中的至少一个；以及利用所述上位词确定子网络对所述中间特征进行处理，以得到与所述目标下位词对应的上位词。2.根据权利要求1所述的方法，其中，构造目标输入包括：将所述目标下位词和所述目标文本进行拼接，以得到所述目标输入。3.根据权利要求2所述的方法，其中，所述目标输入包括句首特殊符号，利用所述预训练模型对所述目标输入进行处理，以得到中间特征包括：利用所述预训练模型基于自注意力机制对所述目标输入所包括的所述句首特殊符号、所述目标下位词所包括的至少一个第一分词和所述目标文本所包括的至少一个第二分词进行处理，以得到所述句首特殊符号的嵌入特征，其中，所述中间特征包括所述句首特殊符号的嵌入特征。4.根据权利要求2所述的方法，其中，利用所述预训练模型对所述目标输入进行处理，以得到中间特征包括：利用所述预训练模型基于自注意力机制对所述目标下位词所包括的至少一个第一分词和所述目标文本所包括的至少一个第二分词进行处理，以得到所述至少一个第一分词各自的嵌入特征和所述至少一个第二分词各自的嵌入特征；以及将所述至少一个第一分词各自的嵌入特征和所述至少一个第二分词各自的嵌入特征进行融合，以得到所述中间特征。5.根据权利要求1所述的方法，其中，构造目标输入包括：在所述目标文本中的第一位置插入第一下位词特殊符号，所述第一位置指示所述目标下位词在所述目标文本中的起始位置；以及在所述目标文本中的第二位置插入第二下位词特殊符号，所述第二位置指示所述目标下位词在所述目标文本中的终止位置，其中，利用所述预训练模型对所述目标输入进行处理，以得到中间特征包括：利用所述预训练模型基于自注意力机制对所述目标文本所包括的至少一个第二分词、所述第一下位词特殊符号和所述第二下位词特殊符号进行处理，以得到所述第一下位词特殊符号的嵌入特征和所述第二下位词特殊符号的嵌入特征，所述中间特征包括所述第一下位词特殊符号的嵌入特征和所述第二下位词特殊符号的嵌入特征。6.根据权利要求5所述的方法，其中，所述目标输入包括句首特殊符号，利用所述预训练模型基于自注意力机制对所述目标文本所包括的至少一个第二分词、所述第一下位词特殊符号和所述第二下位词特殊符号进行处理，以得到所述第一下位词特殊符号的嵌入特征和所述第二下位词特殊符号的嵌入特征包括：利用所述预训练模型基于自注意力机制对所述句首特殊符号、所述目标文本所包括的
至少一个第二分词、所述第一下位词特殊符号和所述第二下位词特殊符号进行处理，以得到所述句首特殊符号的嵌入特征、所述第一下位词特殊符号的嵌入特征和所述第二下位词特殊符号的嵌入特征，其中，利用所述预训练模型对所述目标输入进行处理，以得到中间特征还包括：将所述句首特殊符号的嵌入特征、所述第一下位词特殊符号的嵌入特征和所述第二下位词特殊符号的嵌入特征进行融合，以得到所述中间特征。7.根据权利要求6所述的方法，其中，将所述句首特殊符号的嵌入特征、所述第一下位词特殊符号的嵌入特征和所述第二下位词特殊符号的嵌入特征进行融合，以得到所述中间特征包括：将所述第一下位词特殊符号的嵌入特征和所述第二下位词特殊符号的嵌入特征进行融合，以得到...

【专利技术属性】
技术研发人员：陈佳颖，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人