文本要素提取方法、装置、电子设备及存储介质制造方法及图纸

技术编号：32880142 阅读：54 留言：0更新日期：2022-04-02 12:13

本发明专利技术提供一种文本要素提取方法、装置、电子设备及存储介质，其中方法包括：确定待识别文本；对所述待识别文本中的每个子句进行要素粒度分类，得到所述每个子句的要素粒度类型，所述要素粒度类型为句粒度或词粒度；基于所述每个子句的要素粒度类型，对所述待识别文本进行要素提取，得到目标要素文本。本发明专利技术提供的方法、装置、电子设备及存储介质，能够通过对待识别文本中的每个子句进行词粒度和句粒度的分类，每个子句通过其对应的粒度类型进行要素提取，得到目标要素文本，实现了基于使用词粒度结合句粒度对文本进行非连续要素提取，在保证识别准确率的同时，还提高了识别的时效性，进而提高了要素提取的准确率和时效性。进而提高了要素提取的准确率和时效性。进而提高了要素提取的准确率和时效性。

全部详细技术资料下载

【技术实现步骤摘要】
文本要素提取方法、装置、电子设备及存储介质

[0001]本专利技术涉及人工智能
，尤其涉及一种文本要素提取方法、装置、电子设备及存储介质。

技术介绍

[0002]随着人工智能技术的迭代升级，通过人工智能技术从大段文字中提取关键信息，能够减轻用户对大段文本的阅读的压力，使得用户能更快了解该文本段的主要意思，节省人工的开支，提升用户文本处理的时效性和准确性。
[0003]现有的非连续要素提取模型主要通过词级别或者句级别来进行识别，但通过句级别来对文本中非连续要素进行识别会使得识别结果存在歧义，导致识别准确率不高，进而导致要素提取的准确率不高；通过词级别来对文本中非连续要素进行识别虽然识别的准确度较高，但是在处理大量文本时，对文本进行分词后处理，会产生很高的时延，导致时效性较低。

技术实现思路

[0004]本专利技术提供一种文本要素提取方法、装置、电子设备及存储介质，用以解决现有技术中对非连续性要素提取时句级别要素提取准确率低以及词级别要素提取时效性低的缺陷。
[0005]本专利技术提供一种文本要素提取方法，包括：
[0006]确定待识别文本；
[0007]对所述待识别文本中的每个子句进行要素粒度分类，得到所述每个子句的要素粒度类型，所述要素粒度类型为句粒度或词粒度；
[0008]基于所述每个子句的要素粒度类型，对所述待识别文本进行要素提取，得到目标要素文本。
[0009]根据本专利技术提供的一种文本要素提取方法，所述基于所述每个子句的要素粒度类型，对所...

【技术保护点】

【技术特征摘要】
1.一种文本要素提取方法，其特征在于，包括：确定待识别文本；对所述待识别文本中的每个子句进行要素粒度分类，得到所述每个子句的要素粒度类型，所述要素粒度类型为句粒度或词粒度；基于所述每个子句的要素粒度类型，对所述待识别文本进行要素提取，得到目标要素文本。2.根据权利要求1所述的文本要素提取方法，其特征在于，所述基于所述每个子句的要素粒度类型，对所述待识别文本进行要素提取，得到目标要素文本，包括：基于所述每个子句的要素粒度类型，对所述待识别文本进行分割，得到元素序列；对所述元素序列进行要素提取，得到目标要素文本。3.根据权利要求2所述的文本要素提取方法，其特征在于，所述基于所述每个子句的要素粒度类型，对所述待识别文本进行分割，得到元素序列，包括：若所述待识别文本中的当前子句的要素粒度类型为词粒度，则将所述当前子句的分词序列存入所述元素序列，否则将所述当前子句存入所述元素序列；将所述待识别文本中所述当前子句的下一子句更新为当前子句。4.根据权利要求1所述的文本要素提取方法，其特征在于，所述确定待识别文本包括：确定原始文本；对所述原始文本进行要素类别检测，在所述原始文本中存在任一要素类别的情况下，定位所述任一要素类别在所述原始文本中的候选起始索引和候选终点索引；基于所述任一要素类别在所述原始文本中的候选起始索引和候选终点索引的位置，从所述原始文本中确定出所述任一要素类别对应的待识别文本。5.根据权利要求4所述的文本要素提取方法，其特征在于，所述对所述原始文本进行要素类别检测，在所述原始文本中存在任一要素类别的情况下，定位所述任一要素类别在所述原始文本中的候选起始索引和候选终点索引，包括：对所述原始文本进行语义提取，得到所述原始文本的文本语义以及所述原始文本中每个字的上下文语义；基于所述原始文本的文本语义，对所述原始文本进行要素类别检测，并在所述原始文本中存在任一要素类别的情况下，基于所述原始文本中每个字的上下文语义，定位所述任一要素类别在所述原始文本中的所述候选起始索引和所述候选终点索引。6.根据权利要求4所述的文本要素提取方法，其特征在于，所述基于所述任一要素类别在所述原始文本中的候选起始索引和候...

【专利技术属性】
技术研发人员：张逸伦，李直旭，郑新，陈志刚，李明洹，陈耀玲，支洪平，
申请(专利权)人：科大讯飞苏州科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人