文本要素提取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:32880142 阅读:54 留言:0更新日期:2022-04-02 12:13
本发明专利技术提供一种文本要素提取方法、装置、电子设备及存储介质,其中方法包括:确定待识别文本;对所述待识别文本中的每个子句进行要素粒度分类,得到所述每个子句的要素粒度类型,所述要素粒度类型为句粒度或词粒度;基于所述每个子句的要素粒度类型,对所述待识别文本进行要素提取,得到目标要素文本。本发明专利技术提供的方法、装置、电子设备及存储介质,能够通过对待识别文本中的每个子句进行词粒度和句粒度的分类,每个子句通过其对应的粒度类型进行要素提取,得到目标要素文本,实现了基于使用词粒度结合句粒度对文本进行非连续要素提取,在保证识别准确率的同时,还提高了识别的时效性,进而提高了要素提取的准确率和时效性。进而提高了要素提取的准确率和时效性。进而提高了要素提取的准确率和时效性。

【技术实现步骤摘要】
文本要素提取方法、装置、电子设备及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种文本要素提取方法、装置、电子设备及存储介质。

技术介绍

[0002]随着人工智能技术的迭代升级,通过人工智能技术从大段文字中提取关键信息,能够减轻用户对大段文本的阅读的压力,使得用户能更快了解该文本段的主要意思,节省人工的开支,提升用户文本处理的时效性和准确性。
[0003]现有的非连续要素提取模型主要通过词级别或者句级别来进行识别,但通过句级别来对文本中非连续要素进行识别会使得识别结果存在歧义,导致识别准确率不高,进而导致要素提取的准确率不高;通过词级别来对文本中非连续要素进行识别虽然识别的准确度较高,但是在处理大量文本时,对文本进行分词后处理,会产生很高的时延,导致时效性较低。

技术实现思路

[0004]本专利技术提供一种文本要素提取方法、装置、电子设备及存储介质,用以解决现有技术中对非连续性要素提取时句级别要素提取准确率低以及词级别要素提取时效性低的缺陷。
[0005]本专利技术提供一种文本要素提取方法,包括:
[0006]确定待识别文本;
[0007]对所述待识别文本中的每个子句进行要素粒度分类,得到所述每个子句的要素粒度类型,所述要素粒度类型为句粒度或词粒度;
[0008]基于所述每个子句的要素粒度类型,对所述待识别文本进行要素提取,得到目标要素文本。
[0009]根据本专利技术提供的一种文本要素提取方法,所述基于所述每个子句的要素粒度类型,对所述待识别文本进行要素提取,得到目标要素文本,包括:
[0010]基于所述每个子句的要素粒度类型,对所述待识别文本进行分割,得到元素序列;
[0011]对所述元素序列进行要素提取,得到目标要素文本。
[0012]根据本专利技术提供的一种文本要素提取方法,所述基于所述每个子句的要素粒度类型,对所述待识别文本进行分割,得到元素序列,包括:
[0013]若所述待识别文本中的当前子句的要素粒度类型为词粒度,则将所述当前子句的分词序列存入所述元素序列,否则将所述当前子句存入所述元素序列;
[0014]将所述待识别文本中所述当前子句的下一子句更新为当前子句。
[0015]根据本专利技术提供的一种文本要素提取方法,所述确定待识别文本包括:
[0016]确定原始文本;
[0017]对所述原始文本进行要素类别检测,在所述原始文本中存在任一要素类别的情况
下,定位所述任一要素类别在所述原始文本中的候选起始索引和候选终点索引;
[0018]基于所述任一要素类别在所述原始文本中的候选起始索引和候选终点索引的位置,从所述原始文本中确定出所述任一要素类别对应的待识别文本。
[0019]根据本专利技术提供的一种文本要素提取方法,所述对所述原始文本进行要素类别检测,在所述原始文本中存在任一要素类别的情况下,定位所述任一要素类别在所述原始文本中的候选起始索引和候选终点索引,包括:
[0020]对所述原始文本进行语义提取,得到所述原始文本的文本语义以及所述原始文本中每个字的上下文语义;
[0021]基于所述原始文本的文本语义,对所述原始文本进行要素类别检测,并在所述原始文本中存在任一要素类别的情况下,基于所述原始文本中每个字的上下文语义,定位所述任一要素类别在所述原始文本中的所述候选起始索引和所述候选终点索引。
[0022]根据本专利技术提供的一种文本要素提取方法,所述基于所述任一要素类别在所述原始文本中的候选起始索引和候选终点索引的位置,从所述原始文本中确定出所述任一要素类别对应的待识别文本,包括:
[0023]以候选起始索引的位置在候选终点索引的位置之前,且候选起始索引与候选终点索引间距离最近为限制条件,对所述任一要素类别在所述原始文本中的候选起始索引和候选终点索引进行组合,得到所述任一要素类别的候选索引对;
[0024]基于所述任一要素类别的各候选索引对中候选起始索引的置信度和候选终点索引的置信度,从所述任一要素类别的各候选索引对中选取始末索引对;
[0025]基于所述始末索引对,从所述原始文本中确定出所述任一要素类别对应的待识别文本。
[0026]根据本专利技术提供的一种文本要素提取方法,所述基于所述始末索引对,从所述原始文本中确定出所述任一要素类别对应的待识别文本,包括:
[0027]从所述原始文本中确定出各个始末索引对的索引文本;
[0028]基于每两个始末索引对的索引文本间的语义相似度和句法重复度,对所有索引文本进行去重,句法重复度是基于两个索引文本中的相交部分确定的;
[0029]基于去重后的索引文本,确定所述待识别文本。
[0030]根据本专利技术提供的一种文本要素提取方法,所述基于所述任一要素类别在所述原始文本中的候选起始索引和候选终点索引的位置,从所述原始文本中确定出所述任一要素类别对应的待识别文本,之后还包括:
[0031]基于所述原始文本,对所述任一要素类别对应的待识别文本进行文本补全,得到补全文本;
[0032]基于所述补全文本,更新所述待识别文本。
[0033]本专利技术还提供一种文本要素提取装置,包括:
[0034]确定模块,用于确定待识别文本;
[0035]分类模块,用于对所述待识别文本中的每个子句进行要素粒度分类,得到所述每个子句的要素粒度类型,所述要素粒度类型为句粒度或词粒度;
[0036]提取模块,用于基于所述每个子句的要素粒度类型,对所述待识别文本进行要素提取,得到目标要素文本。
[0037]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述文本要素提取方法的步骤。
[0038]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述文本要素提取方法的步骤。
[0039]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述文本要素提取方法的步骤。
[0040]本专利技术提供的一种文本要素提取方法、装置、电子设备及存储介质,通过对待识别文本中的每个子句进行词粒度和句粒度的分类,每个子句通过其对应的粒度类型进行要素提取,得到目标要素文本,实现了基于使用词粒度结合句粒度对文本进行非连续要素提取,在保证识别准确率的同时,还提高了识别的时效性,进而提高了要素提取的准确率和时效性。
附图说明
[0041]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0042]图1是本专利技术提供的文本要素提取方法的流程示意图;
[0043]图2是本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本要素提取方法,其特征在于,包括:确定待识别文本;对所述待识别文本中的每个子句进行要素粒度分类,得到所述每个子句的要素粒度类型,所述要素粒度类型为句粒度或词粒度;基于所述每个子句的要素粒度类型,对所述待识别文本进行要素提取,得到目标要素文本。2.根据权利要求1所述的文本要素提取方法,其特征在于,所述基于所述每个子句的要素粒度类型,对所述待识别文本进行要素提取,得到目标要素文本,包括:基于所述每个子句的要素粒度类型,对所述待识别文本进行分割,得到元素序列;对所述元素序列进行要素提取,得到目标要素文本。3.根据权利要求2所述的文本要素提取方法,其特征在于,所述基于所述每个子句的要素粒度类型,对所述待识别文本进行分割,得到元素序列,包括:若所述待识别文本中的当前子句的要素粒度类型为词粒度,则将所述当前子句的分词序列存入所述元素序列,否则将所述当前子句存入所述元素序列;将所述待识别文本中所述当前子句的下一子句更新为当前子句。4.根据权利要求1所述的文本要素提取方法,其特征在于,所述确定待识别文本包括:确定原始文本;对所述原始文本进行要素类别检测,在所述原始文本中存在任一要素类别的情况下,定位所述任一要素类别在所述原始文本中的候选起始索引和候选终点索引;基于所述任一要素类别在所述原始文本中的候选起始索引和候选终点索引的位置,从所述原始文本中确定出所述任一要素类别对应的待识别文本。5.根据权利要求4所述的文本要素提取方法,其特征在于,所述对所述原始文本进行要素类别检测,在所述原始文本中存在任一要素类别的情况下,定位所述任一要素类别在所述原始文本中的候选起始索引和候选终点索引,包括:对所述原始文本进行语义提取,得到所述原始文本的文本语义以及所述原始文本中每个字的上下文语义;基于所述原始文本的文本语义,对所述原始文本进行要素类别检测,并在所述原始文本中存在任一要素类别的情况下,基于所述原始文本中每个字的上下文语义,定位所述任一要素类别在所述原始文本中的所述候选起始索引和所述候选终点索引。6.根据权利要求4所述的文本要素提取方法,其特征在于,所述基于所述任一要素类别在所述原始文本中的候选起始索引和候...

【专利技术属性】
技术研发人员:张逸伦李直旭郑新陈志刚李明洹陈耀玲支洪平
申请(专利权)人:科大讯飞苏州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1