System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种文本抽取表达式的构建方法、装置及电子设备制造方法及图纸_技高网

一种文本抽取表达式的构建方法、装置及电子设备制造方法及图纸

技术编号:41229590 阅读:2 留言:0更新日期:2024-05-09 23:46
本申请涉及自然语言处理技术领域,尤其涉及一种文本抽取表达式的构建方法、装置及电子设备。方法包括:根据关键词在目标文本中的词频和/或所述关键词对应的层级数据表的数量,构建第一表达式或者第二表达式;所述第一表达式用于从所述目标文本中抽取所述关键词对应的文本内容;所述第二表达式用于从所述目标文本中抽取与所述层级数据表中底层数据内容对应的文本内容;根据语义模型以及所述第一表达式或者所述第二表达式,构建本体表达式。本申请能够解决现有技术中由于正则表达式具有语法复杂、维护困难和容易出错等应用局限,导致单一地应用正则表达式作为文本抽取表达式,会限制文本抽取的效率和准确性的技术问题。

【技术实现步骤摘要】

本申请涉及自然语言处理,尤其涉及一种文本抽取表达式的构建方法、装置及电子设备


技术介绍

1、自然语言处理能够实现人机之间的自然语言通信。自然语言处理的应用领域包括:信息抽取和搜索、机器翻译、舆情分析与情感分析、文本生成和创作以及语音识别和语音合成等领域。

2、在上述领域的应用过程中,自然语言处理的功能通常为从目标文本中抽取目标内容,在实际操作中,通常通过正则表达式在目标文本中抽取目标内容。

3、虽然正则表达式能够完成目标内容的抽取,但是正则表达式却有语法复杂、维护困难和容易出错等问题,因此单一地应用正则表达式作为文本抽取表达式,显然会限制文本抽取的效率和准确性。


技术实现思路

1、有鉴于此,本申请的目的在于提供一种文本抽取表达式的构建方法、装置及电子设备,用于解决现有技术中由于正则表达式具有语法复杂、维护困难和容易出错等应用局限,导致单一地应用正则表达式作为文本抽取表达式,会限制文本抽取的效率和准确性的技术问题。

2、第一方面,本申请提供了一种文本抽取表达式的构建方法,所述方法包括:

3、根据关键词在目标文本中的词频和/或所述关键词对应的层级数据表的数量,构建第一表达式或者第二表达式;

4、所述第一表达式用于从所述目标文本中抽取所述关键词对应的文本内容;所述第二表达式用于从所述目标文本中抽取与所述层级数据表中底层数据内容对应的文本内容;

5、根据语义模型以及所述第一表达式或者所述第二表达式,构建本体表达式。</p>

6、优选地,所述根据关键词在目标文本中的词频和/或所述关键词对应的层级数据表的数量,确定第一表达式或者第二表达式,包括:

7、确定所述词频与第一阈值之间的第一比值,以及确定所述层级数据表的数量与第二阈值之间的第二比值;

8、比较所述第一比值与所述第二比值之间的大小;

9、若所述第一比值大于所述第二比值,根据语义模型以及所述关键词,构建所述第一表达式;

10、若所述第一比值小于等于所述第二比值,根据语义模型以及所述关键词,构建所述第二表达式。

11、优选地,所述第一表达式包括:第一子表达式和第二子表达式;

12、以及,所述根据语义模型以及所述关键词,构建所述第一表达式,包括:

13、若需要在所述目标文本中抽取符合所述关键词表示的文本类型的文本内容,根据语义模型以及所述关键词,构建第一子表达式;

14、若需要在所述目标文本中抽取与所述关键词的语意义对应的文本内容,根据语义模型以及所述关键词,构建第二子表达式。

15、优选地,所述根据关键词在目标文本中的词频和/或所述关键词对应的层级数据表的数量,构建第一表达式或者第二表达式之前,所述方法还包括:

16、根据所述目标文本,构建分类树;所述分类树包括:至少一个非底层地接节点以及至少两个底层节点;

17、如果需要在所述目标文本中抽取与所述底层节点对应的文本内容,确定对应的所述底层节点为抽取内容;

18、根据语义模型以及所述抽取内容,确定至少一个所述关键词;所述关键词对应于所述抽取内容的含义。

19、优选地,所述根据语义模型以及所述第一表达式或者第二表达式,构建本体表达式之前,所述方法还包括:

20、如果需要在所述目标文本中抽取与所述非底层节点对应的文本内容,确定对应的所述非底层节点为抽取内容;

21、根据所述抽取内容,确定第三表达式;所述第三表达式用于抽取与所述抽取内容覆盖的所述底层节点内容对应的文本内容;

22、以及,所述根据语义模型以及所述第一表达式或者第二表达式,构建本体表达式,包括:

23、根据语义模型以及与所述抽取内容对应的所述第一表达式和/或所述第二表达式和/或所述第三表达式,构建所述本体表达式。

24、优选地,所述第一子表达式还包括:第一标志符;所述第二子表达式还包括:第二标志符;所述第二表达式还包括:第三标志符;所述第三表达式还包括:第四标志符;

25、以及,所述方法还包括:

26、确认抽取文本表达式中是否具有所述第一标志符和/或第二标志符和/或第三标志符和/或第四标志符;

27、如果具有,在预设表达式对应表中查找分别对应于所述第一子表达式、所述第二子表达式、所述第二表达式或者所述第三表达式的子正则表达式;

28、所述预设表达式对应表包括:第一表达式、第二表达式、第三表达式和第四表达式以及对应于所述第一子表达式、所述第二子表达式、所述第二表达式或者第三表达式的子正则表达式;

29、通过对应的所述子正则表达式对所述本体表达式中的所述第一子表达式、所述第二子表达式、所述第二表达式或者第三表达式进行替换,得到对应于所述本体表达式的所述正则表达式。

30、第二方面,本申请提供了一种文本抽取表达式的构建装置,所述装置包括:基础表达式构建模块和本体表达式构建模块;

31、所述基础表达式构建模块,用于根据关键词在目标文本中的词频和/或所述关键词对应的层级数据表的数量,构建第一表达式或者第二表达式;所述第一表达式用于从所述目标文本中抽取所述关键词对应的文本内容;所述第二表达式用于从所述目标文本中抽取与所述层级数据表中底层数据内容对应的文本内容;

32、所述本体表达式构建模块,用于根据语义模型以及所述第一表达式或者所述第二表达式,构建本体表达式。

33、优选地,所述基础表达式构建模块包括:计算单元和第一构建单元;

34、所述计算单元,用于确定所述词频与第一阈值之间的第一比值,以及确定所述层级数据表的数量与第二阈值之间的第二比值;

35、所述第一构建单元,用于比较所述第一比值与所述第二比值之间的大小;若所述第一比值大于所述第二比值,根据语义模型以及所述关键词,构建所述第一表达式;若所述第一比值小于等于所述第二比值,根据语义模型以及所述关键词,构建所述第二表达式。

36、第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的一种文本抽取表达式的构建方法。

37、第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令被处理器执行时实现上述的文本抽取表达式的构建方法。

38、本申请提供了一种文本抽取表达式的构建方法,根据目标文本中预先设置的关键词和/或关键词对应的层级数据表的数量,确定第一表达式或者第二表达式;根据语义模型以及第一表达式或者第二表达式,构建本体表达式;其中,第一表达式用于从目标文本中抽取关键词对应的文本内容;第二表达式用于从目标文本中抽取与层级数据表中底层数据内容对应的文本内容;综上可知,本申请中根据关键词构建的第一表达式,可以在根据关键词构建的本文档来自技高网...

【技术保护点】

1.一种文本抽取表达式的构建方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述根据关键词在目标文本中的词频和/或所述关键词对应的层级数据表的数量,确定第一表达式或者第二表达式,包括:

3.根据权利要求2所述的方法,其特征在于,所述第一表达式包括:第一子表达式和第二子表达式;

4.根据权利要求2~3任一项所述的方法,其特征在于,所述根据关键词在目标文本中的词频和/或所述关键词对应的层级数据表的数量,构建第一表达式或者第二表达式之前,所述方法还包括:

5.根据权利要求4所述的方法,其特征在于,所述根据语义模型以及所述第一表达式或者第二表达式,构建本体表达式之前,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,所述第一子表达式还包括:第一标志符;所述第二子表达式还包括:第二标志符;所述第二表达式还包括:第三标志符;所述第三表达式还包括:第四标志符;

7.一种文本抽取表达式的构建装置,其特征在于,所述装置包括:基础表达式构建模块和本体表达式构建模块;

8.根据权利要求7所述的装置,其特征在于,所述基础表达式构建模块包括:计算单元和第一构建单元;

9.一种电子设备,包括:存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1~3任一项所述的文本抽取表达式的构建方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令被处理器执行时实现上述权利要求1~3任一项所述的文本抽取表达式的构建方法。

...

【技术特征摘要】

1.一种文本抽取表达式的构建方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述根据关键词在目标文本中的词频和/或所述关键词对应的层级数据表的数量,确定第一表达式或者第二表达式,包括:

3.根据权利要求2所述的方法,其特征在于,所述第一表达式包括:第一子表达式和第二子表达式;

4.根据权利要求2~3任一项所述的方法,其特征在于,所述根据关键词在目标文本中的词频和/或所述关键词对应的层级数据表的数量,构建第一表达式或者第二表达式之前,所述方法还包括:

5.根据权利要求4所述的方法,其特征在于,所述根据语义模型以及所述第一表达式或者第二表达式,构建本体表达式之前,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,所述第一子表达式还包...

【专利技术属性】
技术研发人员:李健铨吴相博任宁胡加明
申请(专利权)人:鼎富智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1