System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 自然语言处理方法和装置制造方法及图纸_技高网

自然语言处理方法和装置制造方法及图纸

技术编号:41220403 阅读:2 留言:0更新日期:2024-05-09 23:40
本发明专利技术提供了自然语言处理方法和装置,包括:获取语料信息,语料信息中包括待抽取信息;将语料信息中的待替换字符串通过预设表格进行替换,得到替换后的语料信息;若待抽取信息为非连续信息段,则将替换后的语料信息依次进行一次抽取和二次处理后,得到第一抽取结果;若待抽取信息为连续信息段,则将替换后的语料信息按照结构化信息抽取算法进行抽取,得到第二抽取结果;采用多层次分析的方式对语料信息进行分析,提高准确率。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,尤其是涉及自然语言处理方法和装置


技术介绍

1、目前,在自然语言处理领域,规则建模以其建模成本低,准确率高,可做冷启动,可解释性强等优点,成为一种重要的自然语言处理方式。

2、通常,采用正则表达式进行语料抽取,但是抽取的准确性较低。例如,若原始语料是ocr语料,里面有很多符号错误,则基于正则表达式抽取语料,将无法获得准确的结果。


技术实现思路

1、有鉴于此,本专利技术的目的在于提供自然语言处理方法和装置,采用多层次分析的方式对语料信息进行分析,提高准确率。

2、第一方面,本专利技术实施例提供了自然语言处理方法,所述方法包括:

3、获取语料信息,所述语料信息中包括待抽取信息;

4、将所述语料信息中的待替换字符串通过预设表格进行替换,得到替换后的语料信息;

5、若所述待抽取信息为非连续信息段,则将所述替换后的语料信息依次进行一次抽取和二次处理后,得到第一抽取结果;

6、若所述待抽取信息为连续信息段,则将所述替换后的语料信息按照结构化信息抽取算法进行抽取,得到第二抽取结果。

7、进一步的,将所述替换后的语料信息按照结构化信息抽取算法进行抽取,得到第二抽取结果,包括:

8、定义开始位置上的本体,再定义中间位置或结尾位置上的本体;

9、从所述开始位置处开始向后遍历,如果遍历到的本体属于所述中间位置的本体,并且所述开始位置的本体和所述中间位置的本体之间的距离不超过预设长度,则所述中间位置的本体属于连续信息段,其中,所述连续信息段包括多个信息项;

10、根据设置字段的抽取表达式对所述替换后的语料信息进行抽取,得到多个节点的抽取结果;

11、判断每个所述节点的抽取结果是否属于所述连续信息段中包括的字段信息;

12、如果是,则将所述节点的抽取结果作为备选分析结果;

13、判断所述备选分析结果匹配到的所述替换后的语料信息的位置是否满足预设条件;其中,所述预设条件为所述位置对应的信息项之间间隔的最大距离为1;

14、如果是,则输出所述备选分析结果,并将所述备选分析结果作为所述第二抽取结果。

15、进一步的,将所述替换后的语料信息依次进行一次抽取和二次处理后,得到第一抽取结果,包括:

16、将所述替换后的语料信息通过预设的第一抽取表达式进行一次抽取,得到初次抽取结果;所述第一抽取表达式中包括正则表达式;

17、将所述初次抽取结果通过预设的第二抽取表达式进行二次处理后,得到所述第一抽取结果;所述第二抽取表达式中包括抽取类型算子。

18、进一步的,所述抽取类型算子为1算子,将所述初次抽取结果通过预设的第二抽取表达式进行二次处理后,得到所述第一抽取结果,包括:

19、将所述初次抽取结果作为第一作用域;

20、将所述第一作用域按照头部重叠匹配至末尾的方式进行抽取,得到第一作用域结果;

21、判断是否有下一组作用域结果;

22、如果否,则将所述第一作用域结果作为所述第一抽取结果并返回;

23、如果是,则判断所述第一作用域结果下是否有头部重叠匹配项;

24、如果是,则使用所述头部重叠匹配项到所述第一作用域结果末尾的全部字符串作为第二作用域结果,重复执行以上过程,直至每组作用域均被遍历后得到所述第一抽取结果。

25、进一步的,所述抽取类型算子为2算子,将所述初次抽取结果通过预设的第二抽取表达式进行二次处理后,得到所述第一抽取结果,包括:

26、将所述初次抽取结果作为第一作用域;

27、将所述第一作用域按照尾部重叠匹配至头部的方式进行抽取,得到第三作用域结果;

28、判断是否有下一组作用域结果;

29、如果否,则将所述第三作用域结果作为所述第一抽取结果并返回;

30、如果是,则判断所述第三作用域结果下是否有尾部重叠匹配项;

31、如果是,则使用所述尾部重叠匹配项到所述第三作用域结果头部的全部字符串作为第四作用域结果,重复执行以上过程,直至每组作用域均被遍历后得到所述第一抽取结果。

32、进一步的,所述抽取类型算子为3算子,将所述初次抽取结果通过预设的第二抽取表达式进行二次处理后,得到所述第一抽取结果,包括:

33、将所述初次抽取结果作为第一作用域;

34、将所述第一作用域按照末尾匹配项至尾部的方式进行抽取,得到第五作用域结果;

35、判断是否有下一组作用域结果;

36、如果否,则将所述第五作用域结果作为所述第一抽取结果并返回;

37、如果是,则获取最后一个匹配项;

38、将所述最后一个匹配项到所述第五作用域结果的末尾作为第六作用域作果,重复执行以上过程,直至每组作用域均被遍历后得到所述第一抽取结果。

39、进一步的,所述抽取类型算子为4算子,将所述初次抽取结果通过预设的第二抽取表达式进行二次处理后,得到所述第一抽取结果,包括:

40、将所述初次抽取结果作为第一作用域;

41、将所述第一作用域按照首位匹配项至头部进行抽取,得到第七作用域结果;

42、判断是否有下一组作用域结果;

43、如果否,则将所述第七作用域结果作为所述第一抽取结果并返回;

44、如果是,则获取第一个匹配项;

45、将所述第一个匹配项开头到所述第七作用域结果的头部作为第八作用域结果,重复执行以上过程,直至每组作用域均被遍历后得到所述第一抽取结果。

46、进一步的,所述抽取类型算子为0算子,将所述初次抽取结果通过预设的第二抽取表达式进行二次处理后,得到所述第一抽取结果,包括:

47、将所述初次抽取结果作为第一作用域;

48、将所述第一作用域进行绝对包含抽取,得到第九作用域结果,重复执行以上过程,直至每组作用域均被遍历后得到所述第一抽取结果。

49、第二方面,本专利技术实施例提供了自然语言处理装置,所述装置包括:

50、获取模块,用于获取语料信息,所述语料信息中包括待抽取信息;

51、替换模块,用于将所述语料信息中的待替换字符串通过预设表格进行替换,得到替换后的语料信息;

52、第一抽取模块,用于在所述待抽取信息为非连续信息段的情况下,将所述替换后的语料信息依次进行一次抽取和二次处理后,得到第一抽取结果;第二抽取模块,用于在所述待抽取信息为连续信息段的情况下,将所述替换后的语料信息按照结构化信息抽取算法进行抽取,得到第二抽取结果。

53、第三方面,本专利技术实施例提供了电子设备,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的方法。

54、本专利技术实施例提供了自然语言处理方法本文档来自技高网...

【技术保护点】

1.一种自然语言处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的自然语言处理方法,其特征在于,将所述替换后的语料信息按照结构化信息抽取算法进行抽取,得到第二抽取结果,包括:

3.根据权利要求1所述的自然语言处理方法,其特征在于,将所述替换后的语料信息依次进行一次抽取和二次处理后,得到第一抽取结果,包括:

4.根据权利要求3所述的自然语言处理方法,其特征在于,所述抽取类型算子为1算子,将所述初次抽取结果通过预设的第二抽取表达式进行二次处理后,得到所述第一抽取结果,包括:

5.根据权利要求3所述的自然语言处理方法,其特征在于,所述抽取类型算子为2算子,将所述初次抽取结果通过预设的第二抽取表达式进行二次处理后,得到所述第一抽取结果,包括:

6.根据权利要求3所述的自然语言处理方法,其特征在于,所述抽取类型算子为3算子,将所述初次抽取结果通过预设的第二抽取表达式进行二次处理后,得到所述第一抽取结果,包括:

7.根据权利要求3所述的自然语言处理方法,其特征在于,所述抽取类型算子为4算子,将所述初次抽取结果通过预设的第二抽取表达式进行二次处理后,得到所述第一抽取结果,包括:

8.根据权利要求3所述的自然语言处理方法,其特征在于,所述抽取类型算子为0算子,将所述初次抽取结果通过预设的第二抽取表达式进行二次处理后,得到所述第一抽取结果,包括:

9.一种自然语言处理装置,其特征在于,所述装置包括:

10.一种电子设备,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至8任一项所述的自然语言处理方法。

...

【技术特征摘要】

1.一种自然语言处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的自然语言处理方法,其特征在于,将所述替换后的语料信息按照结构化信息抽取算法进行抽取,得到第二抽取结果,包括:

3.根据权利要求1所述的自然语言处理方法,其特征在于,将所述替换后的语料信息依次进行一次抽取和二次处理后,得到第一抽取结果,包括:

4.根据权利要求3所述的自然语言处理方法,其特征在于,所述抽取类型算子为1算子,将所述初次抽取结果通过预设的第二抽取表达式进行二次处理后,得到所述第一抽取结果,包括:

5.根据权利要求3所述的自然语言处理方法,其特征在于,所述抽取类型算子为2算子,将所述初次抽取结果通过预设的第二抽取表达式进行二次处理后,得到所述第一抽取结果,包括:

6.根据权利要求3所述的自然语言处理方...

【专利技术属性】
技术研发人员:任宁吴相博李健铨胡加明
申请(专利权)人:鼎富智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1