System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本对齐方法、装置、电子设备和存储介质制造方法及图纸_技高网

文本对齐方法、装置、电子设备和存储介质制造方法及图纸

技术编号:41339971 阅读:4 留言:0更新日期:2024-05-20 09:57
本发明专利技术提供一种文本对齐方法、装置、电子设备和存储介质,该方法包括:获取文本对,文本对包括第一文本和第二文本;对第一文本和第二文本分别进行分句,得到第一文本的第一句集和第二文本的第二句集,并将第一句集与所述第二句集进行句级配对,得到第一句集中各第一句子在第二句集中的配对句;基于各第一句子,以及各第一句子的配对句,对文本对进行文本对齐。本发明专利技术提供的方法、装置,通过预先对输入文本对进行句子级别的切分和对齐,然后实现句内的语义单元文本对齐,对齐效果更优,错误范围更小,实现了跨句对齐、句子乱序对齐的句级对齐,大大提升了进行文本对齐的准确性,进而提升了文本对齐在各自然语言处理领域的应用效果。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,尤其涉及一种文本对齐方法、装置、电子设备和存储介质


技术介绍

1、文本对齐任务是获取两个文本之间关联的核心任务,旨在将文本甲中的核心语义在文本乙中找到对应的语义信息,进行关联和记录,从而比较两个文本之间的内在联系。当前在自然语言处理相关领域的研究中,主要通过部分开源的文本对齐算法例如errant算法等,或单一文本对齐模型的文本对齐方法,依赖大规模的算力支撑实现文本对齐。

2、但是,基于现有的文本对齐算法例如errant算法,或者单一文本对齐模型的文本对齐方法,仅能处理单个句子的成分对齐,而长文本其语句复杂度高,导致对长文本之间进行文本对齐存在文本对齐错误率高,其文本对齐效果较差。


技术实现思路

1、本专利技术提供一种文本对齐方法、装置、电子设备和存储介质,用以解决现有技术中对长文本之间进行文本对齐存在文本对齐错误率高的缺陷。

2、本专利技术提供一种文本对齐方法,包括:

3、获取文本对,所述文本对包括第一文本和第二文本;

4、对所述第一文本和所述第二文本分别进行分句,得到所述第一文本的第一句集和所述第二文本的第二句集,并将所述第一句集与所述第二句集进行句级配对,得到所述第一句集中各第一句子在所述第二句集中的配对句;

5、基于所述各第一句子,以及所述各第一句子的配对句,对所述文本对进行文本对齐。

6、根据本专利技术提供的一种文本对齐方法,所述对所述第一文本和所述第二文本分别进行分句,包括:

7、分别提取所述第一文本和所述第二文本中各分词的分词语义特征,基于所述分词语义特征分别对所述第一文本和所述第二文本进行分句。

8、根据本专利技术提供的一种文本对齐方法,所述基于所述分词语义特征对所述第一文本和所述第二文本进行分句,包括:

9、基于所述分词语义特征,对所述各分词进行句首标记;

10、基于所述各分词的句首标记,对所述第一文本和所述第二文本进行分句。

11、根据本专利技术提供的一种文本对齐方法,所述基于所述各第一句子,以及所述各第一句子的配对句,对所述文本对进行文本对齐,包括:

12、基于所述各第一句子中各第一分词的第一分词属性,以及各配对句中各第二分词的第二分词属性,确定所述各第一句子中各第一分词在所述各配对句中的配对分词;

13、基于所述各第一分词,以及与所述各第一分词对应的各配对分词,对所述文本对进行文本对齐;

14、所述分词属性包含分词词性、分词词根、分词位置中的至少一种。

15、根据本专利技术提供的一种文本对齐方法,所述确定所述各第一句子中各第一分词在所述各配对句中的配对分词,包括:

16、基于所述各第一分词的第一分词属性,以及所述配对分词的第二分词属性,得到所述各第一分词和所述配对分词之间的分词属性损失,以及确定所述各第一分词和所述配对分词之间的编辑距离;

17、基于所述各第一分词和所述配对分词之间的分词属性损失和编辑距离,确定所述各第一句子中各第一分词在所述各配对句中的配对分词;

18、所述分词属性损失包含词性损失、分词位置损失、词根损失中的至少一种。

19、根据本专利技术提供的一种文本对齐方法,所述将所述第一句集与所述第二句集进行句级配对,得到所述第一句集中各第一句子在所述第二句集中的配对句,包括:

20、分别提取所述第一句集中的各第一句子与所述第二句集中各第二句子的句级语义特征;

21、基于所述各第一句子与所述各第二句子的句级语义特征,得到所述各第一句子分别与所述各第二句子的语义配对概率;

22、基于所述各第一句子的语义配对概率,得到所述各第一句子在所述第二句集中的配对句。

23、根据本专利技术提供的一种文本对齐方法,所述对所述第一文本和所述第二文本分别进行分句,之前还包括:

24、对所述第一文本和所述第二文本进行字符修正和/或格式修正,得到修正文本;

25、对所述修正文本进行字符集转换,得到用于分句的所述第一文本和所述第二文本。

26、本专利技术还提供一种文本对齐装置,包括:

27、获取单元,获取文本对,所述文本对包括第一文本和第二文本;

28、句级配对单元,对所述第一文本和所述第二文本分别进行分句,得到所述第一文本的第一句集和所述第二文本的第二句集,并将所述第一句集与所述第二句集进行句级配对,得到所述第一句集中各第一句子在所述第二句集中的配对句;

29、对齐单元,基于所述各第一句子,以及所述各第一句子的配对句,对所述文本对进行文本对齐。

30、本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述文本对齐方法。

31、本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述文本对齐方法。

32、本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述文本对齐方法。

33、本专利技术提供的文本对齐方法、装置、电子设备和存储介质,通过预先对输入文本对进行句子级别的切分和对齐,然后实现句内的语义单元文本对齐,对齐效果更优,错误范围更小。实现了跨句对齐、句子乱序对齐的句级对齐,大大提升了进行文本对齐的准确性,进而提升了文本对齐在各自然语言处理领域的应用效果。

本文档来自技高网...

【技术保护点】

1.一种文本对齐方法,其特征在于,包括:

2.根据权利要求1所述的文本对齐方法,其特征在于,所述对所述第一文本和所述第二文本分别进行分句,包括:

3.根据权利要求2所述的文本对齐方法,其特征在于,所述基于所述分词语义特征对所述第一文本和所述第二文本进行分句,包括:

4.根据权利要求1所述的文本对齐方法,其特征在于,所述基于所述各第一句子,以及所述各第一句子的配对句,对所述文本对进行文本对齐,包括:

5.根据权利要求4所述的文本对齐方法,其特征在于,所述确定所述各第一句子中各第一分词在所述各配对句中的配对分词,包括:

6.根据权利要求1至5中任一项所述的文本对齐方法,其特征在于,所述将所述第一句集与所述第二句集进行句级配对,得到所述第一句集中各第一句子在所述第二句集中的配对句,包括:

7.根据权利要求1至5中任一项所述的文本对齐方法,其特征在于,所述对所述第一文本和所述第二文本分别进行分句,之前还包括:

8.一种文本对齐装置,其特征在于,包括:

9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述文本对齐方法。

10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述文本对齐方法。

...

【技术特征摘要】

1.一种文本对齐方法,其特征在于,包括:

2.根据权利要求1所述的文本对齐方法,其特征在于,所述对所述第一文本和所述第二文本分别进行分句,包括:

3.根据权利要求2所述的文本对齐方法,其特征在于,所述基于所述分词语义特征对所述第一文本和所述第二文本进行分句,包括:

4.根据权利要求1所述的文本对齐方法,其特征在于,所述基于所述各第一句子,以及所述各第一句子的配对句,对所述文本对进行文本对齐,包括:

5.根据权利要求4所述的文本对齐方法,其特征在于,所述确定所述各第一句子中各第一分词在所述各配对句中的配对分词,包括:

6.根据权利要求1至5中任一项所述的文本对齐方法,其特征在...

【专利技术属性】
技术研发人员:颜伟汪洋王士进盛志超李宝善李荣真
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1