一种数据处理方法和装置制造方法及图纸

技术编号：23558611 阅读：33 留言：0更新日期：2020-03-25 04:06

本发明专利技术提供了一种数据处理方法和装置，其中，该方法包括：获取文本和需要进行共指消解的词语；根据所述词语生成问题语句，并从所述文本中找出能够回答所述问题语句的字符作为所述词语的共指词；利用候选文本提取器将所述共指词提取出来，完成所述词语的共指消解。通过本发明专利技术实施例提供的数据处理方法和装置，能够以问答的方式从文本中找出词语的共指词，大大提高了共指消解的准确率。

A data processing method and device

全部详细技术资料下载

【技术实现步骤摘要】
一种数据处理方法和装置
本专利技术涉及计算机
，具体而言，涉及一种数据处理方法和装置。
技术介绍
目前，为了避免重复，习惯在文本中使用代词、称谓和缩略语来指代前面提到的词语。例如，在文本开始处会写“哈尔滨工业大学”，后面可能会说“哈工大”、“工大”等，还会提到“这所大学”、“她”等；这种现象称为共指现象。对于计算机进行自然语言处理来说，从文本中识别出具有共指现象的词语是非常困难的。计算机可以对文本进行共指消解，才可以从文本中识别出具有共指现象的词语。所谓共指消解，就是从文本中找到同一词语的所有指代词。相关技术中，共指消解方法往往是基于元组的相似性比较来获取结果。导致共指消解的准确率低。
技术实现思路
为解决上述问题，本专利技术实施例的目的在于提供一种数据处理方法和装置。第一方面，本专利技术实施例提供了一种数据处理方法，包括：获取文本和需要进行共指消解的词语；根据所述词语生成问题语句，并从所述文本中找出能够回答所述问题语句的字符作为所述词语的共指词；利用...

【技术保护点】
1.一种数据处理方法，其特征在于，包括：/n获取文本和需要进行共指消解的词语；/n根据所述词语生成问题语句，并从所述文本中找出能够回答所述问题语句的字符作为所述词语的共指词；/n利用候选文本提取器将所述共指词提取出来，完成所述词语的共指消解。/n

【技术特征摘要】
1.一种数据处理方法，其特征在于，包括：
获取文本和需要进行共指消解的词语；
根据所述词语生成问题语句，并从所述文本中找出能够回答所述问题语句的字符作为所述词语的共指词；
利用候选文本提取器将所述共指词提取出来，完成所述词语的共指消解。

2.根据权利要求1所述的方法，其特征在于，根据所述词语生成问题语句，并从所述文本中找出能够回答所述问题语句的字符作为所述词语的共指词，包括：
获取问题模板，将所述词语填写到问题模板中，生成与所述词语相关的问题语句；
将所述问题语句与所述文本中的字符进行拼接，得到拼接文本；
利用预训练模型BERT对所述拼接文本进行处理，得到所述拼接文本中各字符的向量表示；
从所述拼接文本中找出能够回答所述问题语句的字符作为所述词语的共指词。

3.根据权利要求2所述的方法，其特征在于，从所述拼接文本中找出能够回答所述问题语句的字符作为所述词语的共指词，包括：
利用机器阅读理解模型，对所述拼接文本中各字符的向量表示进行处理，从所述文本的各字符中找出能够回答所述问题语句的字符作为所述词语的共指词。

4.一种数据处理装置，其特征在于，包括：
获取模块，用于获取文本和需要进行共指消解的词语；
处理模块，用于根据所述词语生成问题语句，并从所述文本中找出能够回答所述问题语句的字符...

【专利技术属性】
技术研发人员：韩庆宏，
申请(专利权)人：北京香侬慧语科技有限责任公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人