基于阅读模型的文本处理方法、装置、设备及存储介质制造方法及图纸

技术编号:29134022 阅读:18 留言:0更新日期:2021-07-02 22:29
本发明专利技术涉及人工智能领域,公开了一种基于阅读模型的文本处理方法、装置、设备及存储介质,用于基于阅读模型生成目标文本,提高了生成文本的质量,降低了成本。基于阅读模型的文本处理方法包括:获取初始文本;对初始文本中的多个问题进行修正,生成第一中间文本;对初始文本中各个问题对应的上下文进行修正,生成第二中间文本;将第一中间文本和第二中间文本进行合并和过滤处理,生成过滤后的文本,并将过滤后的文本和初始文本合并,生成目标文本。此外,本发明专利技术还涉及区块链技术,目标文本可存储于区块链节点中。

【技术实现步骤摘要】
基于阅读模型的文本处理方法、装置、设备及存储介质
本专利技术涉及语义处理领域,尤其涉及一种基于阅读模型的文本处理方法、装置、设备及存储介质。
技术介绍
机器阅读理解技术在金融、医疗、教育等行业的信息检索、信息抽取、问答等任务中有广泛应用,该技术可细分为跨距式、单选、多选、生成、填空等子类。在现有的技术中,阅读理解模型在垂直领域有较丰富的实践场景,但在文本处理方面,却存在以下不足:中文开源数据集稀缺,目前学界经典的阅读理解数据集多为英文数据集,中文数据集集中在百度开源的DuReader,中文阅读理解大赛数据集CMRC2018,法律文书数据集CAIL等;中文数据集质量不高,CMRC2018数据规模小,数据清洗度低,问答模式单一,DuReader数据规模大但由于收集自百度知道、百度百科等网页问答内容,数据质量差,存在答非所问、长答案、冗余回答等问题,CAIL等领域数据集则难以通用;中文数据集问答种类单一,目前的中文数据集往往沿用经典阅读理解的问答设计,即提出一个能在给定上下文中找到答案的问题,对于无答案文本的构建,存在完全缺失或数量极少的问题,导致训练模型在处理不包含答案的段落时出现错误。
技术实现思路
本专利技术提供了一种基于阅读模型的文本处理方法、装置、设备及存储介质,用于基于阅读模型生成目标文本,提高了生成文本的质量,降低了成本。本专利技术第一方面提供了一种基于阅读模型的文本处理方法,包括:获取初始文本,所述初始文本包括多个问题、每个问题对应的答案和每个问题对应的上下文;调用预置的阅读模型对所述初始文本中的多个问题进行分析和修正,生成第一中间文本,所述预置的阅读模型包括预置的关键词识别模型、预置的词性标注模型和预置的实体识别模型,所述第一中间文本包括修正后的多个问题以及每个问题对应的上下文;调用预置的文本分析模型对所述初始文本中各个问题对应的上下文进行分析并对所述初始文本中各个问题对应的上下文进行修正,生成第二中间文本,所述第二中间文本包括多个问题以及每个问题对应的修正后的上下文;将所述第一中间文本和所述第二中间文本进行合并和过滤处理,生成过滤后的文本,并将所述过滤后的文本和所述初始文本合并,生成目标文本。可选的,在本专利技术第一方面的第一种实现方式中,所述调用预置的阅读模型对所述初始文本中的多个问题进行分析和修正,生成第一中间文本,所述预置的阅读模型包括预置的关键词识别模型、预置的词性标注模型和预置的实体识别模型,所述第一中间文本包括修正后的多个问题以及每个问题对应的上下文包括:基于预置的关键词识别模型和正则表达式识别所述初始文本中的每个问题是否存在预置的关键词,若存在,则定位每个问题对应的目标关键词的位置,生成第一识别结果,所述第一识别结果包括定位到的多个目标关键词,每个目标关键词的位置以及所述每个目标关键词对应的上下文内容;判断所述多个目标关键词的下文是否符合预置的条件,若符合,则进行肯定或否定问题替换,生成第一中间文本;或调用预置的词性标注模型对所述初始文本中的每个问题进行词性标注,得到多个词性标注结果,识别每个词性标注结果中的核心词,所述核心词包括名词、动词和形容词;根据预置的反义词词典和预置的反义词替换规则将所述每个词性标注结果中的核心词分别替换为对应的反义词,生成第一中间文本;或调用预置的实体识别模型对所述初始文本中的每个问题进行实体名称识别,所述实体名称包括机构、地址、地点、人名和日期;根据预置的实体名称库和预置的实体名称替换规则对每个问题中识别到的实体名称进行替换,生成第一中间文本,所述预置的实体名称库包括地点数据库、组织结构名称库和姓氏数据库。可选的,在本专利技术第一方面的第二种实现方式中,所述根据预置的实体名称库和预置的实体名称替换规则对每个问题中识别到的实体名称进行替换,生成第一中间文本,所述预置的实体名称库包括地点数据库、组织结构名称库和姓氏数据库包括:当实体名称替换对象为地点时,从地点数据库中随机选择同一类别的地点进行替换,生成第一中间文本;当实体名称替换对象为地址时,通过预置的随机数生成算法得到一组随机数,并对所述实体名称替换对象中的街道号数字进行替换,生成第一中间文本;当实体名称替换对象为机构时,调用预置的检索模型从组织机构名称库中查找预置个数的多个机构名称,过滤与所述实体名称替换对象完全匹配的名称,在剩余机构名称中随机选择一个机构名称进行替换,生成第一中间文本;当实体名称替换对象为日期时,调用预置的开源库并按照标准日期格式对所述实体名称替换对象进行标准化处理,基于标准日期格式随机生成新的日期,将所述新的日期按照原始格式修改并替换,所述原始格式为所述实体名称替换对象标准化处理之前的初始格式,生成第一中间文本;当实体名称替换对象为人名时,基于预置的姓氏提取规则提取出所述实体名称替换对象中的姓氏,并从姓氏数据库中随机选择一个姓氏进行替换,生成第一中间文本。可选的,在本专利技术第一方面的第三种实现方式中,所述调用预置的文本分析模型对所述初始文本中各个问题对应的上下文进行分析并对所述初始文本中各个问题对应的上下文进行修正,生成第二中间文本,所述第二中间文本包括多个问题以及每个问题对应的修正后的上下文包括:调用预置的文本分析模型对所述初始文本中各个问题对应的上下文进行分析,得到上下文的句子数量,所述上下文的句子数量为每个问题对应的上文句子数量和下文句子数量的总和;当所述上下文的句子数量小于等于第一预设值时,调用预置的词性标注模型识别每一个问题对应答案的句法构成,生成第二中间文本;当所述上下文的句子数量大于第一预设值且小于等于第二预设值时,删除答案所在的句子,生成第二中间文本;当所述上下文的句子数量大于第二预设值时,调用答案所在段落的前一段或后一段对所述答案所在段落进行替换,生成第二中间文本。可选的,在本专利技术第一方面的第四种实现方式中,所述当所述上下文的句子数量小于等于第一预设值时,调用预置的词性标注模型识别每一个问题对应答案的句法构成,生成第二中间文本包括:当所述上下文的句子数量小于等于第一预设值时,调用预置的词性标注模型判断每一个问题对应的答案是否为句子的主干部分;若目标答案属于句子主干部分,则返回处理失败指令并删除所述目标答案及所述目标答案对应的上下文,所述目标答案为多个问题对应的答案中的任意一个答案;若所述目标答案不属于句子主干部分,则删去所述目标答案,得到第二中间文本。可选的,在本专利技术第一方面的第五种实现方式中,所述将所述第一中间文本和所述第二中间文本进行合并和过滤处理,生成过滤后的文本,并将所述过滤后的文本和所述初始文本合并,生成目标文本包括:按照第一预置比例将所述第一中间文本和所述第二中间文本进行合并,并调用预置的阅读理解模型对合并后的文本进行过滤和筛选,生成过滤后的文本;按照第二预置比例将所述过滤后的文本和所述初始文本进行合并,生成目标文本。可选的,在本专利技术第一方面的第六种实现方式中,在所述生成目标文本之后,所述方法还包括:基于所述目标文本训练预置的阅读理解模型,生成新的阅读理解模型。本专利技术第二方面提供了一种基于阅读模型的文本处理装置,包括:获取本文档来自技高网...

【技术保护点】
1.一种基于阅读模型的文本处理方法,其特征在于,所述基于阅读模型的文本处理方法包括:/n获取初始文本,所述初始文本包括多个问题、每个问题对应的答案和每个问题对应的上下文;/n调用预置的阅读模型对所述初始文本中的多个问题进行分析和修正,生成第一中间文本,所述预置的阅读模型包括预置的关键词识别模型、预置的词性标注模型和预置的实体识别模型,所述第一中间文本包括修正后的多个问题以及每个问题对应的上下文;/n调用预置的文本分析模型对所述初始文本中各个问题对应的上下文进行分析并对所述初始文本中各个问题对应的上下文进行修正,生成第二中间文本,所述第二中间文本包括多个问题以及每个问题对应的修正后的上下文;/n将所述第一中间文本和所述第二中间文本进行合并和过滤处理,生成过滤后的文本,并将所述过滤后的文本和所述初始文本合并,生成目标文本。/n

【技术特征摘要】
1.一种基于阅读模型的文本处理方法,其特征在于,所述基于阅读模型的文本处理方法包括:
获取初始文本,所述初始文本包括多个问题、每个问题对应的答案和每个问题对应的上下文;
调用预置的阅读模型对所述初始文本中的多个问题进行分析和修正,生成第一中间文本,所述预置的阅读模型包括预置的关键词识别模型、预置的词性标注模型和预置的实体识别模型,所述第一中间文本包括修正后的多个问题以及每个问题对应的上下文;
调用预置的文本分析模型对所述初始文本中各个问题对应的上下文进行分析并对所述初始文本中各个问题对应的上下文进行修正,生成第二中间文本,所述第二中间文本包括多个问题以及每个问题对应的修正后的上下文;
将所述第一中间文本和所述第二中间文本进行合并和过滤处理,生成过滤后的文本,并将所述过滤后的文本和所述初始文本合并,生成目标文本。


2.根据权利要求1所述的基于阅读模型的文本处理方法,其特征在于,所述调用预置的阅读模型对所述初始文本中的多个问题进行分析和修正,生成第一中间文本,所述预置的阅读模型包括预置的关键词识别模型、预置的词性标注模型和预置的实体识别模型,所述第一中间文本包括修正后的多个问题以及每个问题对应的上下文包括:
基于预置的关键词识别模型和正则表达式识别所述初始文本中的每个问题是否存在预置的关键词,若存在,则定位每个问题对应的目标关键词的位置,生成第一识别结果,所述第一识别结果包括定位到的多个目标关键词,每个目标关键词的位置以及所述每个目标关键词对应的上下文内容;
判断所述多个目标关键词的下文是否符合预置的条件,若符合,则进行肯定或否定问题替换,生成第一中间文本;
或调用预置的词性标注模型对所述初始文本中的每个问题进行词性标注,得到多个词性标注结果,识别每个词性标注结果中的核心词,所述核心词包括名词、动词和形容词;
根据预置的反义词词典和预置的反义词替换规则将所述每个词性标注结果中的核心词分别替换为对应的反义词,生成第一中间文本;
或调用预置的实体识别模型对所述初始文本中的每个问题进行实体名称识别,所述实体名称包括机构、地址、地点、人名和日期;
根据预置的实体名称库和预置的实体名称替换规则对每个问题中识别到的实体名称进行替换,生成第一中间文本,所述预置的实体名称库包括地点数据库、组织结构名称库和姓氏数据库。


3.根据权利要求2所述的基于阅读模型的文本处理方法,其特征在于,所述根据预置的实体名称库和预置的实体名称替换规则对每个问题中识别到的实体名称进行替换,生成第一中间文本,所述预置的实体名称库包括地点数据库、组织结构名称库和姓氏数据库包括:
当实体名称替换对象为地点时,从地点数据库中随机选择同一类别的地点进行替换,生成第一中间文本;
当实体名称替换对象为地址时,通过预置的随机数生成算法得到一组随机数,并对所述实体名称替换对象中的街道号数字进行替换,生成第一中间文本;
当实体名称替换对象为机构时,调用预置的检索模型从组织机构名称库中查找预置个数的多个机构名称,过滤与所述实体名称替换对象完全匹配的名称,在剩余机构名称中随机选择一个机构名称进行替换,生成第一中间文本;
当实体名称替换对象为日期时,调用预置的开源库并按照标准日期格式对所述实体名称替换对象进行标准化处理,基于标准日期格式随机生成新的日期,将所述新的日期按照原始格式修改并替换,所述原始格式为所述实体名称替换对象标准化处理之前的初始格式,生成第一中间文本;
当实体名称替换对象为人名时,基于预置的姓氏提取规则提取出所述实体名称替换对象中的姓氏,并从姓氏数据库中随机选择一个姓氏进行替换,生成第一中间文本。


4.根据权利要求1所述的基于阅读模型的文本处理方法,其特征在于,所述调用预置的文本分析模型对所...

【专利技术属性】
技术研发人员:朱昱锦
申请(专利权)人:深圳壹账通智能科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1