文本补全方法以及电子设备、存储装置制造方法及图纸

技术编号:27844334 阅读:54 留言:0更新日期:2021-03-30 12:44
本申请公开了一种文本补全方法以及电子设备、存储装置,其中文本补全方法包括:获取待补全文本;其中,待补全文本包括至少一个缺失位置;确定待补全文本所缺失内容的来源情况;其中,来源情况包括以下任意一者:来源未知、源自第一文本库、源自涉及预设知识领域的第二文本库;采用与来源情况匹配的文本预测方式对待补全文本进行补全预测,得到缺失位置的至少一个候选词语;利用各个缺失位置的候选词语,得到待补全文本的完整文本。上述方案,能够提高文本补全的效率并降低文本补全的成本。文本补全的效率并降低文本补全的成本。文本补全的效率并降低文本补全的成本。

【技术实现步骤摘要】
文本补全方法以及电子设备、存储装置


[0001]本申请涉及自然语言处理
,特别是涉及一种文本补全方法以及电子设备、存储装置。

技术介绍

[0002]随着信息技术的发展,通过有线/无线等各种网络传输文本已经成为人们日常生活、工作中沟通、交流的主要手段之一。例如,通过手机、平板电脑与朋友、同事发送短信、即时通讯消息等文本消息。
[0003]然而,文本在发送、保存、显示等环节,可能会由于各种原因导致其部分内容缺失。此外,缺失内容有可能是整个文本的核心。如此种种均会对文本的可读性和可用性产生不利影响。目前,对于缺失内容,通常采用人工补全的方式来恢复缺失内容,效率低下且成本较高。有鉴于此,如何提高文本补全的效率并降低文本补全的成本成为极具研究价值的课题。

技术实现思路

[0004]本申请主要解决的技术问题文本是提供一种文本补全方法以及电子设备、存储装置,能够提高文本补全的效率并降低文本补全的成本。
[0005]为了解决上述问题文本,本申请第一方面提供了一种文本补全方法,包括:获取待补全文本;其中,待补全文本包括至少一本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本补全方法,其特征在于,包括:获取待补全文本;其中,所述待补全文本包括至少一个缺失位置;确定所述待补全文本所缺失内容的来源情况;其中,所述来源情况包括以下任意一者:来源未知、源自第一文本库、源自涉及预设知识领域的第二文本库;采用与所述来源情况匹配的文本预测方式对所述待补全文本进行补全预测,得到所述缺失位置的至少一个候选词语;利用各个所述缺失位置的所述候选词语,得到所述待补全文本的完整文本。2.根据权利要求1所述的方法,其特征在于,所述利用各个所述缺失位置的所述候选词语,得到所述待补全文本的完整文本,包括:在各个所述缺失位置补入一个对应的候选词语,得到所述待补全文本的若干候选文本;针对每一所述候选文本,将所述候选文本中的词语反向排序,得到所述候选文本的反向文本,并基于所述候选文本的第一分值和所述反向文本的第二分值,得到所述候选文本的最终分值;基于所述若干候选文本的最终分值,选择一个所述候选文本作为所述待补全文本的完整文本。3.根据权利要求2所述的方法,其特征在于,所述将所述候选文本中的词语反向排序,得到所述候选文本的反向文本,包括:对所述候选文本进行分词及词性标注处理,得到标注有词性类别的若干词语,并将所述词性类别为预设类别的词语逐字切分;将切分后的所述若干词语反向排序,得到所述候选文本的反向文本。4.根据权利要求2所述的方法,其特征在于,所述最终分值是利用第一权值、第二权值分别对所述第一分值、第二分值加权得到的,且所述第一权值不小于所述第二权值;和/或,所述第一分值是利用第一打分网络对所述候选文本处理得到的,所述第二分值是利用第二打分网络对所述反向文本处理得到的。5.根据权利要求1所述的方法,其特征在于,在所述来源情况包括来源未知的情况下,所述补全预测是利用第一预测网络执行的,在所述来源情况包括源自第一文本库的情况下,所述补全预测是利用第二预测网络执行的,在所述来源情况包括源自涉及预设知识领域的第二文本库的情况下,所述补全预测是利用第三预测网络执行的;其中,所述第一预测网络、所述第二预测网络、所述第三预测网络分别是采用不同的训练方式利用样本文本对预设神经网络训练得到的。6.根据权利要求5所述的方法,其特征在于,所述样本文本的获取步骤包括:对原始文本进行分词及词性标注,得到标注有词性类别的若干词语;将所述词性类别为预设类别的词语逐字切分,并在切分后的词语和未切分的词语中,选择预设比例的词语进行缺省;将缺省后的原始文本作为所述样本文本,并将缺省的词语所在位置作为所述样本文本的样本缺失位置。7.根据权利要求1所述的方法,其特征在于,在所述来源情况包括来源未知的情况下,所述采用与所述来源情况匹配的文本预测方式对所述待补全文本进行补全预测,得到所述
缺失位置的至少一个候选词语,包括:在所述待补全文本的各个所述缺失位置处,分别补入预设数值个缺省符,得到待处理文本;针对每一所述缺失位置,对所述待处理文本进行若干次预测,得到在预测次数对应序位处的缺省符的预测文字,并基于所述若干次预测的预...

【专利技术属性】
技术研发人员:崔一鸣马文涛陈致鹏王士进胡国平刘挺
申请(专利权)人:河北省讯飞人工智能研究院科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1