文本补全方法以及电子设备、存储装置制造方法及图纸

技术编号:29402751 阅读:32 留言:0更新日期:2021-07-23 22:40
本申请公开了一种文本补全方法以及电子设备、存储装置,其中文本补全方法包括:获取待补全文本,并确定待补全文本的缺失内容所源自的文本库;其中,待补全文本包括至少一个缺失位置;利用文本库对待补全文本进行补全预测,得到缺失位置的至少一个候选词语;利用各个缺失位置的候选词语,得到待补全文本的完整文本。上述方案,能够提高文本补全的效率并降低文本补全的成本。

【技术实现步骤摘要】
文本补全方法以及电子设备、存储装置
本申请涉及自然语言处理
,特别是涉及一种文本补全方法以及电子设备、存储装置。
技术介绍
随着信息技术的发展,通过有线/无线等各种网络传输文本已经成为人们日常生活、工作中沟通、交流的主要手段之一。例如,通过手机、平板电脑与朋友、同事发送短信、即时通讯消息等文本消息。然而,文本在发送、保存、显示等环节,可能会由于各种原因导致其部分内容缺失。此外,缺失内容有可能是整个文本的核心。如此种种均会对文本的可读性和可用性产生不利影响。目前,对于缺失内容,通常采用人工补全的方式来恢复缺失内容,效率低下且成本较高。有鉴于此,如何提高文本补全的效率并降低文本补全的成本成为极具研究价值的课题。
技术实现思路
本申请主要解决的技术问题文本是提供一种文本补全方法以及电子设备、存储装置,能够提高文本补全的效率并降低文本补全的成本。为了解决上述问题文本,本申请第一方面提供了一种文本补全方法,包括:获取待补全文本,并确定待补全文本的缺失内容所源自的文本库;其中,待补全文本包括至少一个缺失位置;利用文本文档来自技高网...

【技术保护点】
1.一种文本补全方法,其特征在于,包括:/n获取待补全文本,并确定所述待补全文本的缺失内容所源自的文本库;其中,所述待补全文本包括至少一个缺失位置;/n利用所述文本库对所述待补全文本进行补全预测,得到所述缺失位置的至少一个候选词语;/n利用各个所述缺失位置的所述候选词语,得到所述待补全文本的完整文本。/n

【技术特征摘要】
1.一种文本补全方法,其特征在于,包括:
获取待补全文本,并确定所述待补全文本的缺失内容所源自的文本库;其中,所述待补全文本包括至少一个缺失位置;
利用所述文本库对所述待补全文本进行补全预测,得到所述缺失位置的至少一个候选词语;
利用各个所述缺失位置的所述候选词语,得到所述待补全文本的完整文本。


2.根据权利要求1所述的方法,其特征在于,所述文本库包含至少一个参考文本,且所述参考文本包含至少一个参考词语;所述利用所述文本库对所述待补全文本进行补全预测,得到所述缺失位置的至少一个候选词语,包括:
对所述待补全文本进行第一语义抽取,得到各个所述缺失位置的个体语义表示;
针对每一所述缺失位置,利用所述缺失位置的个体语义表示和各个所述参考词语的词语语义表示,得到所述缺失位置的至少一个候选词语。


3.根据权利要求2所述的方法,其特征在于,在所述针对每一所述缺失位置,利用所述缺失位置的个体语义表示和各个所述参考词语的词语语义表示,得到所述缺失位置的至少一个候选词语之前,所述方法还包括:
分别对所述至少一个参考文本进行分词及词性标注,得到标注有词性类别的若干词语;
将所述词性类别为预设类别的词语逐字切分,并利用切分后的词语和未切分的词语,得到若干参考词语;
分别对所述若干参考词语进行第二语义抽取,得到所述参考词语的词语语义表示。


4.根据权利要求3所述的方法,其特征在于,所述利用切分后的词语和未切分的词语,得到若干参考词语,包括以下至少一者:
在切分后的词语和未切分的词语中,筛选出现频率高于预设频率的词语,得到所述若干参考词语;
在切分后的词语和未切分的词语中,剔除词性类别满足预设剔除条件的词语,得到所述若干参考词语。


5.根据权利要求2所述的方法,其特征在于,所述对所述待补全文本进行第一语义抽取,得到各个所述缺失位置的个体语义表示,包括:
在所述待补全文本的各个所述缺失位置处,分别补入一个缺省符,得到待处理文本;
对所述待处理文本进...

【专利技术属性】
技术研发人员:崔一鸣马文涛陈致鹏王士进胡国平刘挺
申请(专利权)人:中科讯飞互联北京信息科技有限公司河北省讯飞人工智能研究院科大讯飞股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1