文本处理的方法、装置及存储介质制造方法及图纸

技术编号:37131531 阅读:10 留言:0更新日期:2023-04-06 21:29
本公开涉及一种文本处理的方法、装置及存储介质,可以将待处理文本划分成多个子文本;从每个所述子文本中提取待定关键字文本;针对每个所述子文本,在确定其它子文本中包含当前子文本的待定关键字文本的情况下,将所述当前子文本的待定关键字文本作为所述当前子文本对应的关键字,所述其它子文本为所述多个子文本中除所述当前子文本之外的任意一个或多个子文本。子文本。子文本。

【技术实现步骤摘要】
文本处理的方法、装置及存储介质


[0001]本公开涉及自然语言处理领域,尤其涉及一种文本处理的方法、装置及存储介质。

技术介绍

[0002]自然语言处理(NLP,Natural Language Processing)是计算机科学领域与人工智能领域中的一个重要方向,利用自然语言处理技术可以对各种语料数据,例如语音数据、文本数据,进行处理,在进行文本处理时,可以提取文本中的关键字,这样可以基于提取的关键字实现观点提取、文本分类、问题回答、文本语义对比等。

技术实现思路

[0003]为克服相关技术中存在的问题,本公开提供一种文本处理的方法、装置及存储介质。
[0004]根据本公开实施例的第一方面,提供一种文本处理的方法,包括:将待处理文本划分成多个子文本;从每个所述子文本中提取待定关键字文本;针对每个所述子文本,在确定其它子文本中包含当前子文本的待定关键字文本的情况下,将所述当前子文本的待定关键字文本作为所述当前子文本对应的关键字,所述其它子文本为所述多个子文本中除所述当前子文本之外的任意一个或多个子文本。
[0005]可选地,所述从每个所述子文本中提取待定关键字文本包括:针对每个所述子文本,根据所述子文本的文本长度和初始文本框参数确定目标文本框参数;根据所述目标文本框参数确定所述子文本对应的文本框;通过所述文本框从所述子文本中提取所述待定关键字文本。
[0006]可选地,所述初始文本框参数包括所述文本框的初始长度、所述文本框的开始下标初值和所述文本框的结束下标初值;所述根据所述子文本的文本长度和初始文本框参数确定目标文本框参数包括:在所述结束下标初值小于所述子文本的文本长度的情况下,修改所述开始下标初值,得到第一开始下标,所述第一开始下标表征所述文本框内第一个字符在所述子文本中的位置;据所述第一开始下标和所述初始长度确定第一结束下标,所述第一结束下标表征所述文本框内最后一个字符在所述子文本中的位置;将所述第一开始下标和所述第一结束下标作为所述目标文本框参数;所述通过所述文本框从所述子文本中提取所述待定关键字文本包括:根据所述文本框的所述第一开始下标和所述第一结束下标从所述子文本中提取所述待定关键字文本。
[0007]可选地,在确定出所述目标文本框参数后,所述方法还包括:
[0008]若确定所述目标文本框参数满足预设参数更新条件,修改所述目标文本框参数得到新的目标文本框参数;根据所述新的目标文本框参数确定新的文本框;所述通过所述文本框从所述子文本中提取所述待定关键字文本包括:据所述新的文本框从所述子文本中提取新的待定关键字文本;
[0009]其中,所述预设参数更新条件包括以下条件中的一个或者多个:
[0010]所述第一开始下标位于预设排除下标列表中,所述预设排除下标列表用于记录排除文本中每个字符的下标,所述排除文本为已被确定为属于所述子文本的关键字的文本;
[0011]所述第一结束下标大于所述子文本的文本长度;
[0012]所述第一结束下标减去预设数值后位于所述预设排除下标列表中。
[0013]可选地,所述目标文本框参数还包括文本框长度;所述修改所述目标文本框参数得到新的目标文本框参数包括:在所述第一结束下标大于所述子文本的文本长度的情况下,修改所述文本框长度,得到新的文本框长度;重新获取所述开始下标初值和所述结束下标初值,并修改所述开始下标初值,得到新的第一开始下标;根据所述新的第一开始下标和所述新的文本框长度确定新的第一结束下标。
[0014]可选地,所述修改所述目标文本框参数得到新的目标文本框参数包括:所述第一结束下标小于所述子文本的文本长度的情况下,修改所述第一开始下标得到所述新的第一开始下标;根据所述新的第一开始下标和所述文本框长度确定所述新的第一结束下标。
[0015]可选地,所述方法还包括:针对每个所述待定关键字文本,遍历每个所述其它子文本,并判断每个被遍历的所述其它子文本中是否包含所述待定关键字文本;根据判断结果确定所述待定关键字文本对应的第一次数,所述第一次数等于所述其它子文本中目标子文本的数量,所述目标子文本为包含所述待定关键字文本的其它子文本;针对每个所述子文本,将所述子文本中的每个所述待定关键字文本分别对应的所述第一次数存储至第二预设文件,所述第二预设文件用于存储所述待处理文本对应的多个所述待定关键字文本,以及每个所述待定关键字文本分别对应的所述第一次数。
[0016]可选地,所述将所述当前子文本的待定关键字文本作为所述当前子文本对应的关键字后,所述方法还包括:
[0017]在确定第一预设文件中存储有所述关键字的情况下,修改所述第一预设文件中所述关键字对应的出现次数,所述第一预设文件用于存储所述待处理文本对应的至少一个关键字,以及每个所述关键字在所述待处理文本中的出现次数;
[0018]在确定所述第一预设文件中未存储有所述关键字的情况下,在所述第一预设文件中存储所述关键字,并设置所述关键字对应的出现次数为预设次数。
[0019]可选地,所述方法还包括:
[0020]针对所述第一预设文件中存储的每个关键字,从所述第一预设文件中读取所述关键字的出现次数,从所述第二预设文件中读取所述关键字对应的第二次数,所述第二次数为所述第二预设文件中指定文本对应的所述第一次数,所述指定文本为文本内容与所述关键字相同的待定关键字文本;根据所述出现次数和所述第二次数确定所述关键字的全因素评分,所述全因素评分用于表征所述关键字在所述待处理文本中的重要程度。
[0021]可选地,所述根据所述出现次数和所述第二次数确定所述关键字的全因素评分包括:根据所述出现次数和所述第二次数通过第一预设函数模型计算所述全因素评分。
[0022]可选地,在所述根据所述出现次数和所述第二次数确定所述关键字的全因素评分之前,所述方法还包括:
[0023]获取所述关键字的目标长度;根据所述出现次数和所述目标长度通过第二预设函数模型确定所述关键字的第一评分;根据所述第二次数和所述目标长度通过第三预设函数模型确定所述关键字的第二评分;所述根据所述出现次数和所述第二次数确定所述关键字
的全因素评分包括:根据所述第一评分和所述第二评分通过所述第一预设函数模型计算所述全因素评分。
[0024]可选地,所述将所述当前子文本的待定关键字文本作为所述当前子文本对应的关键字后,所述方法还包括:将所述第一开始下标和所述第一结束下标添加至预设关键字下标列表;并将所述文本框内每个字符的下标添加至预设排除下标列表。
[0025]可选地,在得到每个所述子文本分别对应的所述关键字后,所述方法还包括:获取初始化的分词器参数,所述分词器参数包括分词器开始下标、分词器结束下标、关键字开始下标以及关键字结束下标;针对每个所述子文本,根据所述子文本对应的关键字和所述分词器参数对所述子文本进行文本分词,得到分词结果。
[0026]可选地,所述根据所述子文本对应的关键字和所述分词器参数对所述子文本进行文本分词,得到分词结本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理的方法,其特征在于,包括:将待处理文本划分成多个子文本;从每个所述子文本中提取待定关键字文本;针对每个所述子文本,在确定其它子文本中包含当前子文本的待定关键字文本的情况下,将所述当前子文本的待定关键字文本作为所述当前子文本对应的关键字,所述其它子文本为所述多个子文本中除所述当前子文本之外的任意一个或多个子文本。2.根据权利要求1所述的方法,其特征在于,所述从每个所述子文本中提取待定关键字文本包括:针对每个所述子文本,根据所述子文本的文本长度和初始文本框参数确定目标文本框参数;根据所述目标文本框参数确定所述子文本对应的文本框;通过所述文本框从所述子文本中提取所述待定关键字文本。3.根据权利要求2所述的方法,其特征在于,所述初始文本框参数包括所述文本框的初始长度、所述文本框的开始下标初值和所述文本框的结束下标初值;所述根据所述子文本的文本长度和初始文本框参数确定目标文本框参数包括:在所述结束下标初值小于所述子文本的文本长度的情况下,修改所述开始下标初值,得到第一开始下标,所述第一开始下标表征所述文本框内第一个字符在所述子文本中的位置;根据所述第一开始下标和所述初始长度确定第一结束下标,所述第一结束下标表征所述文本框内最后一个字符在所述子文本中的位置;将所述第一开始下标和所述第一结束下标作为所述目标文本框参数;所述通过所述文本框从所述子文本中提取所述待定关键字文本包括:根据所述文本框的所述第一开始下标和所述第一结束下标从所述子文本中提取所述待定关键字文本。4.根据权利要求3所述的方法,其特征在于,在确定出所述目标文本框参数后,所述方法还包括:若确定所述目标文本框参数满足预设参数更新条件,修改所述目标文本框参数得到新的目标文本框参数;根据所述新的目标文本框参数确定新的文本框;所述通过所述文本框从所述子文本中提取所述待定关键字文本包括:根据所述新的文本框从所述子文本中提取新的待定关键字文本;其中,所述预设参数更新条件包括以下条件中的一个或者多个:所述第一开始下标位于预设排除下标列表中,所述预设排除下标列表用于记录排除文本中每个字符的下标,所述排除文本为已被确定为属于所述子文本的关键字的文本;所述第一结束下标大于所述子文本的文本长度;所述第一结束下标减去预设数值后位于所述预设排除下标列表中。5.根据权利要求4所述的方法,其特征在于,所述目标文本框参数还包括文本框长度;所述修改所述目标文本框参数得到新的目标文本框参数包括:在所述第一结束下标大于所述子文本的文本长度的情况下,修改所述文本框长度,得
到新的文本框长度;重新获取所述开始下标初值和所述结束下标初值,并修改所述开始下标初值,得到新的第一开始下标;根据所述新的第一开始下标和所述新的文本框长度确定新的第一结束下标。6.根据权利要求5所述的方法,其特征在于,所述修改所述目标文本框参数得到新的目标文本框参数包括:在所述第一结束下标小于所述子文本的文本长度的情况下,修改所述第一开始下标得到所述新的第一开始下标;根据所述新的第一开始下标和所述文本框长度确定所述新的第一结束下标。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:针对每个所述待定关键字文本,遍历每个所述其它子文本,并判断每个被遍历的所述其它子文本中是否包含所述待定关键字文本;根据判断结果确定所述待定关键字文本对应的第一次数,所述第一次数等于所述其它子文本中目标子文本的数量,所述目标子文本为包含所述待定关键字文本的其它子文本;针对每个所述子文本,将所述子文本中的每个所述待定关键字文本分别对应的所述第一次数存储至第二预设文件,所述第二预设文件用于存储所述待处理文本对应的多个所述待定关键字文本,以及每个所述待定关键字文本分别对应的所述第一次数。8.根据权利要求7所述的方法,其特征在于,所述将所述当前子文本的待定关键字文本作为所述当前子文本对应的关键字后,所述方法还包括:在确定第一预设文件中存储有所述关键字的情况下,修改所述第一预设文件中所述关键字对应的出现次数,所述第一预设文件用于存储所述待处理文本对应的至少一个关键字,以及每个所述关键字在所述待处理文本中的出现次数;在确定所述第一预设文件中未存储有所述关键字的情况下,在所述第一预设文件中存储所述关键字,并设置所述关键字对应的出现次数为预设次数。9.根据权利要求8所述的方法,其特征在于,所述方法还包括:针对所述第一预设文件中存储的每个关键字,从所述第一预设文件中读取所述关键字的出现次数,从所述第二预设文件中读取所述关键字对应的第二次数,所述第二次数为所述第二预设文件中指定文本对应的所述第一次数,所述指定文本为文本内容与所述关键字相同的待定关键字文本;根据所述出现次数和所述第二次数确定所述关键字的全因素评分,所述全因素评分用于表征所述关键字在所述待处理文本中的重要程度。10.根据权利要求9所述的方法,其特征在于,所述根据所述出现次数和所述第二次数确定所述关键字的全因素评分包括:根据所述出现次数和所述第二次数通过第一预设函数模型计算所述全因素评分。11.根据权利要求10所述的方法,其特征在于,在所述根据所述出现次数和所述第二次数确定所述关键字的全因素评分之前,所述方法还包括:获取所述关键字的目标长度;根据所述出现次数和所述目标长度通过第二预设函数模型确定所述关键字的第一评分;
根据所述第二次数和所述目标长度通过第三预设...

【专利技术属性】
技术研发人员:邵翔宇
申请(专利权)人:北京小米移动软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1