文本处理方法、装置及存储介质制造方法及图纸

技术编号:33140157 阅读:13 留言:0更新日期:2022-04-22 13:49
本发明专利技术提供一种文本处理方法、装置及存储介质,其中,文本处理方法包括:获取待处理文本;将所述待处理文本进行矩阵化处理,得到特征文本;对所述特征文本进行归一化处理,得到文本特征值集合;基于所述文本特征值集合,得到文本处理结果。采用本方法能够提高文本处理的准确度。的准确度。的准确度。

【技术实现步骤摘要】
文本处理方法、装置及存储介质


[0001]本专利技术涉及计算机
,尤其涉及一种文本处理方法、装置及存储介质。

技术介绍

[0002]随着计算机技术的发展,自然语言处理也得到了广泛的发展,例如,文本处理等,文本处理是指对具有完整、系统含义的一个句子或者多个句子的组合进行的处理。例如,对文本进行流畅度的处理,可以识别到文本数据集中存在的一些语义不通或者语句不全的低质量的数据。
[0003]现有技术中,文本流畅度往往是通过对句子进行分词,依据词性及词频等相关信息进行流畅度判断,或者基于深度学习的语言模型,往往存在文本处理准确度低的问题。

技术实现思路

[0004]本专利技术提供一种文本处理方法、装置及存储介质,用以解决现有技术中存在文本处理准确度低的缺陷,实现提高文本处理准确度的目的。
[0005]本专利技术提供一种文本处理方法,包括:获取待处理文本;将所述待处理文本进行矩阵化处理,得到特征文本;对所述特征文本进行归一化处理,得到文本特征值集合;基于所述文本特征值集合,得到文本处理结果。
[0006]本专利技术提供一种文本处理方法,所述基于所述文本特征值集合,得到文本处理结果包括:对所述文本特征值集合中各个文本特征值进行统计,得到目标文本特征值;根据所述目标文本特征值与文本长度之间的函数关系,得到所述文本处理结果值;其中,文本长度为所述待处理文本的长度;基于所述文本处理结果值,得到所述文本处理结果。
[0007]本专利技术提供一种文本处理方法,所述基于所述文本处理结果值,得到所述文本处理结果包括:根据所述文本处理结果值和所述文本处理结果之间的趋向相关关系,得到所述文本处理结果。
[0008]本专利技术提供一种文本处理方法,所述趋向相关关系包括:若所述文本处理数值的趋向为数值变大的方向,则将所述文本处理数值对应的所述文本处理结果确定为结果变差的方向。
[0009]本专利技术提供一种文本处理方法,所述函数关系的得到过程包括:将所述目标文本特征值确定为真数,且以预设数据为底数,得到第一子函数;以所述第一子函数的相反数为除数,且以所述文本长度为被除数,得到所述函数关系。
[0010]本专利技术提供一种文本处理方法,所述将所述待处理文本进行矩阵化处理,得到特征文本包括:将所述待处理文本对应的单词、句子和位置信息进行向量化处理,得到向量文本;所述位置信息为所述单词在所述句子中的位置信息;对所述向量文本进行矩阵化处理,得到所述特征文本。
[0011]本专利技术还提供一种文本处理装置,包括:第一获取模块,用于获取待处理文本;第一处理模块,用于将所述待处理文本进行矩阵化处理,得到特征文本;第二处理模块,用于
对所述特征文本进行归一化处理,得到文本特征值集合;第三处理模块,用于基于所述文本特征值集合,得到文本处理结果。
[0012]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述文本处理方法的步骤。
[0013]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述文本处理方法的步骤。
[0014]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述文本处理方法的步骤。
[0015]本专利技术提供的文本处理方法、装置及存储介质,通过获取待处理文本;将待处理文本进行矩阵化处理,得到特征文本;对特征文本进行归一化处理,得到文本特征值集合;基于文本特征值集合,得到文本处理结果。通过对待处理文本的矩阵化处理以及归一化处理后,得到准确的文本特征值集合,并且基于该文本特征值集合,得到准确的文本处理结果。
附图说明
[0016]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0017]图1是本专利技术提供的文本处理方法的流程示意图之一;
[0018]图2是本专利技术提供的文本处理方法的流程示意图之二;
[0019]图3是本专利技术提供的文本处理方法的流程示意图之三;
[0020]图4是本专利技术提供的文本处理方法的流程示意图之四;
[0021]图5是本专利技术提供的文本处理方法的流程示意图之五;
[0022]图6是本专利技术提供的文本处理方法的效果示意图之一;
[0023]图7是本专利技术提供的文本处理方法的效果示意图之二;
[0024]图8是本专利技术提供的文本处理装置的结构示意图;
[0025]图9是本专利技术提供的电子设备的结构示意图。
具体实施方式
[0026]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0027]下面结合图1

图5描述本专利技术的文本处理方法。
[0028]在一个实施例中,如图1所示,提供了一种文本处理方法,以该方法应用服务器为例进行说明,包括以下步骤:
[0029]步骤102,获取待处理文本。
[0030]具体地,服务器可以通过直接或者间接方式,获取待处理文本。该待处理文本为需
要进行文本处理的文本,该文本可以为医学文本。
[0031]步骤104,将待处理文本进行矩阵化处理,得到特征文本。
[0032]具体的,服务器在获取到待处理文本之后,将该待处理文本向量化处理,得到向量文本,并对该向量文本进行矩阵化处理,得到特征文本。
[0033]在一个实施例中,服务器将获取到的待处理文本之后,将该待处理文本输入到神经网络模型中,在该神经网络模型的输入层中进行向量化处理后,得到向量化文本,对该向量化文本进行矩阵化处理后,得到特征文本。可以理解的,该特征文本为能够表达文本语义的、具有一定维度的语义表征文本,其中的维度包括特征文本的单词量或者特征文本的句子长度等。
[0034]步骤106,对特征文本进行归一化处理,得到文本特征值集合。
[0035]具体的,服务器在得到特征文本之后,对该对特征文本进行归一化处理,将各个维度方向上的特征文本转换为0到1之间的文本特征值,从而得到文本特征值集合。例如,特征文本的维度为768,归一化处理之后的特征文本,文本特征值集合表示为包括和特征文本维度相同个数的文本特征值,即768个文本特征值,即[0.12,0.56,0.215........0.546]。
[0036]步骤108,基于文本特征值集合,得到文本处理结果。
[0037]具体的,服务器得到文本特征本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:获取待处理文本;将所述待处理文本进行矩阵化处理,得到特征文本;对所述特征文本进行归一化处理,得到文本特征值集合;基于所述文本特征值集合,得到文本处理结果。2.根据权利要求1所述的文本处理方法,其特征在于,所述基于所述文本特征值集合,得到文本处理结果包括:对所述文本特征值集合中各个文本特征值进行统计,得到目标文本特征值;根据所述目标文本特征值与文本长度之间的函数关系,得到所述文本处理结果值;其中,文本长度为所述待处理文本的长度;基于所述文本处理结果值,得到所述文本处理结果。3.根据权利要求2所述的文本处理方法,其特征在于,所述基于所述文本处理结果值,得到所述文本处理结果包括:根据所述文本处理结果值和所述文本处理结果之间的趋向相关关系,得到所述文本处理结果。4.根据权利要求3所述的文本处理方法,其特征在于,所述趋向相关关系包括:若所述文本处理数值的趋向为数值变大的方向,则将所述文本处理数值对应的所述文本处理结果确定为结果变差的方向。5.根据权利要求2所述的文本处理方法,其特征在于,所述函数关系的得到过程包括:将所述目标文本特征值确定为真数,且以预设数据为底数,得到第一子函数;以所述第一子函数的相反数为除数,...

【专利技术属性】
技术研发人员:陈广惠伍俊妍杨延李玮婷郭翀翀王则远刘鹏
申请(专利权)人:灵犀量子北京医疗科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1