文本处理方法、装置以及计算机可读存储介质制造方法及图纸

技术编号:33074800 阅读:12 留言:0更新日期:2022-04-15 10:10
本申请的实施例揭示了一种文本处理方法、装置以及计算机可读存储介质,该方法包括:根据文本对应的语法关系,对文本进行序列模式挖掘,得到文本对应的序列模式;获取序列模式的支持度;将支持度作为权重,计算序列模式的加权和,得到文本对应的语法关系特征;计算语法关系特征与参考语法关系特征之间的匹配度,若匹配度大于预设阈值,则将参考语法关系特征关联的类别标签作为文本对应的文本处理结果。本申请实施例的技术方案能够提高文本处理的准确度。确度。确度。

【技术实现步骤摘要】
文本处理方法、装置以及计算机可读存储介质


[0001]本申请涉及自然语义处理
,具体而言,涉及一种文本处理方法、文本处理装置以及计算机可读存储介质。

技术介绍

[0002]自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。命名实体识别是自然语言处理中的热点问题和基础性工作,对自然语言处理具有极其重要的意义,现有的命名实体识别方法忽略了命名实体在文本中的词法句法等语法隐含重要的特征,导致命名实体识别方法准确度不高。

技术实现思路

[0003]为解决上述技术问题,本申请的实施例提供了一种文本处理方法及文本处理装置,能够提高文本处理的准确性。
[0004]本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
[0005]根据本申请实施例的一个方面,提供了一种文本方法,包括:根据文本对应的语法关系,对文本进行序列模式挖掘,得到文本对应的序列模式;获取序列模式的支持度;将支持度作为权重,计算序列模式的加权和,得到文本对应的语法关系特征;计算语法关系特征与参考语法关系特征之间的匹配度,若匹配度大于预设阈值,则将参考语法关系特征关联的类别标签作为文本对应的文本处理结果。
[0006]根据本申请实施例的一个方面,提供了一种文本处理装置,包括:挖掘模块,用于根据文本对应的语法关系,对文本进行序列模式挖掘,得到文本对应的序列模式;获取模块,连接挖掘模块,用于获取序列模式的支持度;计算模块,连接获取模块,用于将支持度作为权重,计算序列模式的加权和,得到文本对应的语法关系特征;匹配模块,连接计算模块,用于计算语法关系特征与参考语法关系特征之间的匹配度,若匹配度大于预设阈值,则将参考语法关系特征关联的类别标签作为文本对应的文本处理结果。
[0007]根据本申请实施例的一个方面,提供了一种电子设备,包括处理器及存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如上所述的文本处理方法。
[0008]根据本申请实施例的一个方面,提供了一种计算机可读存储介质,其上存储有计算机可读指令,当计算机可读指令被计算机的处理器执行时,使计算机执行如前提供的文本处理方法。
[0009]根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实施例中提供的文本处理方法。在本申请的实施例所提供的技术方案中,首先计算文本对应的各个序列模式的支持度,基于各个序列模式及其对应的支持度,计算所有序列模式的加权和,得到文本对应的语法关系特征,计算语法关系特征与参考语法关系特征之间的匹配度,若匹配度大于预设阈值,则将参考语法关系特征关联的类别标签作为文本对应的文本处理结果。一方面结合文本对应的语法关系,提取文本对应的语法关系特征,由于将语法关系作为一个因素对文本进行处理,这种处理方式本身就能提供文本处理的准确度,另一方面,由于文本对应的语法特征依权重考虑到了文本对应的每个序列模式,使得到的文本对应的参考语法关系特征能够更加准确地反映文本的语法关系,进而将语法关系特征与参考语法关系特征进行匹配,使得到的文本处理结果更加准确。
[0010]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
[0011]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术者来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
[0012]图1是本申请的一示例性实施例示出的文本处理方法的流程图;
[0013]图2是图1所示实施例中的步骤S100一示例性实施例的流程图;
[0014]图3是图2所示实施例中的步骤S110一示例性实施例的流程图;
[0015]图4是一示例性的分词序列的句法依存关系的示意图;
[0016]图5是一示例性的分词序列的依存语法关系的示意图;
[0017]图6是图1所示实施例中步骤S200一示例性实施例的流程图;
[0018]图7是图6所示实施例中步骤S210一示例性实施例的流程图;
[0019]图8是图6所示实施例中步骤S220一示例性实施例的流程图;
[0020]图9是一示例性地提取文本信息的流程图;
[0021]图10是本申请一示例性实施例示出的文本处理装置的框图。
具体实施方式
[0022]这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
[0023]附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现
这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
[0024]附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
[0025]还需要说明的是:在本申请中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
[0026]人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0027]人工智能技术是一门综合学本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:根据文本对应的语法关系,对所述文本进行序列模式挖掘,得到所述文本对应的序列模式;获取所述序列模式的支持度;将所述支持度作为权重,计算所述序列模式的加权和,得到所述文本对应的语法关系特征;计算所述语法关系特征与参考语法关系特征之间的匹配度,若所述匹配度大于预设阈值,则将所述参考语法关系特征关联的类别标签作为所述文本对应的文本处理结果。2.根据权利要求1所述的方法,其特征在于,所述获取所述序列模式的支持度包括:从参考序列模式库中获取与所述序列模式相匹配的参考序列模式,所述参考序列模式库中含有多个参考序列模式以及每个参考序列模式对应的支持度;将所述参考序列模式对应的支持度作为所述序列模式的支持度。3.根据权利要求2所述的方法,其特征在于,所述从参考序列模式库中获取与所述序列模式相匹配的参考序列模式,包括:将所述序列模式中含有第一语法标识序列与所述参考序列模式库中的参考序列模式所含有的第二语法标识序列进行对比;若对比确定所述第二语法标识序列中含有所述第一语法标识序列中的所有语法标识,且所述所有语法标识在所述第二语法标识序列中的排列顺序与所述所有语法标识在所述第一语法标识序列中的排列顺序相同,则将所述第二语法标识序列对应的参考序列模式作为与所述序列模式相匹配的参考序列模式。4.根据权利要求2所述的方法,其特征在于,在所述从参考序列模式库中获取与所述序列模式相匹配的参考序列模式之前,所述方法还包括:获取多个参考样本各自对应的参考序列模式;计算每个参考序列模式对应的参考样本的数量与所述多个参考样本的总数之间的比值,将所述比值作为相应参考序列模式的支持度;根据所述多个参考样本各自对应的参考序列模式以及所有参考序列模式各自对应的支持度,构建所述参考序列模式库。5.根据权利要求2所述的方法,其特征在于,所述方法还包括:确定所述文本对应的序列模式中支持度最大的序列模式;获取与所述支持度最大的序列模式相匹配的参考序列模式;将所述参考序列模式中指定语法标识的位置,作为在所述支持度最...

【专利技术属性】
技术研发人员:刘志煌
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1