文本处理方法、装置以及计算机设备制造方法及图纸

技术编号:26846138 阅读:13 留言:0更新日期:2020-12-25 13:08
本申请实施例涉及云技术领域,并公开了一种文本处理方法、装置以及计算机设备,所述方法包括:接收待标注文本,所述待标注文本中包括至少两个单词;根据所述待标注文本中各单词的文本特征,获取各单词的第一单词特征;获取两个相邻单词的所述第一单词特征之间的距离特征,并基于所述距离特征对各单词的第一单词特征进行处理,得到各单词的第二单词特征;根据所述第二单词特征,获取所述待标注文本的韵律识别结果,所述韵律识别结果包括停顿位置和重读位置。采用本方法,可有效提升文本韵律识别准确率。

【技术实现步骤摘要】
文本处理方法、装置以及计算机设备
本申请实施例涉及云技术及人工智能
,特别是涉及一种文本处理方法、装置以及计算机设备。
技术介绍
人工智能(ArtificialIntelligence,AI)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,可使机器具有感知、推理与决策的功能。随着人工智能技术的快速发展,基于自然语言处理技术的文本韵律识别功能在文本分析领域所占的比重越来越大。文本韵律识别是人工智能技术的一个重要应用领域,主要用于对用户输入的文本进行韵律识别,通过识别出文本中的正确韵律,为用户提供韵律指导。目前的文本处理方式,通常是对文本中的重音或停顿分别进行检测,但在检测过程中不仅没有考虑重音词与非重音词之间的区别,也没有考虑文本停顿处不同词之间的区别,导致文本韵律识别准确率较低。
技术实现思路
本申请实施例提供一种文本处理方法、装置以及计算机设备,用以提高文本韵律识别准确率。为解决上述技术问题,本申请实施例提供以下技术方案:第一方面,本申请实施例提供一种文本处理方法,所述方法包括:接收待标注文本,所述待标注文本中包括至少两个单词;根据所述待标注文本中各单词的文本特征,获取各单词的第一单词特征;获取两个相邻单词的所述第一单词特征之间的距离特征,并基于所述距离特征对各单词的第一单词特征进行处理,得到各单词的第二单词特征;根据所述第二单词特征,获取所述待标注文本的韵律识别结果,所述韵律识别结果包括停顿位置和重读位置。第二方面,本申请实施例提供一种文本处理装置,所述装置包括:文本接收模块,用于接收待标注文本,所述待标注文本中包括至少两个单词;特征提取模块,用于根据所述待标注文本中各单词的文本特征,获取各单词的第一单词特征;获取两个相邻单词的所述第一单词特征之间的距离特征,并基于所述距离特征对各单词的第一单词特征进行处理,得到各单词的第二单词特征;韵律识别模块,用于根据所述第二单词特征,获取所述待标注文本的韵律识别结果,所述韵律识别结果包括停顿位置和重读位置。第三方面,本申请实施例提供一种计算机设备,其包括处理器和存储器,存储器存储有多条指令,指令适于处理器进行加载,以执行上述方法中的步骤。第四方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质存储有多条指令,指令适于处理器进行加载,以执行上述方法中的步骤。第五方面,本申请实施例提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面提供的方法。本申请实施例提供了一种文本处理方法、装置以及计算机设备,本申请实施例提供的方法在分析文本特征的基础上,还叠加了对特征之间距离特征的分析,充分研究了文本中重读词与非重读词的区别,以及停顿处左右不同词之间的语义区别,大大提升了文本的韵律识别准确率。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请实施例提供的文本处理方法的应用场景示意图。图2是本申请实施例提供的文本处理方法的流程示意图。图3是本申请实施例提供的文本处理方法的具体流程示意图。图4是本申请实施例提供的双向长短期记忆网络的结构示意图。图5是本申请实施例提供的双向长短期记忆网络的框架流程示意图。图6是本申请实施例提供的第二单词特征获取步骤的流程示意图。图7是本申请实施例提供的文本处理方法的具体应用场景示意图。图8是本申请实施例提供的文本处理效果的界面示意图。图9是本申请实施例提供的文本处理装置的结构示意图。图10是本申请实施例提供的计算机设备的结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。首先需要说明的是,本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序,例如,第一单词特征和第二单词特征仅用于区分相同属性的不同特征向量,不代表按先后次序顺序进行的会话。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。其次需要说明的是,本申请实施例提供的文本处理方法,主要涉及云技术(Cloudtechnology)领域及人工智能(ArtificialIntelligence,AI)的自然语言处理技术(NatureLanguageprocessing,NLP)。其一,云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术,是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。其二,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。在本申请中,人工智能技术主要用于实现文本韵律识别。其三,自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。最后还需说明的是,本申请实施例提供的文本处理方法,可以应用于如图1所示的文本处理系统中。其中,文本处理系统包括用户终端100和服务器200,用户终端100可以是智能手机、平板电脑、笔记本电脑、台式电脑、智能音箱、智能手表等,但并不局限于此;服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、本文档来自技高网...

【技术保护点】
1.一种文本处理方法,其特征在于,所述方法包括:/n接收待标注文本,所述待标注文本中包括至少两个单词;/n根据所述待标注文本中各单词的文本特征,获取各单词的第一单词特征;/n获取两个相邻单词的所述第一单词特征之间的距离特征,并基于所述距离特征对各单词的第一单词特征进行处理,得到各单词的第二单词特征;/n根据所述第二单词特征,获取所述待标注文本的韵律识别结果,所述韵律识别结果包括停顿位置和重读位置。/n

【技术特征摘要】
1.一种文本处理方法,其特征在于,所述方法包括:
接收待标注文本,所述待标注文本中包括至少两个单词;
根据所述待标注文本中各单词的文本特征,获取各单词的第一单词特征;
获取两个相邻单词的所述第一单词特征之间的距离特征,并基于所述距离特征对各单词的第一单词特征进行处理,得到各单词的第二单词特征;
根据所述第二单词特征,获取所述待标注文本的韵律识别结果,所述韵律识别结果包括停顿位置和重读位置。


2.根据权利要求1所述的文本处理方法,其特征在于,所述获取两个相邻单词的所述第一单词特征之间的距离特征,并基于所述距离特征对各单词的第一单词特征进行处理,得到各单词的第二单词特征的步骤,包括:
根据所述待标注文本中各单词的相邻关系,获取两个相邻单词的所述第一单词特征之间的距离特征;
基于所述距离特征,对各单词的第一单词特征进行拼接处理,得到各单词的第二单词特征。


3.根据权利要求2所述的文本处理方法,其特征在于,所述根据所述待标注文本中各单词的相邻关系,获取两个相邻单词的所述第一单词特征之间的距离特征的步骤,包括:
根据所述待标注文本中各单词的相邻关系,确定所述待标注文本中相邻的第一单词和第二单词,其中,所述第一单词的第一单词特征与所述第二单词的第一单词特征之差为所述距离特征;
当所述待标注文本中的末位单词为所述第一单词时,计算所述末位单词的第一单词特征与预设有效特征之间的距离,作为所述距离特征;
当所述待标注文本中的末位单词为所述第二单词时,计算目标第一单词的第一单词特征与所述末位单词的第一单词特征之间的距离,作为所述距离特征,所述目标第一单词为与所述末位单词相邻的单词。


4.根据权利要求2所述的文本处理方法,其特征在于,所述基于所述距离特征,对各单词的第一单词特征进行拼接处理,得到各单词的第二单词特征的步骤,包括:
确定所述距离特征对应的第一单词和第二单词,其中,所述第一单词的第一单词特征与所述第二单词的第一单词特征之差为所述距离特征;
将所述距离特征与所述第一单词的第一单词特征进行拼接处理,得到拼接后的第一单词特征;
确定各单词所述拼接后的第一单词特征,作为所述第二单词特征。


5.根据权利要求1所述的文本处理方法,其特征在于,所述根据所述待标注文本中各单词的文本特征,获取各单词的第一单词特征的步骤,包括:
对所述待标注文本进行分词处理,得到至少两个单词;
提取所述至少两个单词中各单词的文本特征,并基于预存...

【专利技术属性】
技术研发人员:林炳怀王丽园
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1