一种序列标注方法和系统技术方案

技术编号:24757348 阅读:24 留言:0更新日期:2020-07-04 09:26
本说明书实施例公开了一种序列标注方法。包括:获取待标注序列的第一向量表示以及第二向量表示。第一向量表示可以反映待标注序列的文本信息,第二向量表示可以反映待标注序列的标注信息。可以基于第一向量表示与第二向量表示,获取对应于待标注序列的初始表示。可以将初始表示输入至标注模型,确定对应于待标注序列的目标标注结果;标注模型为机器学习模型。本说明书实施例公开的方法,可以提高模型的精确率和提高召回率,以及在进行序列标注时代入更多的语法和语义信息。

A method and system of sequence annotation

【技术实现步骤摘要】
一种序列标注方法和系统
本说明书涉及计算机应用领域,特别涉及一种序列标注方法、系统、装置以及可读存储介质。
技术介绍
随着人工智能和大数据技术的发展,对于自然语言处理的技术需求不断提高,其中,序列标注作为语义理解、语音合成等任务的必要前操作,在自然语言理解中具有重要的作用。目前,序列标注受限于文本的复杂性、需要提取的信息较多等问题,序列标注的效果并不太理想。因此,有必要提供一种序列标注方法,以提高序列标注的准确率。
技术实现思路
本说明书实施例的一个方面提供一种序列标注方法。所述序列标注方法包括:获取待标注序列的第一向量表示以及第二向量表示;所述第一向量表示反映待标注序列的文本信息,所述第二向量表示反映待标注序列的标注信息。可以基于所述第一向量表示与所述第二向量表示,获取对应于所述待标注序列的初始表示。可以将所述初始表示输入至标注模型,确定对应于所述待标注序列的目标标注结果;所述标注模型为机器学习模型。本说明书实施例的另一个方面提供一种序列标注系统,所述序列标注系统包括:第一获取模块,可以用于获取待标注序列的第一向量表示以及第二向量表示;所述第一向量表示反映待标注序列的文本信息,所述第二向量表示反映待标注序列的标注信息。第二获取模块,可以用于基于所述第一向量表示与所述第二向量表示,获取对应于所述待标注序列的初始表示。确定模块,可以用于将所述初始表示输入至标注模型,确定对应于所述待标注序列的目标标注结果;所述标注模型为机器学习模型。本说明书实施例的另一个方面提供一种序列标注装置,包括至少一个存储介质和至少一个处理器,所述至少一个存储介质用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令以实现序列标注方法。本说明书实施例的另一个方面提供一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行序列标注方法。附图说明本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:图1是根据本说明书一些实施例所示的序列标注方法的示例性流程图;图2是根据本说明书一些实施例所示的获取第二向量表示的示例性流程图;图3是根据本说明书一些实施例所示的序列标注系统的模块图;图4是根据本说明书一些实施例所示的标注模型的示例性网络结构图。具体实施方式为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。应当理解,本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。目前,自然语言处理被广泛应用于信息抽取、机器翻译、信息检索、自动回答、情感分析、自动文本摘要、社会计算等场景。例如,对于信息抽取的应用场景,通过自然语言处理可以将对话文本中的关键信息进行提取,比如对催收对话文本中包含的还款时间、用户归属地、舆情相关、催收施压手段、对话人关系、共债等信息进行抽取,来对催收对话文本进行分析,获取对话参与方的意图,进而优化催收策略来提高催收的回款率。序列标注是信息抽取的一种实现手段,本质是对给定输入序列中的每个元素进行分类的问题,常应用于命名实体识别、词性标注、分词等。所述序列可以是自然语言中的句子、短语等文本。序列标注方法可以包括无监督的序列标注方法和有监督的序列标注方法。在一些实施例中,可以采用无监督的序列标注方法对序列进行标注。无监督的序列标注方法属于基于规则的序列标注方法,在关键信息抽取时,一般是对序列文本中的实体进行识别,可以采用正则表达式匹配等方式来进行信息抽取,无需进行训练,可以在一定程度上解决冷启动的问题,提高整体召回率。该方法虽然无需进行训练,可以快速得到结果,但是匹配规则的要求较高,例如,需要规则尽可能的覆盖所有样本,这需要编写规则的人熟悉序列文本所属的领域,并且看过大批量的数据。除此之外,规则只能做到匹配文本,无法考虑上下文的含义,因而无法避免会造成大量的误召回现象,以及规则一般只能针对某个特定领域,不能适用于所有领域的场景。在一些实施例中,可以采用有监督的序列标注方法对序列进行标注。有监督的序列标注方法包括基于端到端模型的序列标注方法,通过训练样本来对模型进行训练,进而利用训练好的模型处理序列,获得该序列的标注结果。而端到端模型依赖于标注样本的数量和质量,在训练样本不足的情况下,端到端模型的训练很难达到理想的效果。因此,为了进一步提高序列标注的精确率和召回率,本说明书又一些实施例披露了一种能够融合端到端模型和规则的方法,结合有监督序列标注和无监督序列标注,可以有效地提高标注模型的精确率和召回率。以下结合对附图的描述,阐述本说明书披露的技术方案。图1是根据本说明书一些实施例所示的序列标注方法的示例性流程图。在一些实施例中,流程100可以由处理设备执行。例如,流程100可以以程序或指令的形式存储在存储装置(如处理设备的自带存储单元或外接存储设备)中,所述程序或指令在被执行时,可以实现流程100。又例如,流程100可以由处理设备上的序列标系统300实现。如图1所示,流程100可以包括以下步骤:步骤102,获取待标注序列的第一向量表示以及第二向量表示。步骤102可以由第一获取模块310执行。在一些实施例中,所述待标注序列可以是指按顺序排列的一串字词。例如,句子“我下午2点前处理”、“Iwillbebackatonce”等。组成所述待标注序列的最小单元,可以为单个字或词。对于表现为中文的待标注序列,单个汉字为所述待标注序列的最小单元。对于表现为外文的待标注序列,单个单词(例如,英文单词)为所述待标注序列的最小单元。每个最小单元在后续处理过程中将会被编码、识别、合并以及标注等处理。在一些实施例中,所述待标注序列可以通过外部输入、存储数据读取、调用相关接口或其他方式来获取。例如,对于外部输入,可以是通过处理设备自带的输入/输出端口进行的本文档来自技高网...

【技术保护点】
1.一种序列标注方法,其中,所述方法包括:/n获取待标注序列的第一向量表示以及第二向量表示;所述第一向量表示反映待标注序列的文本信息,所述第二向量表示反映待标注序列的标注信息;/n基于所述第一向量表示与所述第二向量表示,获取对应于所述待标注序列的初始表示;/n利用标注模型处理所述初始表示,确定对应于所述待标注序列的目标标注结果;所述标注模型为机器学习模型。/n

【技术特征摘要】
1.一种序列标注方法,其中,所述方法包括:
获取待标注序列的第一向量表示以及第二向量表示;所述第一向量表示反映待标注序列的文本信息,所述第二向量表示反映待标注序列的标注信息;
基于所述第一向量表示与所述第二向量表示,获取对应于所述待标注序列的初始表示;
利用标注模型处理所述初始表示,确定对应于所述待标注序列的目标标注结果;所述标注模型为机器学习模型。


2.根据权利要求1所述的方法,其中,所述第一向量表示包括待标注序列中词对应的词向量;所述第二向量表示反映基于内容提取规则确定待标注序列的标注信息。


3.根据权利要求2所述的方法,其中,所述第二向量表示基于以下操作确定:
利用基于内容提取规则的提取器对所述待标注序列进行处理,以获取所述第二向量表示。


4.根据权利要求3所述的方法,其中,所述获取所述第二向量表示,包括:
利用所述基于内容提取规则的提取器对所述待标注序列的进行内容提取;
基于内容提取结果对所述待标注序列进行初次标注,以获得基于内容提取规则确定的初次标注结果;
基于所述初次标注结果获取所述第二向量表示。


5.根据权利要求4所述的方法,其中,所述基于所述初次标注结果获取所述第二向量表示,包括:
利用转换算法确定所述初次标注结果对应的向量,将所述向量作为所述第二向量表示;其中,所述转换算法至少包括one-hot编码方法。


6.根据权利要求5所述的方法,其中,所述初次标注结果为BIO格式。


7.根据权利要求1所述的方法,其中,所述标注模型包括Bi-LSTM结构和CRF结构。


8.根据权利要求1所述的方法,其中,所述目标标注结果为BIO格式。


9.根据权利要求1所述的方法,其中,所述标注模型还包括词嵌入层与规则提取网络,所述获取待标注序列的第一向量表示以及第二向量表示包括:
通过所述词嵌入层处理所述待标注序列以获得第一向量表示,以及通过所述规则提取网络处理所述待标注序列以获得第二向量表示。


10.根据权利要求1所述的方法,其中,所述初始表示为第一向量表示与第二向量表示的拼接结果。


11.一种序列标注系统,其中,所述系统包括:
第一获取模块,用于获取待标注序列的第一向量表示以及第二向量表示;所述第一向量表示反映待标注序列的文本信息,所述第二向量表示反映待标注序列的标注信息;
第二获...

【专利技术属性】
技术研发人员:吴颖婷姚开盛
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1