【技术实现步骤摘要】
一种序列标注方法和系统
[0001]本说明书实施例涉及计算机
,特别涉及一种序列标注方法和系统。
技术介绍
[0002]事件检测可以是指对数据(如新闻、博客、论坛文章等文本)进行处理,识别出所述数据涉及的事件概要或事件类型。事件检测技术在不同领域有着广泛的应用,例如,自动文摘、自动问答、信息检索等领域,其中,通过触发词检测或识别来检测数据涉及的事件是一种有效的事件检测手段。触发词可以是与事件相关的关键词,当在文本中出现预设的触发词时,可以认为该文本描述了预设类型的事件,在一些场景下,从文本中提取的触发词的组合可以进一步反应该文本描述的事件概要。如何提高触发词的识别精度对于事件检测有着重要的意义。
[0003]为此,本说明书实施例提出一种序列标注方法,以准确快速地确定出文本的触发词,便于后续有效检测出目标事件。
技术实现思路
[0004]本说明书实施例的一个方面提供一种序列标注方法,所述方法包括:获取待识别文本,所述待识别文本包括多个字或词;利用预先训练好的序列标注模型对所述待识别文本进行处理,确 ...
【技术保护点】
【技术特征摘要】
1.一种序列标注方法,所述方法包括:获取待识别文本,所述待识别文本包括多个字或词;利用预先训练好的序列标注模型对所述待识别文本进行处理,确定所述待识别文本的标注序列,其中,所述处理包括:确定所述待识别文本中各个字或词对应的第一输入向量表示;利用编码网络对所述各个字或词对应的第一输入向量表示进行处理,确定所述各个字或词对应的语义向量表示;获取所述各个字或词对应的同义词向量表示;所述各个字或词对应的同义词向量表示为利用图神经网络对同义词图进行图谱表示学习得到;所述同义词图的节点与预设词表中的字或词对应,边反映对应两个节点互为同义词,所述预设词表包含所述各个字或词;基于各个字或词对应的语义向量表示和同义词向量表示,确定所述待识别文本的标注序列。2.如权利要求1所述的方法,字或词对应的第一输入向量表示基于该字或词的标记嵌入向量、分段嵌入向量以及位置嵌入向量确定。3.如权利要求1或2所述的方法,在利用图神经网络对同义词图进行图谱表示学习时,同义词图的节点的初始向量表示通过与确定所述待识别文本中各个字或词对应的第一输入向量表示相同的方式获得,或者同义词图的节点的初始向量表示基于对应节点的标记嵌入向量确定。4.如权利要求1所述的方法,所述基于各个字或词对应的语义向量表示和同义词向量表示,确定所述待识别文本的标注序列,包括:融合所述各个字或词对应的语义向量表示和同义词向量表示,得到各个字或词对应的融合向量表示;利用前馈神经网络对所述各个字或词的融合向量表示进行处理,确定所述各个字或词对应的标注概率向量;标注概率向量中元素与多个标注类别对应,且表征该标注概率向量对应的字或词属于该元素对应的标注类别的概率值;对所述各个字或词中的每一个,将其对应的标注概率向量中最大元素对应的标注类别作为该字或词的标注类别,进而得到所述待识别文本的标注序列。5.如权利要求1所述的方法,所述基于各个字或词对应的语义向量表示和同义词向量表示,确定所述待识别文本的标注序列,包括:融合所述各个字或词对应的语义向量表示和同义词向量表示,得到各个字或词对应的融合向量表示;利用前馈神经网络对所述各个字或词的融合向量表示进行处理,确定所述各个字或词对应的标注概率向量;标注概率向量中元素与多个标注类别对应,且表征该标注概率向量对应的字或词属于该元素对应的标注类别的概率值;基于转移概率矩阵确定各个字或词在其前一个字或词取不同标注类别的条件下,分别取各标注类别的概率值;所述转移概率矩阵通过训练得到,且其中的元素表征所述各标注类别相互转换的概率值;基于所述各个字或词对应的标注概率向量以及所述各个字或词在其前一个字或词取不同标注类别的条件下分别取各标注类别的概率值,确定所述待识别文本多个候选标注序
列的得分;将得分最高的候选标注序列作为所述待识别文本的所述标注序列。6.如权利要求5所述的方法,基于所述各个字或词对应的标注概率向量以及所述各个字或词在其前一个字或词取不同标注类别的条件下分别取各标注类别的概率值,确定所述待识别文本多个候选标注序列的得分,包括对于任一候选标注序列:将各个字或词属于在该候选标注序列中对应的标注类别的概率值,以及各个字或词在其前一个字或词取在该候选标注序列中对应的标注类别的条件下,取其在该候选标注序列中对应的标注类别的概率值求和,得到该候选标注序列的得分。7.如权利要求1所述的方法,所述编码网络包括以下的一种或多种:Transformer、BERT、循环神经网络和卷积神经网络。8.如权利要求1所述的方法,所述标注序列包括所述各个字或词的标注类别,其中,标注类别包括:文本起始位、触发词起始位、触发词中间位、非触发词位以及文本终止位,以使得所述标注序列能够标识出待识别文本中的触发词。9.一种序列标注系统,所述系统包括:第一获取模块,用于获取待识别文本,所述待识别文本包括多个字或词;第一处理模块,用于利用预先训练好的序列标注模型对所述待识别文本进行处理,确定所述待识别文本的标注序列,其中,为实现所述处理,所述第一处理模块进一步用于:确定所述待识别文本中各个字或词对应的第一输入向量表示;利用编码网络对所述各个字或词对应的第一输入向量表示进行处理,确定所述各个字或词对应的语义向量表示;获取所述各个字或词对应的同义词向量表示;所述各个字或词对应的同义词向量表示为利用图神经网络对同义词图进行图谱表示学习得到;所述同义词图的节点与预设词表中的字或词对应,边反映对应两个节点互为同义词,所述预设词表包含所述各个字或词;基于各个字或词对应的语义向量表示和同义词向量表示,确定所述待识别文本的标注序列。10.一种序列标注装置,所述装置包括至少一个处理器和至少一个存储设备,所述存储设备用于存储指令,当所述至少一个处理器执行所述指令时,导致所述装置实现如权利要求1~9中任意一项所述的方法。11.一...
【专利技术属性】
技术研发人员:徐军,王峰,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。