当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于联合学习模型的细粒度数值信息抽取方法技术

技术编号:24574397 阅读:58 留言:0更新日期:2020-06-21 00:10
本发明专利技术公开了利用一种基于联合学习模型的细粒度数值信息抽取方法,包括如下步骤:对输入文本进行预处理;根据数值相关正则表达式识别候选的数值,以数值为触发词,与其前后词例拼接,作为联合学习模型的输入;联合学习模型的底层接入词嵌入层,并对词嵌入层的输出加入数值触发词的位置信息,得到每个词例最终的分布式表示;基于分布式表示接入后续的特征提取网络,并在高层分别接入具体任务的网络:接入分类网络得到数值信息的语义类型,接入序列标注网络得到数值触发词相关的数个语义角色;合并具体任务的输出得到数值信息单元;针对多个数值信息单元,基于统计方法判断它们之间的复合关系。本发明专利技术无需人工设计特征、准确性高、泛化能力强。

A fine-grained numerical information extraction method based on joint learning model

【技术实现步骤摘要】
一种基于联合学习模型的细粒度数值信息抽取方法
本专利技术属于自然语言处理领域的信息抽取
,具体涉及一种基于联合学习模型的细粒度数值信息抽取方法。
技术介绍
随着万维网数据的高速增长,人们期望能从各类数据中更高效全面地获取信息,从而将其用于智能问答、搜索推荐等多种应用。其中,文本数据具有数据量多和信息量大等特性,成为信息抽取中非常重要的数据来源。科研工作者和业界非常关注相关技术的研究,并定义了一些经典的信息抽取任务,如:命名实体识别、关系抽取、事件抽取等。除了经典任务能抽取的信息之外,文本数据中还存在大量的数值信息。这些数值信息的表达十分多样化,同时往往具有一定模式,例如:在英文文本中“about10kdollars”或“~10,000$”两种表达都意味着“约一万美元”。这种多样性对专门的识别和处理数值信息的技术方法带来了挑战。近年来,相关领域有一些关于数值信息的语义角色框架的探索,但对于数值信息的表示不够精细。Roy等提出的QVR(Quantity-ValueRepresentation)认为,数值信息包含数字、单位、变化本文档来自技高网...

【技术保护点】
1.一种基于联合学习模型的细粒度数值信息抽取方法,其特征在于,包括如下步骤:/n(1)对输入文本进行预处理;/n(2)根据数值相关正则表达式识别候选的数值,以所述数值为触发词,与其前后一定窗口大小内的词例进行拼接,作为联合学习模型的输入;/n(3)所述联合学习模型的底层接入词嵌入层,并对于所述词嵌入层的输出,加入数值触发词的位置信息,得到对于每个词例最终的分布式表示;/n(4)基于步骤(3)所述的分布式表示,共享地接入后续的特征提取网络,并在最上层分别接入具体任务的网络:接入分类网络得到数值信息单元的语义类型,接入序列标注网络得到所述数值触发词相关的数个语义角色;合并具体任务的输出,得到数值信...

【技术特征摘要】
1.一种基于联合学习模型的细粒度数值信息抽取方法,其特征在于,包括如下步骤:
(1)对输入文本进行预处理;
(2)根据数值相关正则表达式识别候选的数值,以所述数值为触发词,与其前后一定窗口大小内的词例进行拼接,作为联合学习模型的输入;
(3)所述联合学习模型的底层接入词嵌入层,并对于所述词嵌入层的输出,加入数值触发词的位置信息,得到对于每个词例最终的分布式表示;
(4)基于步骤(3)所述的分布式表示,共享地接入后续的特征提取网络,并在最上层分别接入具体任务的网络:接入分类网络得到数值信息单元的语义类型,接入序列标注网络得到所述数值触发词相关的数个语义角色;合并具体任务的输出,得到数值信息单元的抽取结果;
(5)针对所述输入文本中抽取出的多个数值信息单元,基于统计方法判断所述数值信息单元之间的复合关系。


2.根据权利要求1所述的一种基于联合学习模型的细粒度数值信息抽取方法,其特征在于,所述语义类型包括:命名、指代、计数、序数、度量以及比值,所述相关语义角色包括:值、修饰、值类型、单位、属性、对象以及整体。


3.根据权利要求1所述的一种基于联合学习模型的细粒度数值信息抽取方法,其特征在于,所述复合关系包括并列关系和嵌套关系。


4.根据权利要求1所述的一种基于联合学习模型的细粒度数值信息抽取方法,其特征在于,所述步骤(1)中,对所述输入文本进行分词处理,并对所述输入文本中与数值相关的符号做拆分。
...

【专利技术属性】
技术研发人员:于佳婕丁文韬瞿裕忠
申请(专利权)人:南京大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1