一种文章中实体的属性抽取方法及装置制造方法及图纸

技术编号:23765915 阅读:46 留言:0更新日期:2020-04-11 19:49
本发明专利技术公开了一种文章中实体的属性抽取方法及装置,确定在文章中各词语的绝对位置和相对位置;根据各词语、各词语的绝对位置和相对位置,确定各词语对应的词向量,得到文章对应的词向量序列;将各词语的顺序信息编码到文章对应的词向量序列中,得到编码后的词向量序列;将编码后的词向量序列输入至标注层中,得到文章对应的标签序列,标签序列中的各标签表示对应词语与属性值的映射关系信息。通过使用绝对位置和相对位置记录词语在文章的位置信息,并将位置信息编码到词语的向量表示中,给了序列标注额外的信息提示,同时不至于由位置信息直接决定输出标签,能够提高标注的准确性。

An attribute extraction method and device for entities in Articles

【技术实现步骤摘要】
一种文章中实体的属性抽取方法及装置
本专利技术涉及自然语言处理
,尤指一种文章中实体的属性抽取方法及装置。
技术介绍
在人工智能技术与应用大规模涌现的背景下,以三元组形式表示的知识是构成知识图谱的基础,也是推动人工智能技术发展的强大驱动力。一条三元组形式表示的知识如(张三,出生日期,1979年1月18日)表达了实体“张三”的“出生日期”属性,三元组的三个部分分别被称作主语、谓语、宾语。介绍性的文章(如在线百科)通常围绕同一个主语实体进行描述,密集的介绍了实体的大量属性。如何从介绍性文章的自然语言叙述中抽取出结构化表示的属性值(即知识三元组)对于知识获取和知识应用都是至关重要的技术。
技术实现思路
本专利技术实施例提供一种文章中实体的属性抽取方法及装置,用以提高词语属性标注的准确性。一方面,本专利技术实施例提供了一种文章中实体的属性抽取方法,包括:确定在文章中各词语的绝对位置和相对位置;根据各所述词语、各所述词语的绝对位置和相对位置,确定各所述词语对应的词向量,得到所述文章对应的词向量序列;...

【技术保护点】
1.一种文章中实体的属性抽取方法,其特征在于,包括:/n确定在文章中各词语的绝对位置和相对位置;/n根据各所述词语、各所述词语的绝对位置和相对位置,确定各所述词语对应的词向量,得到所述文章对应的词向量序列;/n将各所述词语的顺序信息编码到所述文章对应的词向量序列中,得到编码后的词向量序列;/n将编码后的词向量序列输入至标注层中,得到所述文章对应的标签序列,所述标签序列中的各标签表示对应词语与属性值的映射关系信息。/n

【技术特征摘要】
1.一种文章中实体的属性抽取方法,其特征在于,包括:
确定在文章中各词语的绝对位置和相对位置;
根据各所述词语、各所述词语的绝对位置和相对位置,确定各所述词语对应的词向量,得到所述文章对应的词向量序列;
将各所述词语的顺序信息编码到所述文章对应的词向量序列中,得到编码后的词向量序列;
将编码后的词向量序列输入至标注层中,得到所述文章对应的标签序列,所述标签序列中的各标签表示对应词语与属性值的映射关系信息。


2.如权利要求1所述的方法,其特征在于,所述确定在文章中各词语的绝对位置,具体包括:
将所述词语在文章中所处语句的序号作为所述词语的绝对位置。


3.如权利要求1所述的方法,其特征在于,所述确定在文章中各词语的相对位置,具体包括:
将所述词语在文章中所处语句的序号占全部语句数量的比例作为所述词语的相对位置;或,
将所述词语在文章中所处词语的序号在全部词语数量的比例作为所述词语的相对位置。


4.如权利要求1所述的方法,其特征在于,所述根据各所述词语、各所述词语的绝对位置和相对位置,确定各所述词语对应的词向量,具体包括:
确定各所述词语对应的向量;
确定各所述词语的绝对位置和相对位置分别对应的向量;
将所述词语对应的向量、所述词语的绝对位置和相对位置分别对应的向量拼接成一个词向量。


5.如权利要求1所述的方法,其特征在于,所述将各所述词语的顺序信息编码到所述文章对应的词向量序列中,得到编码后的词向量序列,具体包括:
将所述文章对应的词向量序列输入至循环神经网络层、前馈神经网络层或卷积神经网络层中,得到编码后的词向量序列。


6.如权利要求1-5任一项所述的方法,其特征在于,在确定在文章中各词语的绝对位置和相对位置之前...

【专利技术属性】
技术研发人员:高丛苏少炜陈孝良常乐
申请(专利权)人:北京声智科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1