当前位置: 首页 > 专利查询>苏州大学专利>正文

面向句子级生物关系网络抽取的语料库生成方法及系统技术方案

技术编号:17878827 阅读:60 留言:0更新日期:2018-05-06 00:40
本发明专利技术涉及一种面向句子级的生物关系网络抽取的语料库生成方法及系统,为了实现机器学习自动完成文本整个标注过程而设计。本发明专利技术的方法,包括:对文本句子进行实体识别和映射;生成依存句法树,从依存句法树中抽取出包含语句中所有实体的最小子树,按照结点在文本句子中的词序恢复出对应的词语序列,该词语序列为最短词语序列;对树形结构进行前序遍历,得到结点序列;分析词语序列中的词和结点序列中的实体、功能和关系之间的对应关系,对最短词序列进行标注,生成关系网络标注语料。本发明专利技术操作方法简单,极大地节省了人力物力,并能够推广到其他领域的关系网络抽取任务中。

Corpus generation method and system for sentence level biological relation network extraction

The invention relates to a corpus generation method and system for sentence level related biologic network extraction, which is designed for machine learning to automatically complete the whole process of text annotation. The method of this invention includes: identifying and mapping text sentences; generating the dependency syntax tree, extracting the smallest subtree containing all entities in the sentence from the dependency syntax tree, restoring the corresponding sequence of words in the word order of the text sentence according to the node, the word sequence is the shortest sequence of words and the tree knot. The structure carries on the preorder traversal, obtains the node sequence; analyzes the correspondence relation between the entity, the function and the relation in the word and the node sequence in the word sequence, annotate the shortest word sequence, and generate the relation network tagging corpus. The invention has simple operation method, greatly saves manpower and material resources, and can be extended to other network extraction tasks in other fields.

【技术实现步骤摘要】
面向句子级生物关系网络抽取的语料库生成方法及系统
本专利技术涉及自然语言处理
,具体提出了一种面向句子级的生物关系网络抽取语料库的生成方法及系统。
技术介绍
生物医学领域的关系网络抽取是生物医学文本挖掘领域的一个重要研究方向,其任务是从生物医学领域的科学文献中识别出命名实体及其相应功能,并提取出这些实体及功能之间的交互关系。作为一项应用基础性研究,这些网络信息的抽取对生物医学文献检索、生物知识网络的构建和生物体关系预测均具有重大的研究意义。句子级生物关系网络是指单一句子所表达的生物实体及其功能之间的语义关系所构成的网络。如图1中的句子就表示了一个生物关系网络,即对蛋白质实体“HGNC:IL2”的催化会显著提升蛋白质实体“HGNC:LYN”和“HGNC:IL2RB”的复合作用。由于目前的生物关系网络语料是在句子级标注的,并没有标明关系网络是如何对应到句子的文本上的,因此无法直接使用基于机器学习的自然语言处理技术。目前的关系网络抽取方法通常采用模式匹配的方法和事件抽取的方法。基于模式匹配的方法首先从训练语料中总结出表示实体间关系网络的语言学模板,然后将这些模板应用到新的文献中,从而本文档来自技高网...
面向句子级生物关系网络抽取的语料库生成方法及系统

【技术保护点】
一种面向句子级生物关系网络抽取的语料库生成方法,其特征在于,包括:S1根据已标注的关系网络信息,对文本句子进行实体识别和映射;S2对所述文本句子进行依存句法分析,生成依存句法树,从所述依存句法树中抽取出包含语句中所有实体的最小子树,按照结点在所述文本句子中的词序恢复出对应的词语序列,该词语序列为最短词语序列;S3将所述语句表示成树形结构,对所述树形结构进行前序遍历,得到结点序列;S4分析所述词语序列中的词和结点序列中的实体、功能和关系之间的对应关系,对最短词序列进行标注,生成关系网络标注语料。

【技术特征摘要】
1.一种面向句子级生物关系网络抽取的语料库生成方法,其特征在于,包括:S1根据已标注的关系网络信息,对文本句子进行实体识别和映射;S2对所述文本句子进行依存句法分析,生成依存句法树,从所述依存句法树中抽取出包含语句中所有实体的最小子树,按照结点在所述文本句子中的词序恢复出对应的词语序列,该词语序列为最短词语序列;S3将所述语句表示成树形结构,对所述树形结构进行前序遍历,得到结点序列;S4分析所述词语序列中的词和结点序列中的实体、功能和关系之间的对应关系,对最短词序列进行标注,生成关系网络标注语料。2.根据权利要求1所述的面向句子级生物关系网络抽取的语料库生成方法,其特征在于,S1的具体包括:利用开源工具识别句子中的命名实体,将这些实体链接到实体数据库中,得到实体的标识符;对于工具识别且链接成功的条目,在数据库中根据标识符查询出其标准名称,再利用该标准名称和语句中的实体名称进行匹配,将文本句子中的实体映射到语句中的实体。3.根据权利要求1所述的面向句子级生物关系网络抽取的语料库生成方法,其特征在于,S2具体包括:利用标注数据进行数据训练,得到句法分析器;基于所述句法分析器对句子进行依存句法分析,将结果表示成树形结构,也即依存句法树;基于所述依存句法树,找出根结点到每个实体结点的结点路径;从根结点开始,逐结点遍历这些路径,直至遇到有一条路径中的某个结点与其他路径中的结点不相同,则该结点的父结点即为最低公共祖先结点;将该最低公共祖先结点作为新的根结点,将从新的根结点出发到所有实体的路径抽取出,组成一个新的树,称为最小子树;将所述最小子树中的结点按照文本句子中的词序展开为词语序列,称为最短词语序列。4.根据权利要求1所述的面向句子级生物关系网络抽取的语料库生成方法,其特征在于,S3具体包括:将语句中的关系结点取出,作为第一个结点也即根结点,将语句的左右两部分分别构成根结点的两颗子树;其中,在逐个扩展子树时,将最外层的生物功能作为子树的根结点,将该功能所包含的内部再作为新的根结点的子树,如此递归地由外向内构建,直到最后遇到实体结点,则直接将实体作为叶子结点,通过这种方式将语句转换成语句树;按照前序遍历的方式获取树形结构的序列化表示,称为语句的结点序列,其中,在前序遍历过程中,首先输出根结点,然后从左到右遍历它的所有子树,在遍历某个子树时,仍然先输出子树的根结点,然后遍历该根结点的子树,依次类推,直至输出所有结点。5.根据权利要求1所述的面向句子级生物关系网络抽取的语料库生成方法,其特征在于,S4具体包括:以最短词语序列作为源语言的句子,语句的结点序列最为目标语言的句子,最短词语序列和结点序列对变成了机器翻译中的平行句对,构成了平行语料;在平行语料中于写入实体→实体的平行句对,利用机器翻译中的词对齐工具获取源语言到目标语言的词语对应关系;从对应结果中提取出最短词语序列中的词语和结点序列中的结点之间的对应关系;在语句树中,采用自底向上的方式逐层次地生成序列标注预料,从最底层的实体结点开始标注,然后标注上层的功能结点,最后标注关系结点。6.一种面向句子级生物关系网络抽取的语料库生成系统,其特征在于,包括:句子实体识别和映射单元,用于根据已标注的关系网络信息,对文本句子进行实体识别和映射;最短词语序列生成单元,用于对...

【专利技术属性】
技术研发人员:钱龙华刘加新刘苏文何云琪袁源周国栋
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1