一种多类型且含复杂关系的实体抽取方法及装置制造方法及图纸

技术编号:19634982 阅读:29 留言:0更新日期:2018-12-01 15:43
本发明专利技术适用于大数据抽取技术领域,提供一种多类型且含复杂关系的实体抽取方法及装置,所述方法包括:构建训练样本;构建样本的分词特征;建立skip‑gram神经网络模型将字符转为向量;针对每种不同类型实体建立一个实体抽取BiLSTM‑CRF模型;根据不同类型实体间或者同一类型的不同具体实体单元之间的关系建立距离正则表达式,优化实体提取结果。本发明专利技术针对不同的BiLSTM‑CRF模型分别建立模型进行实体抽取,保证了每种类型的实体提取的准确性,另外,在本方法中,提取实体的同时,也提取了实体在文本中的位置,并且利用位置关系建立实体间的正则表达式,优化了模型提取的过多的且复杂的实体。

A Method and Device for Entity Extraction with Multiple Types and Complex Relations

The invention is applicable to the field of large data extraction technology, and provides a multi-type entity extraction method and device with complex relations. The methods include: constructing training samples; constructing word segmentation features of samples; establishing skip gram neural network model to convert characters into vectors; and establishing an entity for each different type of entity. BiLSTM CRF model is extracted, and the distance regular expression is established according to the relationship between different entities or different specific entities of the same type to optimize the entity extraction results. The method establishes models for entity extraction according to different BiLSTM CRF models, guarantees the accuracy of entity extraction for each type. In addition, in this method, while extracting entity, the position of entity in text is also extracted, and regular expressions between entities are established by using position relationship, and the model is optimized. Type A extracts too many and complex entities.

【技术实现步骤摘要】
一种多类型且含复杂关系的实体抽取方法及装置
本专利技术属于大数据抽取
,尤其涉及一种多类型且含复杂关系的实体抽取方法及装置。
技术介绍
互联网上公布的新闻、评论、公告、公示、博客等各种文字信息大部分都属于非结构化长文本数据,对于不同的行业领域,有不同的应用价值;但是不同题材的、或者同题材但是不同发布网站的、或不同的撰写者写的文本,其内容、格式、结构各不相同;并且长文本的信息量比短文本大很多,如实体类型多、同一种类型的实体对于不同的含义又有不同的类别、各种类型的实体之间存在直接或者间接的关联关系等。现有的技术虽然也能提取出实体,但是是基于短文本数据的,短文本因其长度有限,其内容信息比较少,含有的实体类型和同一类型的实体数量也很少,现有技术不能解决长文本中多种类型的实体共现的问题;现有技术方案将通过模型提取出实体作为最终结果,对提取的实体没有针对上下文的实际语义情况做后续处理。现有技术方案将提取实体作为结束条件,并且在同一个模型中同时提取所有类型的实体,在含有多种实体类型和复杂实体关系的长文本数据中,会导致提取不同类型的实体时错误率增加。目前情况下,从形式各异的长文本中获取有效且正本文档来自技高网...

【技术保护点】
1.一种多类型且含复杂关系的实体抽取方法,其特征在于,所述方法包括下述步骤:步骤S1、构建训练样本:对混合的有长短文本的语料数据按字符进行实体标注,并且对不同类型的实体分别创建标注样本;步骤S2、构建样本的分词特征:将步骤S1中的语料数据按照单个文本进行分词,并对每个分词进行标注,作为语料的分词特征;步骤S3、建立skip‑gram神经网络模型将字符转为向量;步骤S4、针对每种不同类型实体建立一个实体抽取BiLSTM‑CRF模型;步骤S5、根据不同类型实体间或者同一类型的不同具体实体单元之间的关系建立距离正则表达式,优化实体提取结果,具体优化过程如下:根据BiLSTM‑CRF模型和距离正则表达...

【技术特征摘要】
1.一种多类型且含复杂关系的实体抽取方法,其特征在于,所述方法包括下述步骤:步骤S1、构建训练样本:对混合的有长短文本的语料数据按字符进行实体标注,并且对不同类型的实体分别创建标注样本;步骤S2、构建样本的分词特征:将步骤S1中的语料数据按照单个文本进行分词,并对每个分词进行标注,作为语料的分词特征;步骤S3、建立skip-gram神经网络模型将字符转为向量;步骤S4、针对每种不同类型实体建立一个实体抽取BiLSTM-CRF模型;步骤S5、根据不同类型实体间或者同一类型的不同具体实体单元之间的关系建立距离正则表达式,优化实体提取结果,具体优化过程如下:根据BiLSTM-CRF模型和距离正则表达式计算最后的实体抽取准确度,若准确度k连续若干次计算均小于预设值,则重新调整距离正则表达式再次计算准确度,若准确度k大于或等于预设值时,确定当前距离正则表达式为最终的距离正则表达式,保存所有BiLSTM-CRF模型以及最终的距离正则表达式。2.如权利要求1所述多类型且含复杂关系的实体抽取方法,其特征在于,步骤S1中假设有M种不同类型的实体,则需生成M份标注不同类型实体的标注样本,其中同一种类型内的实体单元标注相同。3.如权利要求2所述多类型且含复杂关系的实体抽取方法,其特征在于,步骤S1中具体的实体标注模式为:若一个文本字符串是一个实体,那么文本字符串的开头字符标注为“B-实体类型名”,其它字符均标注为“I-实体类型名”;若一个文本字符串是一个实体但是只有一个字符,那么直接标注为”S-实体类型名”;语料数据中不是实体的字符全部标注为“O”。4.如权利要求3所述多类型且含复杂关系的实体抽取方法,其特征在于,步骤S2中所述分词特征为对分词结果中的每个字符进行标注,若字符是所在分词的第一个字符,标注为“B”;若字符是所在分词的最后一个字符,标注为“E”;若字符是所在分词的中间字符,标注为“I”;若分词后只有一个单字符,那么这个字符标注为“S”,并且按照“B”“I”“O”“S”顺序分别编码成数值1,2,3,4。5.如权利要求4所述多类型且含复杂关系的实体抽取方法,其特征在于,步骤S3具体过程如下:利用skip-gram神经网络模型进行训练,得到一个固定的字符特征向量文件,文件命名为vocb,其中每个字符都根据语义转为相同长度的向量,所述向量的长度为char_dim。6.如权利要求5所述多类型且含复杂关系的实体抽取方法,其特征在于,步骤S4中建立的BiLSTM-CRF模型是双向长短记忆神经网络算法BiLSTM和条件机场算法CRF的组合模型,每个BiLSTM-CRF模型输入对应类型的样本进行迭代训练,每个BiLSTM-CRF模型的迭代次数为ep...

【专利技术属性】
技术研发人员:吴杰杨曦沈满刘奕夫周游宇布恒
申请(专利权)人:武大吉奥信息技术有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1