一种公文关系抽取方法和装置制造方法及图纸

技术编号:30318229 阅读:40 留言:0更新日期:2021-10-09 23:21
本发明专利技术公开了一种公文关系抽取方法和装置,涉及人工智能技术领域。该方法的一具体实施方式包括:从原始文本文件中查找出现的至少一个公文实体,根据设定的筛选规则,从至少一个公文实体中筛选出需要抽取公文关系的公文实体作为目标公文实体;使用设定的第一字符串,替换原始文本文件中的目标公文实体,得到新文本文件;将新文本文件输入至预训练的序列标注模型,由序列标注模型为新文本文件中的字符打标签,输出标签序列;根据公文关系与实体类型的关联关系,确定标签序列中实体类型对应的公文关系。该实施方式通过序列标注模型识别出公文实体对应的实体类型,进而确定公文关系同时在识别之前减短了文本文件的长度,保证模型识别效果。型识别效果。型识别效果。

【技术实现步骤摘要】
一种公文关系抽取方法和装置


[0001]本专利技术涉及人工智能
,尤其涉及一种公文关系抽取方法和装置。

技术介绍

[0002]公文是法定机关或其他社会组织在公务活动中,具有法律效力和规范的文体。公文关系是指文本文件本身与该文本文件中出现的公文之间的关系。比如一篇文本文件:根据2020年发布的《条例A》,有关部门对《方案B》的部分条款进行了修订。抽取公文关系即抽取该文本文件与《条例A》、《方案B》之间的关系。
[0003]现有技术在抽取公文关系时,通常通过匹配公文标题前后的字词,来判定文本文件与该公文之间的关系。比如通过匹配《条例A》之前的“根据”,可以确定《条例A》与文本文件之间是“根据关系”。
[0004]在实现本专利技术过程中,现有技术中至少存在如下问题:
[0005]通过匹配方式抽取公文关系,需要罗列匹配的关键词,比如“根据”,但是文本文件中还可能出现其他关键词,比如“依照”、“按照”、“由
……”
等,导致无法完全罗列全部的关键词,因此该方式无法正确匹配到全部公文关系,准确度低。而且一篇文本文件中可能会出现多个公文,上述匹配方式需要针对每个公文进行匹配,无法一次性抽取所有公文关系。

技术实现思路

[0006]有鉴于此,本专利技术实施例提供一种公文关系抽取方法和装置,该方法将公文关系抽取问题转换为命名实体识别问题,用实体类型代表文本文件与公文实体之间的关系,通过序列标注模型识别出文本文件中出现的公文实体对应哪一种实体类型,同时在识别之前对文本文件进行处理,减短文本文件的长度,突出相对重要的信息,保证序列标注模型的识别效果。
[0007]为实现上述目的,根据本专利技术实施例的一个方面,提供了一种公文关系抽取方法。
[0008]本专利技术实施例的一种公文关系抽取方法,包括:从原始文本文件中查找出现的至少一个公文实体,根据设定的筛选规则,从所述至少一个公文实体中筛选出需要抽取公文关系的公文实体作为目标公文实体;使用设定的第一字符串,替换所述原始文本文件中的目标公文实体,得到新文本文件;其中,所述第一字符串的长度小于所述目标公文实体的文本长度;将所述新文本文件输入至预训练的序列标注模型,由所述序列标注模型为所述新文本文件中的字符打标签,输出标签序列;其中,所述标签包括根据公文关系的种类定义的公文实体的实体类型;根据所述公文关系与所述实体类型的关联关系,确定所述标签序列中所述实体类型对应的公文关系。
[0009]可选地,所述筛选规则为:所述公文实体与政策发布、制订相关;所述从所述至少一个公文实体中筛选出需要抽取公文关系的公文实体作为目标公文实体,包括:将所述至少一个公文实体输入至预训练的文本分类模型,由所述文本分类模型判断所述至少一个公文实体是否需要抽取公文关系,输出分类结果;将所述分类结果中需要抽取公文关系的公
文实体作为目标公文实体。
[0010]可选地,所述将所述新文本文件输入至预训练的序列标注模型,包括:从所述新文本文件中提取包含所述第一字符串的语句,将所述语句输入至预训练的序列标注模型;所述由所述序列标注模型为所述新文本文件中的字符打标签,输出标签序列,包括:由所述序列标注模型为所述语句中的字符打标签,输出标签序列。
[0011]可选地,所述由所述序列标注模型为所述语句中的字符打标签,输出标签序列,包括:使用所述序列标注模型对所述语句中的字符进行编码,得到所述字符对应的字向量;将所述字向量输入全连接层进行降维,将降维结果与设定的标签进行拟合,得到所述降维结果属于所述标签的概率;根据所述概率,确定所述字符的标签,生成标签序列并输出。
[0012]可选地,所述生成标签序列,包括:根据所述标签与设定标识符的对应关系,确定所述标签对应的标识符;按照所述语句中字符的先后顺序,将所述标识符组成标签序列。
[0013]可选地,所述方法还包括:对第一训练集中的语句样本进行标注,得到所述语句样本中的字符对应的标签;将标注后的语句样本输入至预训练语义模型,得到所述标注后的语句样本中字符对应的字向量,使用全连接层和激活函数对所述字向量进行处理,得到所述序列标注模型。
[0014]可选地,所述对第一训练集中的语句样本进行标注,包括:使用设定标识符,对所述第一训练集中的语句样本进行标注。
[0015]可选地,所述标签包括不相关标签、与所述实体类型对应的开始标签和结束标签。
[0016]可选地,所述方法还包括:对第二训练集的公文实体样本进行标注,得到所述公文实体样本对应的分类结果;其中,所述分类结果包括需要抽取公文关系和不需要抽取公文关系;将标注后的公文实体样本输入至预训练语义模型,训练所述预训练语义模型,得到所述文本分类模型。
[0017]可选地,所述方法还包括:使用设定的第二字符串,替换所述原始文本文件中不需要抽取公文关系的公文实体。
[0018]可选地,所述从原始文本文件中查找出现的至少一个公文实体,包括:从所述原始文本文件中查找包含指定标点符号的子文本,将所述子文本中除所述标点符号之外的部分作为一个公文实体。
[0019]可选地,所述方法还包括:根据所述公文关系的种类,定义所述公文实体的实体类型。
[0020]可选地,所述公文关系的种类包括以下一种或者多种:根据、废止、修订、提及、复函、贯彻落实、转发和印发;所述实体类型包括以下一种或者多种:根据公文实体、废止公文实体、修订公文实体、提及公文实体、复函公文实体、贯彻落实公文实体、转发公文实体和印发公文实体。
[0021]为实现上述目的,根据本专利技术实施例的另一方面,提供了一种公文关系抽取装置。
[0022]本专利技术实施例的一种公文关系抽取装置,包括:筛选模块,用于从原始文本文件中查找出现的至少一个公文实体,根据设定的筛选规则,从所述至少一个公文实体中筛选出需要抽取公文关系的公文实体作为目标公文实体;替换模块,用于使用设定的第一字符串,替换所述原始文本文件中的目标公文实体,得到新文本文件;其中,所述第一字符串的长度小于所述目标公文实体的文本长度;打标模块,用于将所述新文本文件输入至预训练的序
列标注模型,由所述序列标注模型为所述新文本文件中的字符打标签,输出标签序列;其中,所述标签包括根据公文关系的种类定义的公文实体的实体类型;确定模块,用于根据所述公文关系与所述实体类型的关联关系,确定所述标签序列中所述实体类型对应的公文关系。
[0023]可选地,所述筛选规则为:所述公文实体与政策发布、制订相关;所述筛选模块,还用于将所述至少一个公文实体输入至预训练的文本分类模型,由所述文本分类模型判断所述至少一个公文实体是否需要抽取公文关系,输出分类结果;以及将所述分类结果中需要抽取公文关系的公文实体作为目标公文实体。
[0024]可选地,所述打标模块,还用于从所述新文本文件中提取包含所述第一字符串的语句,将所述语句输入至预训练的序列标注模型;由所述序列标注模型为所述语句中的字符打标签,输出标签序列。
[0025]可选地,所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种公文关系抽取方法,其特征在于,包括:从原始文本文件中查找出现的至少一个公文实体,根据设定的筛选规则,从所述至少一个公文实体中筛选出需要抽取公文关系的公文实体作为目标公文实体;使用设定的第一字符串,替换所述原始文本文件中的目标公文实体,得到新文本文件;其中,所述第一字符串的长度小于所述目标公文实体的文本长度;将所述新文本文件输入至预训练的序列标注模型,由所述序列标注模型为所述新文本文件中的字符打标签,输出标签序列;其中,所述标签包括根据公文关系的种类定义的公文实体的实体类型;根据所述公文关系与所述实体类型的关联关系,确定所述标签序列中所述实体类型对应的公文关系。2.根据权利要求1所述的方法,其特征在于,所述筛选规则为:所述公文实体与政策发布、制订相关;所述从所述至少一个公文实体中筛选出需要抽取公文关系的公文实体作为目标公文实体,包括:将所述至少一个公文实体输入至预训练的文本分类模型,由所述文本分类模型判断所述至少一个公文实体是否需要抽取公文关系,输出分类结果;将所述分类结果中需要抽取公文关系的公文实体作为目标公文实体。3.根据权利要求1所述的方法,其特征在于,所述将所述新文本文件输入至预训练的序列标注模型,包括:从所述新文本文件中提取包含所述第一字符串的语句,将所述语句输入至预训练的序列标注模型;所述由所述序列标注模型为所述新文本文件中的字符打标签,输出标签序列,包括:由所述序列标注模型为所述语句中的字符打标签,输出标签序列。4.根据权利要求3所述的方法,其特征在于,所述由所述序列标注模型为所述语句中的字符打标签,输出标签序列,包括:使用所述序列标注模型对所述语句中的字符进行编码,得到所述字符对应的字向量;将所述字向量输入全连接层进行降维,将降维结果与设定的标签进行拟合,得到所述降维结果属于所述标签的概率;根据所述概率,确定所述字符的标签,生成标签序列并输出。5.根据权利要求4所述的方法,其特征在于,所述生成标签序列,包括:根据所述标签与设定标识符的对应关系,确定所述标签对应的标识符;按照所述语句中字符的先后顺序,将所述标识符组成标签序列。6.根据权利要求4所述的方法,其特征在于,所述方法还包括:对第一训练集中的语句样本进行标注,得到所述语句样本中的字符对应的标签;将标注后的语句样本输入至预训练语义模型,得到所述标注后的语句样本中字符对应的字向量,使用全连接层和激活函数对所述字向量进行处理,得到所述序列标注模型。7.根据权利要求6所述的方法,其特征在于,所述对第一训练集中的语句样本进行标注,包括:使用设定标识符,对所述第一训练集中的语句样本进行标注。
8.根据权利要求3至7的任一项所述的方法,其特征在于,所述标签包括不相关标签、与所述实体类型对应的开始标签和结束标签。9.根据权利要求2所述的方法,其特征在于,所...

【专利技术属性】
技术研发人员:聂砂刘海贾国琛罗奕康崔震戴菀庭师文宝
申请(专利权)人:中国建设银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1