【技术实现步骤摘要】
一种基于模式识别的公文摘要抽取方法及系统
本专利技术涉及文本抽取
,特别是涉及一种基于模式识别的公文摘要抽取方法及系统。
技术介绍
通常意义上,文本摘要技术主要是利用计算机快速处理并自动总结出文本的核心内容。自动摘要技术的任务是从文本篇章中抽取具有对文章高度概括性的词、短语、句子,使用户可以根据自动概括出的核心内容来判断文本价值,从而提高用户准确获取信息的速度。摘要抽取技术综合运用了多种技术,包括自然语言分词,统计学,领域本体,文本关系图,关联模型等。文本摘要从生成方式可以分为抽取式和生成式方法。从处理文档类型不同可以分为单文档摘要和多文档摘要。其中抽取式模型中基于图的算法是目前常用的方法,通过切词后以句子为维度构建一篇文章中词句的关联图谱关系,根据图节点特性抽取其中重要的节点形成摘要,代表算法为textrank。基于深度学习实现摘要生成是生成式模型中的比较有代表性的一种,具体为准备大量的文本和对应的摘要形成训练集进行有监督训练,代表算法为seq2seq+attention。公文是法定机关与组织在公务活 ...
【技术保护点】
1.一种基于模式识别的公文摘要抽取方法,其特征在于,包括:/n获取待抽取目标内容的公文文本;/n根据行文模式判断所述公文文本是否包含目标内容,获得判断结果;/n若所述判读结果为是,则从所述公文文本中抽取目标内容。/n
【技术特征摘要】
1.一种基于模式识别的公文摘要抽取方法,其特征在于,包括:
获取待抽取目标内容的公文文本;
根据行文模式判断所述公文文本是否包含目标内容,获得判断结果;
若所述判读结果为是,则从所述公文文本中抽取目标内容。
2.根据权利要求1所述的基于模式识别的公文摘要抽取方法,其特征在于,所述行文模式是根据历史公文结构与段落获取的不同类别的行文句式规则。
3.根据权利要求1或2所述的基于模式识别的公文摘要抽取方法,其特征在于,所述行文模式包括行文目的、行文依据和行文内容。
4.根据权利要求1所述的基于模式识别的公文摘要抽取方法,其特征在于,所述从所述公文文本中抽取目标内容,具...
【专利技术属性】
技术研发人员:蓝建敏,池沐霖,
申请(专利权)人:京华信息科技股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。