【技术实现步骤摘要】
一种基于文本摘要的政策要点抽取方法与提取系统
[0001]本专利技术涉及人工智能和自然语言处理领域,特别涉及一种基于文本摘要的政策要点抽取方法与提取系统。
技术介绍
[0002]近年来,由于互联网用户每天在互联网上分享和传递大量以文本形式展现的信息,互联网上的文本信息出现爆发式增长。当用户浏览海量的互联网文本数据时,很难快速准确地获取其中的关键信息。这导致用户需要花费很多的时间和精力去自行概括文本中的重要内容。因此,如何能够从这些海量的长文本中提取出用户最关注的内容,提升对于信息处理的效率,成为了当下自然语言处理领域迫在眉睫的研究工作。
[0003]一个好的摘要内容需要满足摘要内容重要性高、多样性高、冗余度低和可读性高等多方面的要求。对文本摘要按照生成方式的不同进行分类,可分为抽取式文本摘要(Extractive Summarization)和生成式文本摘要(Abstractive Summarization)。其中,抽取式文本摘要能够直接从原文中抽取句子,并对其进行重要性排序,形成最终的摘要。生成式文本摘要在对原文 ...
【技术保护点】
【技术特征摘要】
1.一种基于文本摘要的政策要点抽取方法,其特征在于,该方法包括如下步骤:S1.构造政策要点抽取数据集,对政策数据集和解读内容进行标签构造;S2.抽取基于文本摘要的政策要点,对政策要点数据集进行抽取式文本摘要算法模型构建;S3.基于关键单词进行候选政策要点抽取,通过对步骤S2中得到的候选政策要点通过关键词进行二次筛选,作为最终的政策要点抽取结果。2.根据权利要求1所述的基于文本摘要的政策要点抽取方法,其特征在于,步骤S1中所述构造政策要点抽取数据集的具体方法是:S11.对于一篇政策文档d和其对应的标准摘要集合用R表示,根据词表将输入文本单词转化成数字;S12.初始化每个句子标签为,预测摘要集合S为空;S13.当预测摘要集合S的单词个数小于摘要约束N=1000,尝试把每一句没有加入预测摘要集合S的句子加入预测摘要集合S,取与标准摘要集合R的文本摘要算法经典评价指标ROUGE
‑
1(S,R)最大的句子;S14.如果该句子加入预测摘要集合S后比不加入ROUGE
‑
1分数高,那么就把该句加入预测摘要集合S,同时将句子标签置为1;否则退出循环。3.根据权利要求1所述的基于文本摘要的政策要点抽取方法,其特征在于,步骤S2中所述抽取基于文本摘要的政策要点的具体方法是:S21.参数定义:对于一篇给定的政策文档,n表示该政策文档d中包含n个句子,s
i
表示该政策文本中的第i个句子,每个句子由m个单词构成,即,所以,,w
ij
表示第i句话中的第j个单词,模型的输出为每个句子对应的标签, ,标签“1”表示这句话出现在政策要点内容中,标签“0”表示这句话不出现在政策要点内容中;S22.词性标注:给定一篇包含n个句子,每个句子包含m个单词的政策文档,输出每个单词对应的词性标签 ,词性标签包含动词、名词、副词、形容词;所述词性标注采用基于神经网络搭建的词性标注模型,具体方法是:1)对输入的政策文档d进行词嵌入式表示,即将每个单词映射在低维稠密向量上,然后输入到前向和后向LSTM中进行特征提取;2)将前向和后向LSTM的输出隐状态拼接后得到每个单词的隐状态,即第i句话中的第j个单词的隐状态;3)将每个单词的隐状态 输入到分类器得到每个单词所对应的词性标签;
S23.设计基于多任务学习的抽取式文本摘要模型,该模型包含输入层、词性标注层、单词层、句子层、文档层和预测层这六个部分,具体地:1)输入层:将政策文档中的每条句子s
i
,进行词嵌入式表示,即:,其中,s
ij
表示句子s
i
中的第j个单词,表示该单词采用词嵌入式表示后的向量;2)词性标注层:将每条句子的词嵌入示表示结果输入到前向和后向LSTM中,得到词性标注任务的隐状态:其中,表示词性标注层中句子s
i
中的第j个单词的隐状态;3)单词层:将词性标注中每个单词的隐状态输入到单词层前向和后向LSTM中,得到单词层的隐状态:其中,表示单词层句子s
i
中的第j个单词的隐状态;4)句子层:采用将句内单词的单词层隐状态叠加的形式,构成句子的语义表示 ,公式表示如下:其中,w,b为可学习的参数;5)文档层:通过随机初始化文档级别的语义信息doc作为文档级别的信息表示,且通过模型训练更新该语义信息...
【专利技术属性】
技术研发人员:麦丞程,仇学明,黄宜华,吕爽,周昌东,
申请(专利权)人:南京鸿程信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。