一种应用文自动生成方法技术

技术编号:14642563 阅读:93 留言:0更新日期:2017-02-15 22:38
本发明专利技术涉及一种应用文自动生成方法,包括以下步骤:步骤1)建立语料库;步骤2)选择多个适用实体并输入其对应的具体内容;步骤3)建立模板库并从中选择一个模板;步骤4)对所选择的模板进行润色。本发明专利技术提供的应用文自动生成方法,建立的语料库数据量大,适用实体的选择准确,自动生成的应用文中没有无关内容,应用于同一场合的应用文不会产生雷同,文章语言生动,基本不需要人再进行大的修改,可以很好地满足实际应用的需要。

【技术实现步骤摘要】

本专利技术属于文字信息数据处理
,具体涉及一种应用文自动生成方法
技术介绍
随着计算机技术和互联网的快速发展,人们不再仅仅把计算机当做一种写作载体、工具使用,而是开始让计算机发挥更多、更加智能的作用,例如利用计算机进行智能辅助写作,尤其是写作应用文等模板化要求较高的文体文章。由于应用文是一种受限语体,其格式较为固定,模板化程度较高,因此利用计算机自主地组织材料自动生成应用文的可操作性和实用性很强。当前有较多的利用计算机自动生成应用文的方法以及实现这些方法的相关应用软件,但是,其普遍存在如下缺陷:建立的语料库数据量太小、适用实体的选择不够准确、自动生成的应用文中无关内容较多、应用于同一场合的应用文雷同程度较高、自动生成的文章语言刻板枯燥缺乏生动性等。因此,利用现有技术的应用文自动生成方法生成的应用文往往需要经过人工进行大量的修改和润色才能符合使用要求,需要耗费人很多的精力和时间。
技术实现思路
针对上述现有技术中存在的问题,本专利技术的目的在于提供一种可避免出现上述技术缺陷的应用文自动生成方法。为了实现上述专利技术目的,本专利技术提供的技术方案如下:一种应用文自动生成方法,包括以下步骤:步骤1)建立语料库;步骤2)选择多个适用实体并输入其对应的具体内容;步骤3)建立模板库并从中选择一个模板;步骤4)对所选择的模板进行润色。进一步地,所述步骤1)具体为:采用爬虫技术,从网上抓取文本,获取所需要的语料;去掉语料中的无关内容,保留其原来的分段结构,然后利用其构成语料库。进一步地,所述步骤2)具体为:根据用户输入的应用文适用场景选择出多个实体,构成实体候选项集,然后对实体候选项集进行过滤,再根据阅读文本的经验进行挑选,获得最终的多个适用实体,然后再输入每个适用实体所对应的具体内容。进一步地,所述步骤3)具体为:先分析所述语料库中文本的段落结构,然后再分析段内的结构,建立起从篇到段再到句然后到词的模板库。进一步地,所述步骤4)具体为:对所选择的模板中的词语、句子分别进行同义词、同义句的替换。进一步地,所述应用文为运动会开幕词。进一步地,所述步骤1)具体为:采用爬虫技术,从互联网上抓取3万篇开幕词;采用字符串匹配的方法,选出1200篇运动会开幕词,然后对该1200篇开幕词进行预处理;预处理主要包括以下步骤:(1)去掉开幕词中的无关内容,(2)保留开幕词的分段结构,(3)过滤掉无用标签和连续的空行;利用经过预处理的开幕词构成语料库。进一步地,所述步骤2)中的多个适用实体为时间、机构、贵宾和学校概况。进一步地,所述步骤3)具体为:把语料库中的整篇的运动会开幕词分成段;对称呼段、首段、尾段进行分类。进一步地,所述步骤4)具体为:根据语料库中的运动会开幕词,选择40对同义词,同时以哈尔滨工业大学信息检索实验室的《同义词词林(扩展板)》作为同义词词典对同义词词库进行扩展,将得到的同义词词库中的词语存储到哈希表中;利用哈希表中存储的同义词对所选择的模板文章进行同义词替换,并从语料库中搜索同义句来对所选择的模板文章进行同义句替换,从而完成对所生成的运动会开幕词的润色,自动生成一篇大学生运动会开幕词。本专利技术提供的应用文自动生成方法,建立的语料库数据量大,适用实体的选择准确,自动生成的应用文中没有无关内容,应用于同一场合的应用文不会产生雷同,文章语言生动,基本不需要人再进行大的修改,可以很好地满足实际应用的需要。附图说明图1为本专利技术的流程图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本专利技术做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。如图1所示,一种应用文自动生成方法,包括以下步骤:步骤1)建立语料库;所述步骤1)具体为:采用爬虫技术,从网上抓取文本,获取所需要的语料;去掉语料中的无关内容,保留其原来的分段结构,然后利用其构成语料库。步骤2)选择多个适用实体并输入其对应的具体内容;所述步骤2)具体为:根据应用文的适用场景选择出多个实体,构成实体候选项集,然后对实体候选项集进行过滤,再根据阅读文本的经验进行挑选,获得最终的多个适用实体,然后输入每个适用实体所对应的具体内容。在使用时,用户需要在人机交互界面输入每个适用实体所对应的具体内容,例如在计算机的“时间”输入栏中输入“春季”或“秋季”,在“机构”输入栏中输入“某大学”等。步骤3)建立模板库并从中选择一个模板;所述步骤3)具体为:先分析所述语料库中文本的段落结构,然后再分析段内的结构,建立起从篇到段再到句然后到词的模板库。用户选择一个模板;如果用户不选模板,那么计算机根据用户输入的适用实体的具体内容自行选择一个模板。步骤4)对所选择的模板进行润色;所述步骤4)具体为:对所选择的模板文章的词语、句子进行同义词、同义句的替换。本实施例以大学生运动会开幕词为例说明本专利技术的具体实施方式,具体如下:第一步,建立大学生运动会开幕词的语料库;采用爬虫技术,从互联网上抓取3万篇开幕词文本,采用字符串匹配的方法,从这3万篇开幕词中选出1200篇大学生运动会开幕词;然后对该1200篇开幕词进行预处理,预处理主要包括以下步骤:(1)去掉开幕词中的无关内容,比如一些广告、网站介绍、链接等;(2)保留开幕词的分段结构,遇到一些换行的标签进行换行,比如</P>、</p>、<br>、<BR>等;(3)过滤掉无用标签和连续的空行;最后,利用经过预处理的开幕词文本构成语料库。第二步,选择大学生运动会开幕词所适用的多个适用实体并输入其对应的具体内容;根据运动会开幕词的适用场景选择出多个实体,构成实体候选项集,然后采用TF-IDF算法或TextRank算法对实体候选项集进行过滤,再根据阅读文本的经验进行挑选,获得最终的时间、机构、贵宾和学校概况四个适用实体,然后,在人机交互界面输入每个适用实体所对应的具体内容,例如在计算机的“机构”输入栏中输入举办大学生运动会的学校名称、在“时间”输入栏中输入“春季”或“秋季”等。第三步,建立大学生运动会开幕词的模板库并从中选择一个模板;一般地,一篇运动会开幕词一般分为五段,分别是:称呼段、首段、中间段上、中间段下、尾段。称呼段就是开幕词的开场白,例如,“尊敬的各位来宾,全体运动员、裁判员,老师们、同学们:”。首段就是开幕词的第一段,主要是描述下当时景色,然后在表达一下谢意,例如“春风吹拂,杨柳飘飘,风和日丽,万物复出………,向………表示感谢”。中间段上一般就是介绍学校在体育方面的教育方针以及在体育方面取得的成绩。中间段下一般就是表达对运动员的期望,对工作人员或者观众的要求。尾段就是开幕词的最后一段,主要就是表达对运动会、对运动员们的祝福。根据运动会开幕词的特点,把语料库中的整篇的大学生运动会开幕词分成段,对称呼段、首段、尾段进行分类。通过对称呼段的聚类,把称呼段分成尊称类和自然类两类。经过分析开幕词的称呼段,可以发现发表讲话的人的身份不同,首段的敬语会有一些细微的差别。一般发表开幕词讲话的不外乎三类人:学生、老师、学校校长或者某一位领导。身份的不同,会导致讲话的语气会有稍微的不同。学生、老师,一般会用尊称,向领导和参会人员问好,而校长或者领导,更多本文档来自技高网...
一种应用文自动生成方法

【技术保护点】
一种应用文自动生成方法,其特征在于,包括以下步骤:1)建立语料库;2)选择多个适用实体并输入其对应的具体内容;3)建立模板库并从中选择一个模板;4)对所选择的模板进行润色。

【技术特征摘要】
1.一种应用文自动生成方法,其特征在于,包括以下步骤:1)建立语料库;2)选择多个适用实体并输入其对应的具体内容;3)建立模板库并从中选择一个模板;4)对所选择的模板进行润色。2.根据权利要求1所述的应用文自动生成方法的步骤1),其特征在于,所述步骤1)具体为:采用爬虫技术,从网上抓取文本,获取所需要的语料;去掉语料中的无关内容,保留其原来的分段结构,然后利用其构成语料库。3.根据权利要求1所述的应用文自动生成方法的步骤2),其特征在于,所述步骤2)具体为:根据用户输入的应用文适用场景选择出多个实体,构成实体候选项集,然后对实体候选项集进行过滤,再根据阅读文本的经验进行挑选,获得最终的多个适用实体,然后再输入每个适用实体所对应的具体内容。4.根据权利要求1所述的应用文自动生成方法的步骤3),其特征在于,所述步骤3)具体为:先分析所述语料库中文本的段落结构,然后再分析段内的结构,建立起从篇到段再到句然后到词的模板库。5.根据权利要求1所述的应用文自动生成方法的步骤4),其特征在于,所述步骤4)具体为:对所选择的模板中的词语、句子分别进行同义词、同义句的替换。6.根据权利要求1-5所述的应用文自动生成方法,其特征在于,所述应用文为运动会开幕词。7.根据权...

【专利技术属性】
技术研发人员:周建设吕学强刘秀磊苗琳
申请(专利权)人:首都师范大学北京信息科技大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1