【技术实现步骤摘要】
一种融入中文笔画信息的新闻文本摘要生成的方法及装置
本专利技术涉及自然语言处理中的文本摘要生成领域,具体而言,尤其涉及一种融入中文笔画信息的新闻文本摘要生成的方法及装置。
技术介绍
TextRank算法是一种有效的摘要生成算法,具有速度快,无监督的优点。传统的TextRank算法具有一些弊端,比如仅仅考虑了词频等离散信息,人们在后期的改进过程中将TextRank算法与词向量表示技术进行融合,提高了摘要生成的质量。但是目前已经存在的主要热门词向量模型例如Word2vec、FastText、Bert等都是基于西方语言,所以无法有效利用中文字符内部的语义信息。
技术实现思路
本专利技术提供了一种融入中文笔画信息的新闻文本摘要生成的方法及装置。将传统的TextRank算法与笔画信息融合,使用了Cw2vec模型,根据文本中的笔画信息将句子中的每个词语映射到高维词库,形成了融合中文笔划信息的句子向量,然后使用TextRank算法进行迭代,生成文本的摘要。本专利技术解决了现有方法无法有效利用中文字符内部的语义信息的问题 ...
【技术保护点】
1.一种融入中文笔画信息的新闻文本摘要生成的方法,其特征在于,包括:/n获取新闻文本数据,所述新闻文本数据包括新闻标题与正文;/n对所述新闻文本数据进行预处理,得到所述新闻文本数据的分词文本;/n对所述分词文本中的每个单词进行扫描得到该分词文本的笔画字典,将所述笔画字典转换为向量形式;/n基于向量形式的笔画字典,生成各单词基于笔画信息的嵌入,并根据各单词基于笔画信息的嵌入将句子表示成嵌入向量;/n将所述嵌入向量表示为有向图,并利用TextRank算法对所述有向图进行迭代,从而获得各个句子的得分,根据各个句子的得分生成摘要输出。/n
【技术特征摘要】
1.一种融入中文笔画信息的新闻文本摘要生成的方法,其特征在于,包括:
获取新闻文本数据,所述新闻文本数据包括新闻标题与正文;
对所述新闻文本数据进行预处理,得到所述新闻文本数据的分词文本;
对所述分词文本中的每个单词进行扫描得到该分词文本的笔画字典,将所述笔画字典转换为向量形式;
基于向量形式的笔画字典,生成各单词基于笔画信息的嵌入,并根据各单词基于笔画信息的嵌入将句子表示成嵌入向量;
将所述嵌入向量表示为有向图,并利用TextRank算法对所述有向图进行迭代,从而获得各个句子的得分,根据各个句子的得分生成摘要输出。
2.根据权利要求1所述的融入中文笔画信息的新闻文本摘要生成的方法,其特征在于,对所述新闻文本数据进行预处理,得到所述新闻文本数据的分词文本,包括:
根据中文的标点符号将所述新闻文本数据分为若干句子;
依次对每个句子进行数据清洗,删除重复数据与无效数据;
对清洗后的句子进行分词操作,将各单词之间用顿号隔开,从而得到新闻文本数据的分词文本。
3.根据权利要求1所述的融入中文笔画信息的新闻文本摘要生成的方法,其特征在于,基于向量形式的笔画字典,生成各单词基于笔画信息的嵌入,包括:
基于所述向量形式的笔画字典计算分词文本中每一个单词与上下文单词之间的相似度;
基于所述相似度,通过当前单词对其上下文单词进行概率建模,通过模型生成单词基于笔画信息的嵌入。
4.一种融入中文笔画信息的新闻...
【专利技术属性】
技术研发人员:周士华,颜静,王宾,吕卉,
申请(专利权)人:大连大学,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。