The invention provides a method for measuring document similarity, including the following steps: building ontology knowledge base B document text preprocessing calculating the similarity of four types of information calculating the similarity of the remaining content of document document similarity. The document similarity obtained by the invention can be used for document retrieval, search and recommendation, can improve the convenience of civil servants'daily work, and uses the latest ontology knowledge base method to calculate document similarity. Compared with traditional classical algorithms, such as doc2vec, LDA, the calculation accuracy is higher.
【技术实现步骤摘要】
一种衡量公文相似性的方法
本专利技术涉及一种衡量公文相似性的方法,属于衡量公文相似性
技术介绍
在信息爆炸时代,文档、文章的增加速度远超搜索、导航算法的性能。在中国,大多数关于生活各方面的公共政策,如教育,医疗保健,房地产,金融等,都是通过官方A公文发布的。在某些领域,特别是房地产和教育领域,地方政策经常修订,不同城市采取不同的本地政策,使公民难以找到适当的A文件;对于公务员而言,在工作中需要查询各种各样的B机关文件以便撰写新的文件,分析A政策,向公众解读相关政策;此外,公众也发现很难精确的找到需要的A公文,因为中国流行的搜索引擎,如百度,搜狗,并不专注于公文的搜索和索引。因此加大了市民和公务员寻找相关公文的难度,除了搜索引擎之外,如果用户想要找到不知道的相关文档,则还需要推荐系统。目前,大多数文献都关注词、句子和段落之间的语义相似性,准确地测量语义相关性或文档之间的相似性在许多应用中起着重要作用,例如搜索、推荐等。然而,由于自然语言语义的复杂性,比较文档之间的语义相似性也极其困难。通常,如果文档被认为具有相同的含义或传达相同的想法或主题,则认为它们是相 ...
【技术保护点】
1.一种衡量公文相似性的方法,其特征在于:包括以下步骤:①构建本体知识库:构建A机关单位和B公文主题的本体知识库;②B公文文本预处理:抽取需要对比相似性的两篇公文中的四类信息:机关单位信息、主题信息、体裁信息、发文日期信息;③计算四类信息的相似性:分别计算两篇公文的机关单位相似性、主题相似性、体裁相似性、发文日期相似性;④计算公文剩余内容的相似性:将除了机关单位、公文主题、体裁、发文日期之外的文本信息,通过doc2vec计算相似性;⑤公文相似性:将④和⑤中的相似性进行加权求和,获取两篇公文的相似性。
【技术特征摘要】
1.一种衡量公文相似性的方法,其特征在于:包括以下步骤:①构建本体知识库:构建A机关单位和B公文主题的本体知识库;②B公文文本预处理:抽取需要对比相似性的两篇公文中的四类信息:机关单位信息、主题信息、体裁信息、发文日期信息;③计算四类信息的相似性:分别计算两篇公文的机关单位相似性、主题相似性、体裁相似性、发文日期相似性;④计算公文剩余内容的相似性:将除了机关单位、公文主题、体裁、发文日期之外的文本信息,通过doc2vec计算相似性;⑤公文相似性:将④和⑤中的相似性进行加权求和,获取两篇公文的相似性。2.如权利要求1所述的衡量公文相似性的方法,其特征在于:所述步骤②分为以下步骤:(2.1)获取机关单位信息:通过正则匹配,抽取公文中的发文机关、收文机关;(2.2)获取公文主题信息:从A文件中抽取标题和前两段,匹配并丢弃机关单位信息,再进行基本的文本预处理;(2.3)获取体裁信息:根据体裁的具体作用,将体裁分为细分体裁,通过正则匹配,确定公文体裁信息;(2.4)获取发文日期信息:通过正则匹配公文中的时间。3.如权利要求2所述的衡量公文相似性的方法,其特征在于:所述步骤(2.2)中,文本预处理分为以下步骤:(2.2.1)对剩余文本进行分词和消除停用词,仅包含在所有文档语料库中仅出现一次的数字和单词的单词;(2.2.2)从剩余的词中匹配主题本体库中的关键字,确定A文档的主题标签。4.如权利要求2所述的衡量公文相似性的方法,其特征在于:所述步骤(2.3)中,体裁根据《党政机关公文格式》分为15种,每种体裁根据具体作用再细分一级,成细分体裁。5.如权利要求1所述的衡量公文相似性的方法,其特征在于:所述步骤③中,基于本体知识库,计算机关单位相似性Sdep(ex,ey)的计算公式为:Sdep(ex,ey)=1-d(ex,ey);其中,ex,ey是机关单位,d(ex,ey)是ex,ey在本体知识库中的距离;所述d(ex,ey)的计算公式为:其中,d(root,x)代表节点x到本体知识库根节点的距离,d(root,y)代表节点y到本体知识库根节点的距离,d(lca(x,y),x)代表节点x到x与y的共同最近节点间的距离,d(lca(x,y),y)代表节点y到x与y的共同最近节点间的距离;当一篇公文中含有多个机关单位时,两篇公文中机关单位信息相似性Sdep(i,j)的计算公式为:其中,ei,m是公文i中的第m个机关单位,∈j,m是公文j中离公文i中第m个机关单位最近的机关单位,M是在公文i中出现的部门实体总数,N是在公文j中出现的部门实体总数,d(ei,m,∈j,m)是机关单位ei,m与∈j,m在...
【专利技术属性】
技术研发人员:李泽源,方鑫,王鹏,陈达纲,宋亚军,李泽松,
申请(专利权)人:中电科大数据研究院有限公司,
类型:发明
国别省市:贵州,52
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。