【技术实现步骤摘要】
一种标准文本的查重方法及系统
本专利技术涉及文本文献查重领域,尤其涉及一种标准文本的查重方法及系统。
技术介绍
当今世界,标准化水平已成为各国各地区核心竞争力的基本要素。随着新标准化法的作用日益显现、全国各标准化试点建设发展,国家、地方、企业、行业、团体的各类标准的编写制定任务日益繁重,而标准制定涉及知识产权保护的复杂性,故在具体标准编写完毕之后、正式发布之前,对标准文本进行查重比对工作十分重要。而目前针对这一块工作的查重方法及系统建设十分匮乏,亟需填补。
技术实现思路
本专利技术的目的是针对现有技术的缺陷,提供了一种标准文本的查重方法及系统。为了实现以上目的,本专利技术采用以下技术方案:一种标准文本查重方法,所述方法包括:根据上传的标准文本,从中提取有关信息;对提取的有关信息进行预处理,即按照标准文本的要素格式将提取的有关信息划分为不同要素板块的待查重数据;对各要素板块的待查重数据进行语义分析,确定该要素板块待查重数据的关键句或关键字词;根据关键句或关键字 ...
【技术保护点】
1.一种标准文本查重方法,其特征在于,所述方法包括:/n根据上传的标准文本,从中提取有关信息;/n对提取的有关信息进行预处理,即按照标准文本的要素格式将提取的有关信息划分为不同要素板块的待查重数据;/n对各要素板块的待查重数据进行语义分析,确定该要素板块待查重数据的关键句或关键字词;/n根据关键句或关键字词调度标准文本资料库中的相关标准文本,将待查重数据进行文本相似度的计算,通过计算获取各个标准文本要素板块以及调度出的各相应标准文本的相似度;具体步骤如下所述:/n所上传的标准文本在分解成各个不同要素板块之后,以各个要素板块为单位,将每个要素板块单位里的所有句子与标准文本资料 ...
【技术特征摘要】
1.一种标准文本查重方法,其特征在于,所述方法包括:
根据上传的标准文本,从中提取有关信息;
对提取的有关信息进行预处理,即按照标准文本的要素格式将提取的有关信息划分为不同要素板块的待查重数据;
对各要素板块的待查重数据进行语义分析,确定该要素板块待查重数据的关键句或关键字词;
根据关键句或关键字词调度标准文本资料库中的相关标准文本,将待查重数据进行文本相似度的计算,通过计算获取各个标准文本要素板块以及调度出的各相应标准文本的相似度;具体步骤如下所述:
所上传的标准文本在分解成各个不同要素板块之后,以各个要素板块为单位,将每个要素板块单位里的所有句子与标准文本资料库里相关标准里的所有句子一一比对,得出每个句子中相异和相同词语的数量值;
将异同数量值之比作为各要素板块中每个句子与对比标准文本中每个句子的相似度,并取其中最高值,作为该要素板块与对比标准文本的总相似度;
将各个要素板块的总相似度进行加权平均,最终得到上传标准文本内容以及对比的标准文本内容的文本相似度。
2.根据权利要求1所述的一种标准文本查重方法,其特征在于:根据上传标准文本各要素板块内的关键字词或关键句,调度标准文本资料库内的相关标准文本。
3.根据权利要求2所述的调度标准文本资料库内的相关标准,其特征在于:根据上传标准文本各要素板块内的关键字词或关键句,筛选标准文本资料库内,含有相同或相似标准名称或标准文本内容中相同或相似各级标题的标准。
4.根据权利要求1所述的一种标准文本查重方法,其特征在于:从上传标准文本信息中提取有关信息为对比的样本,具体包括:从上传的标准文本信息中任取一条信息作为对比样本。
5.根据权利要求1所述的一种标准文本查重方法,其特征在于:对上传的标准文本进行要素板块划分,具体包括:按照标准的必备要素和可选要素对上传的标准文本进行要素板块划分。
6.根据权利要...
【专利技术属性】
技术研发人员:汤楚天,朱培武,董大展,齐文心,洪诗婷,
申请(专利权)人:中国计量大学,杭州合秩标准技术服务有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。