基于文本语义挖掘的标准化自动建档方法技术

技术编号:11365142 阅读:80 留言:0更新日期:2015-04-29 15:30
本发明专利技术涉及一种基于文本语义挖掘的标准化自动建档方法,其特征在于:从网上爬取文件,利用文本语义,对爬取的文件和本地文件进行信息抽取、关键词提取和自动摘要生成,最后存入信息化系统中。所述信息抽取,采用知识工程的方法建立规则集,自动将信息点从文档中抽取出来,形成结构化数据;所述关键词提取,主要是根据词语在文章的位置和语义,提取关键词,生成关键词索引;所述自动摘要,先设定摘要所要包含的内容,然后从文本中提取对应信息,计算句子间的相似度,抽取包含原文档中关键信息的文本。本发明专利技术之标准化自动建档方法,可以使业务人员免于阅读大量的文件,节省时间和人力,方便查询和使用。

【技术实现步骤摘要】

【技术保护点】
基于文本语义挖掘的标准化自动建档方法, 其特征在于:将文本语义分析相关技术——信息抽取、关键词提取、自动摘要技术,应用到有一定的内容和格式要求的文本中,形成一种文档标准化自动建档的方法;所述信息抽取,主要是采用自然语言处理方法,首先人工抽取规则,然后对法律文本进行句法和语义分析,采用基于python的正则表达式的方法实现自动化抽取;所述关键词提取,主要是应用基于语义和统计相结合的方法,用基于HowNet的词语相似度计算词语相似度,筛选后形成关键词,并建立关键词索引;所述自动摘要,首先从文本中抽取包含摘要信息的句子,然后计算句子间的相似度,合并句子形成摘要信息。

【技术特征摘要】

【专利技术属性】
技术研发人员:程宏亮梁栋卢耀宗强劲张兵刘华兴张小平
申请(专利权)人:西安美林数据技术股份有限公司
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1