一种信息处理的方法及装置制造方法及图纸

技术编号:16346132 阅读:41 留言:0更新日期:2017-10-03 22:24
本发明专利技术公开了一种信息处理的方法及装置,属于通信领域。所述方法包括:通过分词系统和实体识别系统标记非结构化文本文件中包括的指示代词和实体机构的机构名称;获取所述指示代词属于的代词分类;根据所述代词分类和被标记的所述实体机构的机构名称,确定所述指示代词所指代的实体机构的机构名称;在所述非结构化文本文件中将所述指示代词替换为所述指示代词所指代的实体机构的机构名称。所述装置包括:识别模块、获取模块、确定模块和替换模块。本发明专利技术提高信息提取的效率和准确性。

【技术实现步骤摘要】
一种信息处理的方法及装置
本专利技术涉及信息提取及文本挖掘领域,特别涉及一种信息处理的方法及装置。
技术介绍
大部分企业在运作时都会产生大量的企业公文,企业的企业公文中包括大量有助于了解企业的有用信息。为了便于用户快速了解企业,可以采用计算机从企业公文中提取有用信息并显示给用户。企业公文在撰写时常常使用自然语言进行撰写。在撰写时为了避免文章中词汇的重复使用,使文章更加简洁、紧凑,在写作中指示代词会被频繁使用。例如,某公司的企业公文中可能大量使用本公司这个指示代词来代替该公司的公司名称,由于公司名称包括的文字数目往往较多,使用本公司代替公司名称,使文章变的简洁、紧凑。在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题:由于企业公文包括大量的指示代词,这样计算机在对企业公文进行信息提取时,由于不知道指示代词指代的对象是什么,给计算机对企业公文的分析增加难度,降低信息提取的效率和准确性。
技术实现思路
为了提高信息提取的效率和准确性,本专利技术提供了一种信息处理的方法及装置。所述技术方案如下:第一方面,提供了一种信息处理的方法,所述方法包括:通过分词系统和实体识别系统标记非结构化文本文件中包括的指示代词和实体机构的机构名称;获取所述指示代词属于的代词分类;根据所述代词分类和被标记的所述实体机构的机构名称,确定所述指示代词所指代的实体机构的机构名称;在所述非结构化文本文件中将所述指示代词替换为所述指示代词所指代的实体机构的机构名称。可选的,所述获取所述指示代词属于的代词分类,包括:确定所述指示代词所属于的指示代词集合,所述指示代词集合包括预设的至少一个指示代词;根据所述指示代词集合的集合标识,从集合标识与代词分类的对应关系中获取所述指示代词属于的代词分类。可选的,所述根据所述代词分类和被标记的所述实体机构的机构名称,确定所述指示代词所指代的实体机构的机构名称,包括:当所述代词分类为预指类全局有效代词时,在所述非结构化文本文件中查找位于所述指示代词之后的第一个被标记的机构名称并确定为所述指示代词所指代的实体机构的机构名称;当所述代词分类为回指类局部有效代词时,在所述非结构化文本文件中查找位于所述指示代词之前的第一个被标记的机构名称并确定为所述指示代词所指代的实体机构的机构名称;当所述代词分类为回指类全局有效代词时,在所述非结构化文本文件中确定首次出现所述指示代词的位置,查找位于所述位置之前的第一个被标记的机构名称并确定为所述指示代词所指代的实体机构的机构名称。可选的,所述通过分词系统和实体识别系统标记非结构化文本文件中包括的指示代词和实体机构的机构名称之后,还包括:根据预设的规则表达式识别所述非结构化文本文件包括的实体机构的简称和全称,所述规则表达式定义了实体机构的简称对应的句式结构;将所述非结构化文本文件包括的所述实体机构的简称替换为所述实体机构的全称。可选的,所述根据预设的规则表达式识别所述非结构化文本文件包括的实体机构的简称和全称,包括:从所述非结构化文本文件中识别出所述预设的规则表达式所定义的句式结构的字符串,所述字符串包括实体机构的简称;从所述非结构化文本文件中查找位于所述字符串之前的第一个被标记的机构名称并确定为所述实体机构的机构名称为所述实体机构的全称。第二方面,提供了一种信息处理的装置,所述装置包括:识别模块,用于通过分词系统和实体识别系统标记非结构化文本文件中包括的指示代词和实体机构的机构名称;获取模块,用于获取所述指示代词属于的代词分类;确定模块,用于根据所述代词分类和被标记的所述实体机构的机构名称,确定所述指示代词所指代的实体机构的机构名称;替换模块,用于在所述非结构化文本文件中将所述指示代词替换为所述指示代词所指代的实体机构的机构名称。可选的,所述获取模块包括:第一确定单元,用于确定所述指示代词所属于的指示代词集合,所述指示代词集合包括预设的至少一个指示代词;获取单元,用于根据所述指示代词集合的集合标识,从集合标识与代词分类的对应关系中获取所述指示代词属于的代词分类。可选的,所述确定模块包括:第二确定单元,用于当所述代词分类为预指类全局有效代词时,在所述非结构化文本文件中查找位于所述指示代词之后的第一个被标记的机构名称并确定为所述指示代词所指代的实体机构的机构名称;第三确定单元,用于当所述代词分类为回指类局部有效代词时,在所述非结构化文本文件中查找位于所述指示代词之前的第一个被标记的机构名称并确定为所述指示代词所指代的实体机构的机构名称;第四确定单元,用于当所述代词分类为回指类全局有效代词时,在所述非结构化文本文件中确定首次出现所述指示代词的位置,查找位于所述位置之前的第一个被标记的机构名称并确定为所述指示代词所指代的实体机构的机构名称。可选的,所述识别模块,还用于根据预设的规则表达式识别所述非结构化文本文件包括的实体机构的简称和全称,所述规则表达式定义了实体机构的简称对应的句式结构;所述替换模块,还用于将所述非结构化文本文件包括的所述实体机构的简称替换为所述实体机构的全称。可选的,所述识别模块包括:识别单元,用于从所述非结构化文本文件中识别出所述预设的规则表达式所定义的句式结构的字符串,所述字符串包括实体机构的简称;查询标记单元,用于从所述非结构化文本文件中查找位于所述字符串之前的第一个被标记的机构名称并确定为所述实体机构的机构名称为所述实体机构的全称。第三方面,提供了一种计算机可读存储介质,存储计算机程序,包括:用于通过分词系统和实体识别系统标记非结构化文本文件中包括的指示代词和实体机构的机构名称的指令;用于获取所述指示代词属于的代词分类的指令;用于根据所述代词分类和被标记的所述实体机构的机构名称,确定所述指示代词所指代的实体机构的机构名称的指令;用于在所述非结构化文本文件中将所述指示代词替换为所述指示代词所指代的实体机构的机构名称的指令。第四方面,提供了一种计算程序产品,所述计算机程序产品包括在所述计算机可读存储介质中存储的所述计算机程序,并且所述计算程序通过处理器进行加载来实现如下的方法,包括:通过分词系统和实体识别系统标记非结构化文本文件中包括的指示代词和实体机构的机构名称;获取所述指示代词属于的代词分类;根据所述代词分类和被标记的所述实体机构的机构名称,确定所述指示代词所指代的实体机构的机构名称;在所述非结构化文本文件中将所述指示代词替换为所述指示代词所指代的实体机构的机构名称。本专利技术提供的技术方案的有益效果是:通过标记非结构化文本文件中包括的指示代词和实体机构的机构名称,获取标记的指示代词属于的代词分类,根据该代词分类和被标记的实体机构的机构名称,确定该指示代词所指代的实体机构的机构名称,在非结构化文本文件中将该指示代词替换为该指示代词所指代的实体机构的机构名称。由于将非结构化文本文件中的每个指示代词替换为各自所指代的实体机构的机构名称,减少了对非结构化文本文件的分析难度,提高了信息提取的效率和准确性。附图说明图1是本专利技术实施例1提供的一种信息处理的方法流程图;图2-1是本专利技术实施例2提供的一种信息处理的方法流程图;图2-2是本专利技术实施例2提供的一种非结构化文本文件的示意图;图3-1是本专利技术实施例3提供的一种信息处理的方法流程图;图3-2是本专利技术实施例3提供的一种非本文档来自技高网...
一种信息处理的方法及装置

【技术保护点】
一种信息处理的方法,其特征在于,所述方法包括:通过分词系统和实体识别系统标记非结构化文本文件中包括的指示代词和实体机构的机构名称;获取所述指示代词属于的代词分类;根据所述代词分类和被标记的所述实体机构的机构名称,确定所述指示代词所指代的实体机构的机构名称;在所述非结构化文本文件中将所述指示代词替换为所述指示代词所指代的实体机构的机构名称。

【技术特征摘要】
1.一种信息处理的方法,其特征在于,所述方法包括:通过分词系统和实体识别系统标记非结构化文本文件中包括的指示代词和实体机构的机构名称;获取所述指示代词属于的代词分类;根据所述代词分类和被标记的所述实体机构的机构名称,确定所述指示代词所指代的实体机构的机构名称;在所述非结构化文本文件中将所述指示代词替换为所述指示代词所指代的实体机构的机构名称。2.如权利要求1所述的方法,其特征在于,所述获取所述指示代词属于的代词分类,包括:确定所述指示代词所属于的指示代词集合,所述指示代词集合包括预设的至少一个指示代词;根据所述指示代词集合的集合标识,从集合标识与代词分类的对应关系中获取所述指示代词属于的代词分类。3.如权利要求1所述的方法,其特征在于,所述根据所述代词分类和被标记的所述实体机构的机构名称,确定所述指示代词所指代的实体机构的机构名称,包括:当所述代词分类为预指类全局有效代词时,在所述非结构化文本文件中查找位于所述指示代词之后的第一个被标记的机构名称并确定为所述指示代词所指代的实体机构的机构名称;当所述代词分类为回指类局部有效代词时,在所述非结构化文本文件中查找位于所述指示代词之前的第一个被标记的机构名称并确定为所述指示代词所指代的实体机构的机构名称;当所述代词分类为回指类全局有效代词时,在所述非结构化文本文件中确定首次出现所述指示代词的位置,查找位于所述位置之前的第一个被标记的机构名称并确定为所述指示代词所指代的实体机构的机构名称。4.如权利要求1至3任一项权利要求所述的方法,其特征在于,所述通过分词系统和实体识别系统标记非结构化文本文件中包括的指示代词和实体机构的机构名称之后,还包括:根据预设的规则表达式识别所述非结构化文本文件包括的实体机构的简称和全称,所述规则表达式定义了实体机构的简称对应的句式结构;将所述非结构化文本文件包括的所述实体机构的简称替换为所述实体机构的全称。5.如权利要求4所述的方法,其特征在于,所述根据预设的规则表达式识别所述非结构化文本文件包括的实体机构的简称和全称,包括:从所述非结构化文本文件中识别出所述预设的规则表达式所定义的句式结构的字符串,所述字符串包括实体机构的简称;从所述非结构化文本文件中查找位于所述字符串之前的第一个被标记的机构名称并确定为所述实体机构的...

【专利技术属性】
技术研发人员:李德彦晋耀红杨凯程席丽娜吴云鹤蒋宏飞
申请(专利权)人:北京神州泰岳软件股份有限公司中科鼎富北京科技发展有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1