一种基于中文分词的线索提取方法及系统技术方案

技术编号:20118114 阅读:40 留言:0更新日期:2019-01-16 12:07
本发明专利技术属于自然语言处理技术领域,公开了一种基于中文分词的线索提取方法及系统,系统包括语义分词模块、线索提取模块和文本标注模块,对中文分词进行线索提取首先采用导入Asnj开源工具包调用NlpAnalysis.parse()方法将线索文本根据语义分词,并分析词性,然后将分词所得词序列结合词性提取线索价值信息,最后在文本内容中标出提取到的线索信息;同时公开一种提取方法。本发明专利技术能够根据切分出来的词性进行组合提取,大大提高了提取的灵活性和准确性,提高了工作效率,节省了时间和人力。

A Clue Extraction Method and System Based on Chinese Word Segmentation

The invention belongs to the field of natural language processing technology, and discloses a clue extraction method and system based on Chinese word segmentation. The system includes semantic word segmentation module, clue extraction module and text annotation module. To extract clues from Chinese word segmentation, first, NlpAnalysis. parse () method is introduced into Asnj open source toolkit to call NlpAnalysis. Parse () method to segment clue text according to semantics and analyze part of speech. After that, the word sequence obtained by word segmentation is combined with part of speech to extract the clue value information. Finally, the extracted clue information is marked in the text content. At the same time, an extraction method is disclosed. The method can combine and extract according to the segmented parts of speech, greatly improving the flexibility and accuracy of extraction, improving the work efficiency, saving time and manpower.

【技术实现步骤摘要】
一种基于中文分词的线索提取方法及系统
本专利技术属于自然语言处理
,尤其涉及一种基于中文分词的线索提取方法及系统。
技术介绍
目前,业内常用的现有技术是这样的:近年来,随着网络日益普及,互联网上的文本规模逐步扩大,信息资源不断增加,相关部门的工作人员往往需要通过技术手段从海量文本信息中提取具有线索价值的内容。由于计算机不能识别中文文本的语义,所以必须将文本进行中文分词。中文分词是指将连续的中文字符串按照一定的规范分割成词序列的过程。中文不同于英文,其自身特点在于中文是以字为基本的书写单位,句子和段落之间通过分界符来划界,但词间并没有形式上的分界符,而在自然语言处理中,词是最小的能够独立活动的有意义的语言成分,所以分词的质量的好坏直接影响之后的自然语言处理任务。传统的技术如果要在一段文本中提取可能存在的人名或地名,需将预先准备好的可能存在的人名或地名进行全文检索提取,这样灵活性、准确性大大降低。综上所述,现有技术存在的问题是:传统的技术提取文本缺乏灵活性,且准确率很低,致使提取文本的工作效率低,浪费时间。
技术实现思路
针对现有技术存在的问题,本专利技术提供了一种基于中文分词的线索提取方法及系统。本专利技术是这样实现的,一种基于中文分词的线索提取方法,所述基于中文分词的线索提取方法包括:根据切分出来的词性进行组合提取;对文本内容进行智能分析,提取具有线索价值的内容。进一步,所述基于中文分词的线索提取方法具体包括:将线索文本根据语义分词,并分析词性;将分词所得词序列结合词性提取线索价值信息;在文本内容中标出提取到的线索信息。进一步,所述将线索文本根据语义分词采用导入Asnj开源工具包调用NlpAnalysis.parse()方法。本专利技术的另一目的在于提供一种线索提取计算机程序,所述线索提取计算机程序实现所述的基于中文分词的线索提取方法。本专利技术的另一目的在于提供一种终端,所述终端至少搭载实现基于中文分词的线索提取方法的控制器。本专利技术的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的基于中文分词的线索提取方法。本专利技术的另一目的在于提供一种实施所述基于中文分词的线索提取方法的基于中文分词的线索提取方法及系统,所述基于中文分词的线索提取系统包括:语义分词模块,用于将文本分词并分析词性;线索提取模块,用于提取分词的线索价值信息;文本标注模块,用于标注文本内容中的线索信息。本专利技术的另一目的在于提供一种网络文本词语提取平台,所述网络文本词语提取平台至少搭载所述的基于中文分词的线索提取系统。综上所述,本专利技术的优点及积极效果为:本专利技术可实现根据切分出来的词性进行组合提取,如将相同词性都为nr(人名)或ns(地名)的词语进行提取,大大提高了提取灵活性及准确性。同时还可对文本内容进行智能分析,快速准确提取具有线索价值的内容,大大提高工作效率,节省大量的时间和人力。附图说明图1是本专利技术实施例提供的基于中文分词的线索提取方法流程图。图2是本专利技术实施例提供的基于中文分词的线索提取系统示意图;图中:1、语义分词模块;2、线索提取模块;3、文本标注模块。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。中文分词是文本挖掘的基础,文本挖掘是用于基于文本信息的知识发现,对于输入的一段中文,成功的进行中文分词,可以达到使计算机能够自动识别语句含义的效果。从而大大提高工作人员对线索的分析速度和价值线索的感知提取速度,提高工作效能。为了解决现有技术存在的问题,本专利技术提供了一种基于中文分词的线索提取方法及系统,如图1所示,本专利技术实施例提供的基于中文分词的线索提取方法步骤为:S101:将线索文本根据语义分词,并分析词性;S102:将分词所得词序列结合词性提取线索价值信息;S103:在文本内容中标出提取到的线索信息。所述将线索文本根据语义分词采用导入Asnj开源工具包调用NlpAnalysis.parse()方法。如图2所示,本专利技术还提供的基于中文分词的线索提取系统,包括:语义分词模块1、线索提取模块2和文本标注模块3;所述语义分词模块1用于将文本分词并分析词性;所述线索提取模块2用于提取分词的线索价值信息;所述文本标注模块3用于标注文本内容中的线索信息。所述语义分词模块1进行分词,所有分词进入到线索提取模块2,线索提取模块2进行线索价值信息的提取,提取结果进入到文本标注模块3,文本标注模块3将文本中的线索信息标出。下面通过实施例对本专利技术做进一步描述。将线索文本根据语义分词,并分析词性中,对“厅情报中心工作发现嫌疑人王某可疑手机号码为12345678901”这段线索内容进行分词后会得到一段词序列及词性,结果为“厅情报中心/nt,工作/vn,发现/v,嫌疑人/n,王某/nr,可疑/a,手机/n,号码/n,为/p,12345678901/m”。其中nt为机构团体名,vn是名动词,v是动词,n为名词,nr是人名,a是形容词,m是数词等等。将分词所得词序列结合词性提取线索价值信息中,对手机号码提取可只提取词性为m的词片段并结合前后文进行正则表达式验证,匹配是否为手机号码。在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本专利技术实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidStateDisk(SSD))等以上所述仅为本专利技术的较佳实施例而已,并不用以限制本专利技术,凡在本专利技术的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本专利技术的保护范围之内。本文档来自技高网...

【技术保护点】
1.一种基于中文分词的线索提取方法,其特征在于,所述基于中文分词的线索提取方法包括:将工程项目导入Asnj开源工具包并调用NlpAnalysis.parse()方法,并返回分词相关属性序列。

【技术特征摘要】
1.一种基于中文分词的线索提取方法,其特征在于,所述基于中文分词的线索提取方法包括:将工程项目导入Asnj开源工具包并调用NlpAnalysis.parse()方法,并返回分词相关属性序列。2.如权利要求1所述的基于中文分词的线索提取方法,其特征在于,所述基于中文分词的线索提取方法包括:对文本内容进行智能分析,将分词后所得词序列中带有相同词性进行提取线索信息。3.如权利要求2所述的基于中文分词的线索提取方法,其特征在于,在文本内容中标出提取到的线索信息。4.一种线索提取计算机程序,其特征在于,所述线索提取计算机程序实现权利要求1~3任意一项所述的基于中文分词的线索提取方法。5.一种终端,其特征...

【专利技术属性】
技术研发人员:李志兴
申请(专利权)人:南威软件股份有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1