Provide word detection methods, devices and systems. The word detection method comprises the following steps: text number N for the first string input of the first word classifier, among them, the first word classifier is used to detect the number of words for the words of the M, including N, M, M< and N is a positive integer; according to the results of the first words into word classifier. The number of the first word to text classifier to detect M second words, the first string is segmented into a plurality of sub string includes at least second words, one for each of the segments in the string text do not overlap each other; in each segment string as the smallest unit, the first second string into word classifier to detect whether the first string is a word, among them, the second word classifier is used to detect the number of words for the word N.
【技术实现步骤摘要】
词检测方法、装置、系统
本申请涉及词语检测领域,且更具体地涉及词检测方法、装置、系统。
技术介绍
随着因特网(Internet)、信息共享(如论坛、微博、微信等)、自媒体等的蓬勃发展,广大用户正创建越来越多的新词,并在用户之间广泛传播。例如,“打酱油”、“坑爹”、“高大上”、“给力”、“脑残”、“呆萌”等等。而很多基于词的应用、例如机器翻译则需要了解这些是新词、且需要了解这些新词的真实含义,否则机器翻译可能将其翻译成完全无意义的内容。例如“坑爹”这个新词,它实际的意思是例如“骗人”,因此如果机器翻译了解这是新词,且了解这些新词的真实含义,则可以将其翻译成真实的意思。还有很多基于词的应用、例如输入法的输入推荐等只需要知道这是否是新词即可,而不需要知道该新词的真实含义。因此,检测新词是至关重要的。但如果采用人工来标记这些新词,则会占用大量的时间和人力成本,且实时性和效率均低。这提出了快速跟踪并检测新词的需求。
技术实现思路
检测新词的一种方案是:首先在大规模的Internet生语料上进行词法切分,然后在分词的基础上进行统计分析得到大量的候选词,然后通过与已有字典中的已有词 ...
【技术保护点】
一种词检测方法,包括如下步骤:将文字数量为N的第一字串输入第一成词分类器,其中,所述第一成词分类器用于检测文字数量为M的词,其中M<N,且M、N为正整数;根据所述第一成词分类器的成词分类结果,在第一成词分类器检测到文字数量为M的第二词的情况下,将所述第一字串分段为包括至少第二词的多个分段字串,其中各个分段字串中的文字相互不重叠;以每个分段字串作为最小单元,将所述第一字串输入第二成词分类器来检测所述第一字串是否是词,其中,所述第二成词分类器用于检测文字数量为N的词。
【技术特征摘要】
1.一种词检测方法,包括如下步骤:将文字数量为N的第一字串输入第一成词分类器,其中,所述第一成词分类器用于检测文字数量为M的词,其中M<N,且M、N为正整数;根据所述第一成词分类器的成词分类结果,在第一成词分类器检测到文字数量为M的第二词的情况下,将所述第一字串分段为包括至少第二词的多个分段字串,其中各个分段字串中的文字相互不重叠;以每个分段字串作为最小单元,将所述第一字串输入第二成词分类器来检测所述第一字串是否是词,其中,所述第二成词分类器用于检测文字数量为N的词。2.根据权利要求1的方法,其中,所述将文字数量为N的第一字串输入第一成词分类器的步骤包括如下步骤:从文字数量为N的第一字串提取每个文字;按窗口长度为M、每次移动预定数量的文字地将所述第一字串划分为多个子字串,其中所述多个子字串的每个子字串的文字数量为M,且各子字串中的文字相互部分重叠,其中,所述第一成词分类器对每个子字串检测所述子字串是否是词。3.根据权利要求1的方法,还包括如下步骤:在所述第一成词分类器未检测到文字数量为M的第二词的情况下,将所述第一字串分段为多个分段字串,所述多个分段字串中的每个分段字串的文字数量小于M,其中各个分段字串中的文字相互不重叠。4.根据权利要求3所述的方法,其中在所述第一成词分类器未检测到文字数量为M的第二词的情况下,将所述第一字串分段为多个分段字串的步骤包括:在所述第一成词分类器未检测到文字数量为M的第二词的情况下,将所述第一字串输入第三成词分类器,其中,所述第三成词分类器用于检测文字数量为P的词,其中P<M,且P为正整数;在第三成词分类器检测到文字数量为P的第三词的情况下,将所述第一字串分段为包括至少第三词的多个分段字串,其中各个分段字串中的文字相互不重叠。5.根据权利要求1所述的方法,其中根据所述第一成词分类器的成词分类结果,在第一成词分类器检测到文字数量为M的第二词的情况下,将所述第一字串分段为包括至少第二词的多个分段字串的步骤包括如下之一:如果检测到的第二词的数量大于1,则优先地将所述第一字串分段为包括最多个检测到的第二词的多个分段字串,其中各个分段字串中的文字相互不重叠;或者如果检测到的第二词的数量大于1,根据不同分段方式将所述第一字串分段为不同组的包括至少第二词的多个分段字串,以便将每组的多个分段字串作为最小单元,输入第二成词分类器来通过针对各组中计算的最大的特征值来检测所述第一字串是否是词。6.根据权利要求1或4或5的方法,还包括如下步骤:将第一成词分类器或第二成词分类器或第三成词分类器的成词分类结果输入词过滤器,其中,所述词过滤器通过如下步骤来进一步进行词过滤:分析成词分类结果中被检测到的词中的各组成词段的词性;去除各组成词段的词性的组合方式不落入下列至少一种组合方式中的词:形容词素和形容词;形容词素和副词;形容词素和名词;形容词和动词;副词和动词;数词和动词素;名词和名词;名词和动词;动词素和名词;动词素和动词;动词和数词;动词和动词;形容词和动词素;动词和动词素。7.根据权利要求1或4或5的方法,还包括如下步骤:根据输入的字串的文字长度来确定所述第一成词分类器和第二成词分类器和第三成词分类器中的至少一种成词分类器所使用的特征的种类。8.根据权利要求7的方法,其中,所述输入的字串的文字长度不同,所述第一成词分类器和第二成词分类器和第三成词分类器中的至少一种成词分类器所使用的特征的种类也不同。9.根据权利要求7所述的方法,其中,所述根据输入的字串的文字长度来确定所述第一成词分类器和第二成词分类器和第三成词分类器中的至少一种成词分类器所使用的特征的种类的步骤包括:在所述输入的字串的文字长度为2的情况下,确定所使用的特征的种类包括CE特征、Dice特征、MI特征、AMI特征、VMD特征中的至少一种或全部;在所述输入的字串的文字长度为3及以上的情况下,确定所使用的特征的种类包括加权BE特征、CE特征、Dice特征、MI特征、AMI特征、BMD特征中的至少一种或全部。10.根据权利要求9所述的方法,其中,所述加权BE特征通过如下来构造:其中,x表示候选新词的相邻字符,w表示候选新词或候选字符串,p(x/w)表示给定w的条件下,出现x的概率,其中,λx是加权系数且对于特定的文字被设置低于预定系数阈值的值,所述特定的文字是构成词的概率低于预定概率阈值的文字。11.根据权利要求9所述的方法,其中,所述CE特征通过如下来构造:其中,x和y表示顺序的两个最小单元,D(x)表示x的计数,D(x,y)表示词(x,y)的计数,P'(x)表示当字串(x,y)被认为是候选词时...
【专利技术属性】
技术研发人员:王晓利,张驰,加山英俊,
申请(专利权)人:株式会社NTT都科摩,
类型:发明
国别省市:日本,JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。