2016年10月9日星期日

中文分词

常用方法有:
1. 基于词典的分词方法(机械分词法)
  最大正向匹配法(Forward Maximum Matching, FMM)
  逆向最大匹配法(Reverser Maximum Matching, RMM)
  最少切分法(使每一句中切出的词数最小)
  双向匹配法(Bi-directional Maximum Matching, BMM)
  全切分(http://yangshangchuan.iteye.com/blog/2209761) 效率低,应用不多
2. 基于统计的分词方法
  HMM
  CRF
3. 基于深度学习的方法

参考:
http://www.dianacody.com/2014/11/05/cn_cutwords.html
http://www.open-open.com/lib/view/open1420814197171.html
http://h2ex.com/1282

没有评论:

发表评论