昨天在AINLP公众号上分享了乐雨泉同学的投稿文章:《分词那些事儿》,有同学留言表示"不过瘾",我想了想,其实我爱自然语言处理博客上已经积攒了不少中文分词的文章,除了基于深度学习的分词方法还没有探讨外,“古典”机器学习时代的中文分词方法都有涉及,从基于词典的中文分词(最大匹配法),到基于统计的分词方法(HMM、最大熵模型、条件随机场模型CRF),再到Mecab、NLTK中文分词,都有所涉及。回头看,这些文章最早的大概有10年了,现在看有些稚嫩,可能不适宜再放到公众号上推了,但是这里做个索引,感兴趣的同学可以在博客上阅读,基本上都是有代码可以参考的。

中文分词入门系列

  • 中文分词入门之最大匹配法

  • 中文分词入门之最大匹配法扩展1

  • 中文分词入门之最大匹配法扩展2

  • 中文分词入门之篇外

  • 中文分词入门之资源

  • 中文分词入门之文献

  • 基于字标注的中文分词方法

  • 中文分词入门之字标注法1

  • 中文分词入门之字标注法2

  • 中文分词入门之字标注法3

  • 中文分词入门之字标注法4

  • 中文分词入门之字标注法全文文档

  • 用MeCab打造一套实用的中文分词系统

  • 用MeCab打造一套实用的中文分词系统(二)

  • 用MeCab打造一套实用的中文分词系统(三):MeCab-Chinese

  • 用MeCab打造一套实用的中文分词系统(四):MeCab增量更新

  • Python自然语言处理实践: 在NLTK中使用斯坦福中文分词器


rickjin老大的两篇日文翻译文档,很有帮助

  • Darts: Double-ARray Trie System 翻译文档

  • 日文分词器 Mecab 文档


其他同学在52nlp博客上分享的中文分词相关文章,感谢大家

  • 初学者报到: 实现了一个最大匹配的分词算法

  • 初学者报道(2):实现 1-gram分词算法

  • 初学者报道(3) CRF 中文分词解码过程理解

  • Itenyh版-用HMM做中文分词一:序

  • Itenyh版-用HMM做中文分词二:模型准备

  • Itenyh版-用HMM做中文分词三:前向算法和Viterbi算法的开销

  • Itenyh版-用HMM做中文分词四:A Pure-HMM 分词器

  • Itenyh版-用HMM做中文分词五:一个混合的分词器


最后关于中文分词的数据资源,多说两句,中文分词的研究时间比较长,方法比较多,从实际经验看,好的词库资源可能更重要一些,最后提供一份中文分词的相关资源,包括中文分词字标注法全文pdf文档,以及web上其他同学分享的词库资源,感兴趣的同学可以关注AINLP,回复“fenci"获取:


©著作权归作者所有:来自51CTO博客作者mb5fdb0a4002420的原创作品,如需转载,请注明出处,否则将追究法律责任

更多相关文章

  1. 0329作业-grid仿PHP中文网首页
  2. 苹果Mac App Store 的界面语言变成英文了怎么修改为中文?
  3. 中文刊上用断点回归RDD和合成控制法SCM的实证文章有哪些?不看至少
  4. 中文NER任务实验小结报告——深入模型实现细节
  5. 逆向而行,中文轻量级预训练模型的探索之路
  6. 中文刊上用中介效应模型的实证文章? 这位学者使用频率很高!
  7. Oracle OCP 071中文考试题库-第17题
  8. Oracle OCP 071中文考试题库-第16题
  9. 聚类分析算法对文本分类之分词和构建词袋模型

随机推荐

  1. [置顶] Android Studio编译
  2. android listview的高度
  3. Android Fundamentals: Working With Con
  4. android 更新列表
  5. android:descendantFocusability 焦点 父
  6. Android中VISIBLE、INVISIBLE、GONE的区
  7. android widget ViewFlipper
  8. Android隐藏状态栏和标题栏
  9. 底部菜单
  10. CheckBox as Image use button