分词库
全文搜索框架
词库
- CC-CEDICT
- Wikipedia Chinese article title list
- QQDict api
?q= 词语 &f=cloud&c=QQCloudDict.oPopupWnd.callback&t=bd+wl&n=1+1&p=0+0
- 更多词典
微博应用
算法
- rseg 使用 http://xiecc.blog.163.com/blog/static/14032200671110224190/
- RMMSg 使用 http://lifegoo.pluskid.org/?p=261 http://technology.chtsai.org/mmseg/
- ICTCLAS 使用 http://ictclas.org/docs/%E5%9F%BA%E4%BA%8E%E5%A4%9A%E5%B1%82%E9%9A%90%E9%A9%AC%E6%A8%A1%E5%9E%8B%E7%9A%84%E6%B1%89%E8%AF%AD%E8%AF%8D%E6%B3%95%E5%88%86%E6%9E%90%E7%A0%94%E7%A9%B6.pdf
- 微博应用 使用,不是分词算法,是关键词提取算法 http://166.111.138.15:8080/qqweibo/conll2011.pdf
机器学习算法库
已有的算法有:
- Parallel Logistic Regression
- Bagging Logistic Regression
- Random Decision Tree/forest
- [Regular singular value decomposition]
(http://en.wikipedia.org/wiki/Singular_value_decomposition) - Gradient boosting decision tree
R语言、KNIME与宋词那些事
- 英语文本分析软件
- 宋词二字R语言词频分析
- 果壳网的转贴
- 宋词傻瓜机
- 宋词多字KNIME词频分析
- KNIME
- 一种宋词自动生成的遗传算法及其机器实现
- 统计词话(一)
- 《全唐诗》、《全宋词》统计分析报告(内有整理后的全唐诗和全宋词下载,可供再度整理)
- R与中文分词
- RStudio
未整理的链接
- http://www.google.com.hk/ggblog/googlechinablog/2006/04/blog-post_7327.html
- http://www.google.com.hk/ggblog/googlechinablog/2006/04/blog-post_2507.html
- http://www.google.com.hk/ggblog/googlechinablog/2006/04/blog-post_1583.html
- http://www.matrix67.com/blog/archives/4212 http://drupal.org/project/csplitter http://www.williamlong.info/archives/1839.html
- http://www.hudong.com/wiki/%E5%8F%8C%E6%95%B0%E7%BB%84trie%E6%A0%91
- http://gump-bean.iteye.com/blog/436426