首页  »  编程  »  Lucene中文分词

Lucene中文分词

花了几天在网上逛,为了寻找更好的中文分词方法。很遗憾中文分词一直以来都没有一个标准或者权威的方法,不过方法倒时不少。通常的分词方式有那么几种:一、基于字符串匹配的方式;二、基于理解的方式;三、基于统计方式。目前网上大多数实现都使用第一种,第二种目前处于理论和尝试阶段,还有很长的路要走,第三种就有很好的数学模型作为支撑。

经过分词效果的对比,我决定使用MMSeg作为自己的分词工具。下面是对该分词器的描述的一段引用:

MMSeg只是实现了Chih-Hao Tsai的MMSEG算法,这是一个来源于网络的分词算法。我照抄了算法开始的部分:

MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm

Published: 1996-04-29
Updated: 1998-03-06
Document updated: 2000-03-12
License: Free for noncommercial use
Copyright 1996-2006 Chih-Hao Tsai (Email: hao520 at yahoo.com )

您可以在Chih-Hao Tsai's Technology Page找到算法的原文。

如果您只想了解一下MMSeg分词算法的基本原理可以看看MMSeg分词算法简述

------------------------------------------------------------------

但由于MMSeg分词程序不是基于Lucene(不过作者Solo.L有意在编写该程序的时候留了后路,我在做Lucene结合的时候轻而易举。),我在与作者取得联系之后,写了一份Lucene的实现。详情可以查看原作者的Blog文

至于MMSeg的分词原理,除了可以看那份Chih-hao Tsai的英文文档和Solo的算法简述,还可以去看下实现的源码。文档只字片言是说不清的。以后有时间的时候我考虑尝试下写些文档。当然前提是偶自己要搞透来,偶最头疼就是数学啊~~~

最后来看看一个分词效果:

before:到此为止这个简单的但是功能强大的分词器就写完了,下面咱们可以尝试写一个功能更强大的分词器。
after :到此为止_这个_简单_的_但是_功能_强大_的_分词_器_就_写完_了_,_下面_咱们_可以_尝试_写_一个_功能_更_强大_的_分词_器_。
before:我们的祖国是花园,花园的花朵真鲜艳。
after :我们_的_祖国_是_花园_,_花园_的_花朵_真_鲜艳_。
另:来自Google的参考资料:数学之美二--谈谈中文分词
 


<EOF>

评论(2条)


comment

dfgdfgdfg

留下您的高见



(可不填)



 = 


Meta

关于本博客...

关于黑莓手机、apple、twitter、互联网、web2.0以及生活的碎言碎语。请在twitter上 follow我,欢迎同好者talk to me bbmyth AT gmail.com。博客Hosting在 webfaction。

赞助商链接

我看我听我读

最新评论

标签

python 空间 开发 计划 年假 工作 诗歌 音乐 西片 恐怖 惊变 django mysql rss 文艺片 太阳 彩色 电影 apache 部署 factcgi lighttpd javascript editor MYMeditor sql 日志 java hibernate orm 数据库 英伦 摇滚 原创 中间件 朋友 erlang 并发 函数式编程 旅游 云南 丽江 发呆 学习 编程 技术 lucene 全文搜索 中文分词 乐队 模板 分页 成功 google pagerank 中文 更新 个性化 秋天 互联网 web ext json ajax 事业 职业 读书 开源 香港 澳门 忧郁 冬天 compass dvd 广州 地下 暴力 美学 声音玩具 独立 备份 数据 琐事 博客 生活 体验 卖唱 接口 设计模式 图表 wiki moin 遇窃 air ria 需求 设计 信息 健康 感悟 人生 真诚 life jquery 杭州 灾害 2008 中国 灾难 哀悼日 jmesa grails flex flash 捐赠 scrum 软件过程 快速开发 plone cms nuexo zope 左小诅咒 demo prototpye AMF actionscript 汉诺塔 算法 递归 结婚 感情 opensource 网络 beautifulSoup 管理 大理 香格里拉 休假 鼻炎 许巍 感性 2009 随想 cpug 聚会 出差 北京 api 创业 商城 blackberry 手机 TD 交流 处事 为人 房子 经济 手机仿真 在线服务 嵌入式 海鲜 p2p easymule apple 技巧 thing gtd task gfw vpn 穿墙 代理 软件管理 翻译 mac 英语 caffeine 休眠 搬家 主机 prism firefox mozilla 免费 php codeigniter url blogspot mindmap mindnode htmlparse easyurl 产品 黑莓 rim 试手机 豆瓣 twitter 微博 杂记 时空 亲人 dabr webfaction host 快速查看 safari appale 桌面 snow 升级 leopard finder 权限 glims python主机 合租 ruby主机 快捷键 itunes 时间管理 原型 画图 招聘 hosting 写作 软件 家庭 广州技术沙龙 postgres 云计算 fuckgfw 内容审检 谷歌 chrome linux odbc database freetds R 统计 书签 浏览器 bookmark tinymce 文件管理 分享 忙碌 旅行 马来西亚 图维导图 freemind 工具 pinax develope shell dropbox barcamp

日志分类

友情链接

博客归档

PowerBy