Lucene中文分词 “庖丁解牛”
附件 为本人设计编写的组件,中文分词“庖丁解牛”,具有相当好的使用价值。。。
高效率:我的赛扬PC 1 秒解析 >>> 20000汉字的词语 (实际测试结果数据,可达1秒10万+汉字。)
高可维护性:使用“庖丁”隐喻,形象明晰
高灵活性,可扩展:OOD
对比:《终于突破中文分词的效率问题》http://www.lucene.org.cn/read.php?tid=54&fpage=2 他的效率为 6秒 解析2588汉字
2007-08-08:
由于庖丁解牛进行了一些调整和重构,这里的附件代码已经是"较旧"的,最新的下载地址:
http://code.google.com/p/paoding/downloads/list
SVN地址为:http://paoding.googlecode.com/svn/trunk/paoding-analysis/
同时也可以通过浏览器访问http://paoding.googlecode.com/svn/trunk/paoding-analysis/ 直接浏览代码。
最新的在JavaEye的发布帖子是:
http://www.iteye.com/topic/110148 中文分词 庖丁解牛 2.0.0 发布
- Paoding.rar (1.1 MB)
- 描述: 中文分词“庖丁解牛”,面向对象,高效率,高扩展性
- 下载次数: 6782
- HashBinaryDictionary.java.rar (2.2 KB)
- 描述: 原来的HashBinaryDictionary.java使用对第一个字符hash+二份查找。这个算法已经不错。
但下面的更新使用了更好的策略。可连续hash词语的字符。理论上这个词典算法应该到达极致了。
覆盖HashBinaryDictionary.java在com/sohospace/dictionary下
- 下载次数: 2578
- Main1.java.rar (6.1 KB)
- 描述: 对一个长度2185856的字符串(4,347,520字节)的分词效率测试。 下载解压后添加到源文件中
- 下载次数: 2402
分享到:
相关推荐
庖丁解牛(很好的分词效率) 在做站内全文检索时创建索引时比较快,而且感觉效果比JE要好一些。。
支持中文的庖丁解牛,庖丁分词,找了好久才找到的希望对你有帮助。
支持lucene3的庖丁解牛分词器和字典,可直接调用
Lucene 庖丁解牛分词法 , 能够使用它解决中文分词问题。
由于庖丁官方目前提供可下载尚不支持Lucene 3.0以上版本。因此作者对paoding进行重新编译,使其与最新Lucene 3.0.1版本适用。 Latest paoding 3.0.1 for lucene 3.0.1 使用说明: 先下载2.0.4的版本(h t t p : / ...
可以适用于lucene3.5的庖丁解牛分词器jar包
最新庖丁解牛分词法的使用demo,支持Lucene3.3、3.4等3.0以上版本,庖丁解牛的分词包为自己编译生成的,之前的2.0的版本不能支持Lucene3.0以上版本,所以需要从svn下载最新的庖丁解牛源码,生成jar文件(我同样已...
lucene3.0 中文分词器, 庖丁解牛
庖丁解牛,Lucene分词器,很难得的资源。
NULL 博文链接:https://qpshenggui.iteye.com/blog/1157999
资源为庖丁解牛分词法的最新源码以及生成的jar包,支持最新的Lucene3.4以及Lucene3.0以上版本。Jar包为本地生成,大家也可以到SVN上检出自己生成,另外庖丁解牛分词法的使用Demo我会接下来上传一份,欢迎分享。
Paoding's Knives 中文分词具有极 高效率 和 高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。 高效率:在PIII 1G内存个人机器上,1秒 可准确分词 100万 汉字。 采用基于 不限制个数 的词典文件对文章...
一款比较好的中文分词器,可以很方便地集成到lucene中,集成到lucene3.0中的时候需要做一些修改,具体修改方法可以百度之
在lucene中使用庖丁解牛的分词器,实现类似当当网站的功能实现一个对企业内部产品的检索功能
庖丁中文分词库是一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白,本书介绍了在nutch上配置paoding
庖丁解牛中文分词,速度不错,词库也很全面,非常不错!
自己做的完整的luecene例子,分词用庖丁解牛,过滤文本用的tika
1)汉语分词,采用ICTCLAS系统和Lucene+庖丁解牛系统 2)情感倾向性分析,包括基于统计学习的SVM算法,基于情感词典的词语权重算法,给出文档的情感权重和情感倾向 3)文本聚类,包括KMeas算法实现,文档向量建模,...
庖丁解牛中文分词器,只要配置好字典的路径,就可以使用庖丁解牛,可以有效针对中文进行分词,而且可以自定义词典。适用于lucene-core-3.3.0.jar,包内已经包含lucene-core-3.3.0.jar,已测试,包好用!
1)汉语分词,采用ICTCLAS系统和Lucene+庖丁解牛系统 2)情感倾向性分析,包括基于统计学习的SVM算法,基于情感词典的词语权重算法,给出文档的情感权重和情感倾向 3)文本聚类,包括KMeas算法实现,文档向量建模,...