hanlp中文分词器解读

2026/4/28 16:39:16

中文分词器解析

hanlp分词器接口设计：

提供外部接口：

分词器封装为静态工具类，并提供了简单的接口

标准分词标准分词是最常用的分词器，基于HMM-Viterbi实现，开启了中国人名识别和音译人名识别，调用方法如下:

List termList = HanLP.segment(\商品和服务\); System.out.println(termList); ?

HanLP.segment 其实是对 StandardTokenizer.segment 的包装。

/** * 分词 *

* @param text 文本 * @return切分后的单词 */

publicstaticListsegment(Stringtext) {

returnStandardTokenizer.segment(text.toCharArray()); } /**

* 创建一个分词器
* 这是一个工厂方法

* 与直接new一个分词器相比，使用本方法的好处是，以后HanLP升级了，总能用上最合适的分词器

* @return一个分词器 */

publicstaticSegmentnewSegment() { returnnewViterbiSegment();// Viterbi分词器是目前效率和效果的最佳平衡 }

publicclassStandardTokenizer { /**

* 预置分词器 */

publicstaticfinalSegmentSEGMENT = HanLP.newSegment(); /** * 分词

* @param text 文本 * @return分词结果 */

publicstaticListsegment(Stringtext) {

returnSEGMENT.seg(text.toCharArray()); } /** * 分词

* @param text 文本 * @return分词结果 */

publicstaticListsegment(char[]text) {

returnSEGMENT.seg(text); } /**

* 切分为句子形式 * @param text 文本

hanlp中文分词器解读.doc 将本文的Word文档下载到电脑