中文分词¶

中文分词任务通常缩写为 cws (Chinese Word Segmentation)，它对应了OKNLP工具包的cws子模块。在OKNLP工具包中目前支持了两种不同的分词算法：

THULAC
BERT

你可以使用 oknlp.cws.get_by_name 来创建它们。

在这篇文档中，我们主要将介绍分词工具的基本用法。

示例代码¶

>>> import oknlp
>>> model = oknlp.cws.get_by_name("bert")
>>> result = model([
...   "我爱北京天安门",
...   "天安门上太阳升"
... ])
>>> result
[['我', '爱', '北京', '天安门'], ['天安门', '上', '太阳', '升']]

输入 & 输出说明¶

中文分词的输入是一个完整的句子，而输出是一个词语的列表。

在中文分词中，通常还会涉及到分词粒度这个概念，在目前的OKNLP工具包中，只提供了一种粒度的分词算法。更多不同粒度的分词方法将会在之后的版本中加入。

中文分词¶

示例代码¶

输入 & 输出 说明¶

输入 & 输出说明¶