中文分词¶
中文分词任务通常缩写为 cws (Chinese Word Segmentation),它对应了OKNLP工具包的cws子模块。在OKNLP工具包中目前支持了两种不同的分词算法:
THULAC
BERT
你可以使用 oknlp.cws.get_by_name 来创建它们。
在这篇文档中,我们主要将介绍分词工具的基本用法。
示例代码¶
>>> import oknlp
>>> model = oknlp.cws.get_by_name("bert")
>>> result = model([
... "我爱北京天安门",
... "天安门上太阳升"
... ])
>>> result
[['我', '爱', '北京', '天安门'], ['天安门', '上', '太阳', '升']]
输入 & 输出 说明¶
中文分词的输入是一个完整的句子,而输出是一个词语的列表。
在中文分词中,通常还会涉及到分词粒度这个概念,在目前的OKNLP工具包中,只提供了一种粒度的分词算法。更多不同粒度的分词方法将会在之后的版本中加入。