词性标注

词性标注任务通常缩写为 pos tagging (Part-of-speech Tagging),它对应了OKNLP中的 postagging 子模块。在OKNLP工具包中目前支持了基于 BERT 的算法,可以使用 oknlp.postagging.get_by_name 来创建它。

在这篇文档中,我们主要将介绍词性标注工具的基本用法。

示例代码

>>> import oknlp
>>> model = oknlp.postagging.get_by_name("bert")
>>> result = model([
...   "我爱北京天安门",
...   "天安门上太阳升"
... ])
>>> result
[[('我', 'PN'), ('爱', 'VV'), ('北京', 'NR'), ('天安门', 'NR')], [('天安门', 'NR'), ('上', 'LC'), ('太阳', 'NN'), ('升', 'VV')]]

输入 & 输出 说明

词性标注任务和中文分词任务的输入和输出是相似的。在词性标注任务中,输入是一个完整的句子,输出是一些词语和它们的词性。

在目前的OKNLP中使用了 CTB 词性标注集,它包含了以下的词性:

词性

含义

AD

副词

AS

例如:了、着、过、的

BA

把、将

CC

连词:和

CD

数词:一百

CS

从属连词,例如:若、如果

DEC

的、之

DEG

联结词,的、之

DER

DEV

DT

限定词:这、这些

M

量词:个

ETC

等、等等

IJ

感叹词:啊、嘿

JJ

形容词

LB

被动句式:被、给

LC

定位词:里、上

M

量词:个、天、美元

MSP

表示目的:来、以、去、所

NN

名词

NR

专有名词

NT

时序词

OD

序数词

ON

语气词

P

介词

PN

代词

PU

标点

SB

被、给

SP

了、的、呢、吧、呀、吗

VA

表语形容词:便宜、方便

VC

系动词:是

VE

有、无、没有

VV

动词