词性标注¶
词性标注任务通常缩写为 pos tagging (Part-of-speech Tagging),它对应了OKNLP中的 postagging 子模块。在OKNLP工具包中目前支持了基于 BERT 的算法,可以使用 oknlp.postagging.get_by_name 来创建它。
在这篇文档中,我们主要将介绍词性标注工具的基本用法。
示例代码¶
>>> import oknlp
>>> model = oknlp.postagging.get_by_name("bert")
>>> result = model([
... "我爱北京天安门",
... "天安门上太阳升"
... ])
>>> result
[[('我', 'PN'), ('爱', 'VV'), ('北京', 'NR'), ('天安门', 'NR')], [('天安门', 'NR'), ('上', 'LC'), ('太阳', 'NN'), ('升', 'VV')]]
输入 & 输出 说明¶
词性标注任务和中文分词任务的输入和输出是相似的。在词性标注任务中,输入是一个完整的句子,输出是一些词语和它们的词性。
在目前的OKNLP中使用了 CTB 词性标注集,它包含了以下的词性:
词性 |
含义 |
|---|---|
AD |
副词 |
AS |
例如:了、着、过、的 |
BA |
把、将 |
CC |
连词:和 |
CD |
数词:一百 |
CS |
从属连词,例如:若、如果 |
DEC |
的、之 |
DEG |
联结词,的、之 |
DER |
得 |
DEV |
地 |
DT |
限定词:这、这些 |
M |
量词:个 |
ETC |
等、等等 |
IJ |
感叹词:啊、嘿 |
JJ |
形容词 |
LB |
被动句式:被、给 |
LC |
定位词:里、上 |
M |
量词:个、天、美元 |
MSP |
表示目的:来、以、去、所 |
NN |
名词 |
NR |
专有名词 |
NT |
时序词 |
OD |
序数词 |
ON |
语气词 |
P |
介词 |
PN |
代词 |
PU |
标点 |
SB |
被、给 |
SP |
了、的、呢、吧、呀、吗 |
VA |
表语形容词:便宜、方便 |
VC |
系动词:是 |
VE |
有、无、没有 |
VV |
动词 |