如何让 Stanza 词形还原器仅返回词元而不是字典？-Python教程-PHP中文网

如何让 Stanza 词形还原器仅返回词元而不是字典？

霞舞

发布： 2025-09-23 16:08:58

原创

819人浏览过

如何让 stanza 词形还原器仅返回词元而不是字典？

本文介绍了如何在使用 Stanza 进行词形还原时，从其输出的嵌套字典结构中提取出纯粹的词元（lemma）。通过示例代码演示了如何遍历 Stanza 处理后的文档对象，并使用列表推导式高效地提取每个词的词元，避免了不必要的字典处理开销，从而简化了后续的文本分析流程。

在使用 Stanza 进行自然语言处理时，词形还原 (lemmatization) 是一个常见的任务。Stanza 能够很好地处理多种语言的词形还原，但其默认输出格式是包含多个属性（如 ID、文本、词性标注、词元等）的字典结构，这在某些情况下显得过于冗余。如果只需要词元本身，直接处理整个字典会增加不必要的计算开销。本文将介绍如何从 Stanza 的输出中提取纯粹的词元，避免处理额外的字典信息。

Stanza 的 Pipeline 处理文档后，会生成一个嵌套的结构。文档被分割成句子，每个句子又是一个 token 列表，而每个 token 包含一个或多个 word 对象，每个 word 对象就是一个包含各种属性的字典，其中包括我们需要的词元 (lemma)。

以下代码演示了如何使用 Stanza 进行词形还原，并提取出纯粹的词元列表：

import stanza

# 下载西班牙语模型（如果尚未下载）
stanza.download('es', package='ancora', processors='tokenize,mwt,pos,lemma', verbose=False)

# 创建 Stanza Pipeline
stNLP = stanza.Pipeline(processors='tokenize,mwt,pos,lemma', lang='es', use_gpu=False) #use_gpu根据实际情况设置

# 处理文本
doc = stNLP('me hubiera gustado mas “sincronia” con la primaria')

# 提取词元
lemmas = [word.lemma for t in doc.iter_tokens() for word in t.words]

# 打印词元列表
print(lemmas)

登录后复制

代码解释：

提客AI提词器

「直播、录课」智能AI提词，搭配抖音直播伴侣、腾讯会议、钉钉、飞书、录课等软件等任意软件。

查看详情

stanza.download(...): 下载西班牙语模型。processors='tokenize,mwt,pos,lemma' 指定了要使用的处理模块，包括分词 (tokenize)、多词单元 (mwt)、词性标注 (pos) 和词形还原 (lemma)。
stanza.Pipeline(...): 创建一个 Stanza Pipeline 对象，用于处理文本。lang='es' 指定了语言为西班牙语。use_gpu=True 可以利用 GPU 加速处理，如果你的机器支持 CUDA，可以设置为 True，否则设置为 False。
doc = stNLP(...): 使用 Pipeline 处理文本，返回一个 Document 对象。
lemmas = [word.lemma for t in doc.iter_tokens() for word in t.words]: 这是一个列表推导式，用于提取词元。
- doc.iter_tokens(): 迭代文档中的每个 token。
- for word in t.words: 迭代 token 中的每个 word 对象（一个 token 可能包含多个 word 对象，例如多词单元）。
- word.lemma: 访问 word 对象的 lemma 属性，即词元。

注意事项：

确保已安装 Stanza 库。可以使用 pip install stanza 进行安装。
use_gpu 参数应该根据你的硬件环境进行设置。如果你的机器没有 GPU 或者 CUDA 不可用，请设置为 False，否则可能会出现错误。
代码中 stanza.download() 只会下载一次模型，之后会从本地加载。
stanza.Pipeline 的 processors 参数指定了要运行的处理模块。根据你的需求，可以添加或删除模块。例如，如果不需要词性标注，可以从 processors 中移除 pos。

总结：

通过遍历 Stanza 处理后的文档对象，并使用列表推导式，可以方便地提取出纯粹的词元列表，避免了处理额外的字典信息。这种方法可以提高处理效率，并简化后续的文本分析流程。请注意 Stanza 的版本，不同版本可能在 API 上有所差异。本文示例基于 stanza==1.7.0 版本。

以上就是如何让 Stanza 词形还原器仅返回词元而不是字典？的详细内容，更多请关注php中文网其它相关文章！