Stanza Lemmatizer：仅返回 Lemma 的方法-Python教程-PHP中文网

Stanza Lemmatizer：仅返回 Lemma 的方法

花韻仙語

发布： 2025-09-23 18:25:12

原创

353人浏览过

stanza lemmatizer：仅返回 lemma 的方法

本文档旨在帮助用户在使用 Stanza 库进行词形还原时，仅获取还原后的词形（lemma），而无需包含其他信息的完整字典。通过解析 Stanza 的输出结构，并提供简洁的代码示例，指导用户高效地提取所需的词形还原结果，提升文本处理效率。

在使用 Stanza 进行文本处理时，词形还原（lemmatization）是一个常见的任务。Stanza 的 pipeline 会生成一个嵌套结构，其中每个句子是一个 token 列表，而每个 token 类似于一个包含各种属性（如 ID、文本、lemma 等）的字典。默认情况下，Stanza 的 lemmatizer 会返回包含所有这些属性的字典，但有时我们只需要 lemma 本身。

以下是如何从 Stanza 的输出中提取 lemma 的方法：

首先，确保你已经安装了 Stanza 库。如果没有，可以使用 pip 进行安装：

pip install stanza

登录后复制

接下来，下载所需的语言模型并初始化 Stanza pipeline。以下代码以西班牙语为例：

import stanza

stanza.download('es', package='ancora', processors='tokenize,mwt,pos,lemma', verbose=False)
stNLP = stanza.Pipeline(processors='tokenize,mwt,pos,lemma', lang='es', use_gpu=True)

登录后复制

现在，让我们处理一段文本并提取 lemma：

doc = stNLP('me hubiera gustado mas “sincronia” con la primaria')
lemmas = [word.lemma for t in doc.iter_tokens() for word in t.words]
print(lemmas)

登录后复制

这段代码首先使用 stNLP pipeline 处理文本，然后使用列表推导式从 pipeline 的输出中提取 lemma。doc.iter_tokens() 迭代文档中的每个 token，而 t.words 访问每个 token 中的单词。然后，我们提取每个单词的 lemma 属性，并将它们存储在一个列表中。

绘蛙AI修图

绘蛙平台AI修图工具，支持手脚修复、商品重绘、AI扩图、AI换色

264

查看详情

代码解释：

doc = stNLP('me hubiera gustado mas “sincronia” con la primaria')：使用 Stanza pipeline 处理西班牙语文本。
lemmas = [word.lemma for t in doc.iter_tokens() for word in t.words]：一个列表推导式，用于从 Stanza 的输出中提取 lemma。
- doc.iter_tokens(): 遍历文档中的每一个 token。
- t.words: 获取当前 token 中的单词列表。
- word.lemma: 获取单词的 lemma 属性。

输出示例：

上述代码将输出一个包含 lemma 的列表：

['yo', 'haber', 'gustar', 'mas', '“', 'sincronia', '”', 'con', 'el', 'primario']

登录后复制

注意事项：

请确保你使用的 Stanza 版本与代码兼容。本文档编写时使用的 Stanza 版本是 1.7.0。可以使用 pip show stanza 命令查看已安装的 Stanza 版本。
如果你的文本包含多个句子，Stanza 会将它们分开处理。你需要遍历每个句子并提取 lemma。
根据你的需求，你可能需要调整 pipeline 的 processors。例如，如果你不需要词性标注，可以从 processors 参数中删除 pos。
使用 GPU 可以加速 Stanza 的处理速度，但如果你的系统没有 GPU，可以将 use_gpu 设置为 False。

总结：

通过解析 Stanza 的输出结构并使用列表推导式，我们可以轻松地从 Stanza 的 lemmatizer 中提取 lemma，而无需处理其他不必要的属性。这种方法可以提高文本处理的效率，并简化后续的分析工作。记住，理解 Stanza 的输出结构是关键，这使得我们可以灵活地提取所需的信息。

以上就是Stanza Lemmatizer：仅返回 Lemma 的方法的详细内容，更多请关注php中文网其它相关文章！

大家都在看：

Python RTF到PDF转换：在无Word环境下处理图片内容的解决方案 Python高效转换RTF到PDF：图像支持与非Word环境指南 Django多项目共享模型：通用数据库配置与管理策略 Django多项目共享模型数据：基于独立数据库的解决方案 Django多项目共享模型数据：实现通用数据库的策略