
本文深入探讨如何利用 `jq` 工具高效地递归处理 JSON 数据,实现空值(包括空字符串、空数组、空对象及仅含空白的字符串)的移除、字符串布尔值的类型转换以及所有字符串(包括键)的首尾空白字符清理。文章将分析常见实现方式的性能瓶颈,并提供一个优化的自定义 `walk` 函数,以提升处理复杂嵌套 JSON 结构时的 CPU 效率。
在数据预处理过程中,面对复杂且嵌套的 JSON 数据,我们经常需要执行一系列清理和标准化操作。例如,移除各种形式的“空”值、将特定字符串转换为其对应的布尔类型,以及统一清理字符串中的多余空白。jq 作为一款强大的命令行 JSON 处理器,是完成此类任务的理想工具。然而,对于大规模或深度嵌套的 JSON 数据,如何编写高效的 jq 查询以避免不必要的 CPU 消耗,则成为一个关键挑战。
我们的目标是递归地对 JSON 数据执行以下操作:
一个常见的 jq 实现思路是利用其 walk 函数进行递归遍历,并在不同数据类型上应用相应的转换逻辑。以下是一个初步的 jq 脚本示例,它尝试满足上述所有需求:
jq 'walk(
if type == "string" then
(sub("^[[:space:]]+"; "") | sub("[[:space:]]+$"; "") | if . == "true" then . |= true else . end | if . == "false" then . |= false else . end)
elif type == "object" then
with_entries(select(.value | IN("",null, [], {}) | not) | .key |= sub("^[[:space:]]+"; "") | .key |= sub("[[:space:]]+$"; "") |select(.key | IN("") | not ))
elif type == "array" then
map(select(. | IN("",null, [], {}) | not))
else . end)'脚本逻辑解析:
尽管此脚本功能完整,但在处理大型数据集时,其 CPU 占用可能较高。这通常是由于 walk 函数的内部实现效率,或者在每个节点上重复执行复杂逻辑所致。
为了提升性能,特别是降低 CPU 消耗,我们可以采用一个更为高效的自定义 walk 函数。jq 的内置 walk 在某些情况下可能不是最优的,尤其是在处理对象时。以下是一个经过优化的 walk 函数定义:
def walk(f):
def w:
if type == "object"
then . as $in
| reduce keys_unsorted[] as $key
( {}; . + { ($key): ($in[$key] | w) } ) | f
elif type == "array" then map( w ) | f
else f
end;
w;优化点解析:
Easily find JSON paths within JSON objects using our intuitive Json Path Finder
30
将上述优化的 walk 函数与我们之前的数据处理逻辑结合,构成一个完整的、高效的 jq 脚本。首先定义 walk 函数,然后调用它并传入我们的清理和转换逻辑。
def walk(f):
def w:
if type == "object"
then . as $in
| reduce keys_unsorted[] as $key
( {}; . + { ($key): ($in[$key] | w) } ) | f
elif type == "array" then map( w ) | f
else f
end;
w;
walk(
if type == "string" then
(sub("^[[:space:]]+"; "") | sub("[[:space:]]+$"; "") | if . == "true" then . |= true else . end | if . == "false" then . |= false else . end)
elif type == "object" then
with_entries(select(.value | IN("",null, [], {}) | not) | .key |= sub("^[[:space:]]+"; "") | .key |= sub("[[:space:]]+$"; "") |select(.key | IN("") | not ))
elif type == "array" then
map(select(. | IN("",null, [], {}) | not))
else . end)示例演示:
假设我们有以下输入 JSON 数据:
{
"key1": " value1 ",
"key2": "",
"key3": "true",
"key4": "false",
"key5": [],
"key6": {},
"key7": null,
"key8": {
"nested_key": " nested_value ",
"empty_object_key": {}
},
"key9": [
"array_item_1",
"",
" array_item_2 ",
[]
],
" empty_key ": 123
}运行上述 jq 脚本后,将得到以下输出:
{
"key1": "value1",
"key3": true,
"key4": false,
"key8": {
"nested_key": "nested_value"
},
"key9": [
"array_item_1",
"array_item_2"
]
}可以看到,所有空值(包括空字符串、空数组、空对象、null)、仅含空白的字符串以及空键都被移除。字符串值和键的首尾空白已被清理,并且 "true" 和 "false" 字符串已成功转换为布尔类型。
jq 是处理 JSON 数据的强大工具,通过灵活运用其内置函数和自定义过滤器,可以实现复杂的转换逻辑。对于性能敏感的应用场景,理解 jq 内部机制并优化核心递归函数(如 walk)至关重要。本文提供的优化 walk 函数和整合方案,旨在帮助您更高效地清理、转换和标准化 JSON 数据,从而降低 CPU 消耗,提升数据预处理的效率。
以上就是使用 jq 高效递归处理 JSON 数据:去除空值、类型转换与字符串清理的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号