Copyright 2005-2025 王晨云 版权所有 京ICP备20051637号-1
尽管目前文生图模型(Text-to-Image Models)在生成高保真图像上表现卓越,但在应对空间感知、空间逻辑推理及多目标空间交互等贴合现实场景的复杂空间智能任务时往往力不从心。现有评估基准主要依赖简短或信息稀疏的提示词,难以覆盖复杂的空间逻辑,导致模型在这些关键空间智能维度上的能力缺陷被严重低估。
来自阿里高德的一篇最新 ICLR 2026 中稿论文《Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models》提出了面向文生图空间智能的系统性评估基准 SpatialGenEval,旨在通过长文本、高信息密度的 T2I prompt 设计,以及围绕空间感知、空间推理和空间交互的 10 大空间智能能力维度设计,深入探测文生图模型的空间智能能力边界。

SpatialGenEval 将生图空间智能能力细分为 4 大维度,10 个子维度,覆盖 25 个现实应用场景,基于 23 个 SOTA 模型的评估结果表明当前模型的空间智能能力仍有待大幅提升
