同一个 API 把文字、图片、音频全塞进一个向量空间:Sentence Transformers 的多模态升级意味着什么 Sentence Transformers v5.4 新增多模态 embedding 支持,可用同一套 API 将文本、图片、音频、视频映射到统一向量空间,模糊了不同模态之间的检索边界。 Hugging Face Blog · Thu, 09 Apr 2026 00:00:00 GMT