多模态embedding — 标签

同一个 API 把文字、图片、音频全塞进一个向量空间：Sentence Transformers 的多模态升级意味着什么

Sentence Transformers v5.4 新增多模态 embedding 支持，可用同一套 API 将文本、图片、音频、视频映射到统一向量空间，模糊了不同模态之间的检索边界。

Hugging Face Blog · Thu, 09 Apr 2026 00:00:00 GMT