Ulysses序列并行性:如何利用百万-token上下文训练大模型 Ulysses序列并行性通过分布式计算解决了大语言模型训练中的长序列问题,显著提升了模型处理百万级token的能力。 Hugging Face Blog · Mon, 09 Mar 2026 00:00:00 GMT