Компания Qwen открыла исходный код Qwen3-TTS, серии моделей синтеза речи, которая закрывает сразу несколько направлений: клонирование голоса, дизайн новых голосов, управляемую генерацию речи и сверхнизкую задержку для стриминга. Проект позиционируется как одна из самых полнофункциональных открытых TTS-платформ на рынке и уже доступен на GitHub и через API.
Вступление
Компания Qwen открыла исходный код Qwen3-TTS, серии моделей синтеза речи, которая закрывает сразу несколько направлений: клонирование голоса, дизайн новых голосов, управляемую генерацию речи и сверхнизкую задержку для стриминга. Проект позиционируется как одна из самых полнофункциональных открытых TTS-платформ на рынке и уже доступен на GitHub и через API.
В основе Qwen3-TTS лежит собственный энкодер Qwen3-TTS-Tokenizer-12Hz, использующий multi-codebook представление речи. Он обеспечивает высокую степень сжатия без потери паралингвистических деталей, тембра и акустической среды. Это позволяет модели воспроизводить речь с высокой точностью, сохраняя интонации, ритм и эмоции, при этом обходясь без тяжёлых DiT-архитектур.
Две архитектуры и фокус на скорость
Qwen3-TTS построен как end-to-end система на базе дискретной языковой модели с несколькими кодбуками. Такой подход устраняет типичные ограничения каскадных схем LM плюс вокодер и снижает накопление ошибок. Ключевая особенность серии — Dual-Track архитектура, которая поддерживает как обычную, так и потоковую генерацию в рамках одной модели. Благодаря этому первая аудиопакета может быть выдана сразу после обработки одного символа текста. Заявленная задержка end-to-end составляет около 97 мс, что делает модель пригодной для интерактивных сценариев, диалоговых ассистентов и голосовых интерфейсов в реальном времени.Линейка моделей и языковая поддержка
В открытый релиз вошли две основные версии — 1.7B и 0.6B параметров. Модель на 1.7B ориентирована на максимальное качество и контроль. В неё входят варианты для дизайна голоса по текстовому описанию, управляемые тембры с готовыми голосовыми профилями, а также базовая версия для быстрого клонирования голоса по трёхсекундному аудиофрагменту и дальнейшего fine-tuning.
Версия 0.6B делает упор на эффективность и может использоваться в ресурсно ограниченных средах, сохраняя поддержку стриминга и клонирования голоса.
Все модели работают с десятью языками, включая китайский, английский, японский, корейский, немецкий, французский, русский, португальский, испанский и итальянский, а также поддерживают ряд диалектов.
Управление голосом и устойчивость к шуму
Одной из сильных сторон Qwen3-TTS является управление речью через естественный язык. Пользователь может задавать стиль, эмоциональную окраску и ритм прямо в текстовых инструкциях. Модель учитывает семантику текста и адаптирует подачу речи автоматически, что приближает результат к живому человеческому голосу. Отдельно подчёркивается повышенная устойчивость к шумному или неидеальному входному тексту, что важно для реальных пользовательских сценариев.Результаты тестов и позиционирование
По данным команды Qwen, Qwen3-TTS демонстрирует state-of-the-art показатели сразу в нескольких категориях. В задачах voice design модель обошла закрытые решения MiniMax на бенчмарке InstructTTS-Eval. В управляемой генерации и многоязычном синтезе она показала низкий Word Error Rate и стабильное сохранение тембра. В клонировании голоса Qwen3-TTS превзошёл MiniMax, SeedTTS и ElevenLabs по метрикам стабильности и схожести спикера, включая кросс-язычные сценарии. Это делает проект заметным событием для open-source экосистемы TTS.Подпишитесь на наш Telegram-канал
Будьте в курсе последних новостей и обновлений, подписавшись на наш Telegram!
Перейти в Telegram