diff --git a/docs/06_technical_notes.md b/docs/06_technical_notes.md index fd2d5fb..20ab2ef 100644 --- a/docs/06_technical_notes.md +++ b/docs/06_technical_notes.md @@ -59,7 +59,43 @@ - 4 сегмента подряд: первый finished ~1.1 с, последний ~4.4 с. - `stop` + возобновление работает без переподключения WebSocket. -## Потенциальные проблемы +## Мультиязычность + +Базовая модель `F5TTS_v1_Base` поддерживает несколько языков из коробки. +Инференс на коротких тестовых фразах работает для: + +- русского, +- английского, +- украинского, +- испанского, +- немецкого, +- французского. + +При этом важные нюансы: + +- **Акцент**: когда референс — русский спикер, английская и европейская речь + может иметь сильный русский акцент. +- **Произношение**: для незнакомых фонем модель может «додумывать» звуки + или пропускать сложные буквосочетания. +- **Скорость**: английские/романские фразы короче по токенам, поэтому + инференс занимает ~1.0–1.2 с, в то время как русский/украинский — ~1.2–2.2 с + на сегмент из 1–2 предложений. +- **Точность языка**: модель не использует явный `language` токен; язык + определяется по тексту. Для смешанных текстов (ru + en) возможны + переключения произношения. + +### Что делать, если качество европейских языков недостаточно + +1. **Отдельный референс на английском/европейском языке** — + в протоколе уже поддерживаются `voice_refs` по эмоциям; можно добавить + `language` в профиль голоса и выбирать референс в зависимости от языка. +2. **Fallback backend** — для «чужеродных» языков переключаться на + `MeloTTS` или другой TTS, который лучше произносит конкретный язык. +3. **Fine-tuning F5-TTS** — самый трудоёмкий, но даёт лучший контроль + над акцентом и языком. + +Сейчас оставляем F5-TTS как единственный backend, но архитектура +(`TTSEngine` + `_BACKEND_MAP`) позволяет добавить fallback позже. - F5-TTS может не идеально произносить украинский / европейские языки из коробки — возможно потребуется fine-tuning или fallback. Сейчас протокол и сегментатор не ограничивают язык; качество зависит от самой модели. - RTX 3060 (12 GB) подойдёт для базовой модели, но batch-size и длина референса придётся ограничивать.