Spaces:

OpenAPI-AI
/

ST-STTAPI

Sleeping

App Files Files Community

bafifi4972 commited on 8 days ago

Commit

c43dd80

verified ·

1 Parent(s): c8591c3

Update app.py

Browse files

Files changed (1) hide show

app.py +23 -12

app.py CHANGED Viewed

@@ -2,7 +2,7 @@ import os
 import io
 import traceback
 import numpy as np
-import soundfile as sf
 from fastapi import FastAPI, HTTPException
 from fastapi.responses import Response
 from pydantic import BaseModel
@@ -11,13 +11,11 @@ import uvicorn
 app = FastAPI(title="Supertonic TTS API")
-# Модели для валидации запросов
 class TTSRequest(BaseModel):
     text: str
     lang: str = "ru"
     voice: str = "M2"
-# Глобальная загрузка модели
 print("Загрузка модели Supertonic TTS...")
 tts = TTS(auto_download=True)
 default_style = tts.get_voice_style(voice_name="M2")
@@ -35,37 +33,50 @@ async def root():
 @app.post("/api/tts")
 async def synthesize(request: TTSRequest):
     try:
-        # Получаем стиль голоса
         if request.voice == "M2":
             style = default_style
         else:
             style = tts.get_voice_style(voice_name=request.voice)
-        # Синтез
         wav, duration = tts.synthesize(request.text, voice_style=style, lang=request.lang)
-        # Конвертация тензоров в numpy если нужно
         if hasattr(wav, 'cpu'):
             wav = wav.cpu().numpy()
         elif hasattr(wav, 'numpy'):
             wav = wav.numpy()
-        wav = np.asarray(wav, dtype=np.float32)
-        # Получаем sample rate
         sample_rate = getattr(tts, 'sample_rate', 24000)
-        # Записываем в память
         out = io.BytesIO()
-        sf.write(out, wav, samplerate=sample_rate, format='WAV', subtype='PCM_16')
         audio_bytes = out.getvalue()
-        # Возвращаем аудио
         return Response(
             content=audio_bytes,
             media_type='audio/wav',
             headers={
-                "Content-Disposition": f"attachment; filename=speech.wav",
                 "X-Audio-Duration": str(round(duration, 2))
             }
         )

 import io
 import traceback
 import numpy as np
+import scipy.io.wavfile as wavfile  # Используем scipy вместо soundfile
 from fastapi import FastAPI, HTTPException
 from fastapi.responses import Response
 from pydantic import BaseModel
 app = FastAPI(title="Supertonic TTS API")
 class TTSRequest(BaseModel):
     text: str
     lang: str = "ru"
     voice: str = "M2"
 print("Загрузка модели Supertonic TTS...")
 tts = TTS(auto_download=True)
 default_style = tts.get_voice_style(voice_name="M2")
 @app.post("/api/tts")
 async def synthesize(request: TTSRequest):
     try:
+        # 1. Получаем стиль голоса
         if request.voice == "M2":
             style = default_style
         else:
             style = tts.get_voice_style(voice_name=request.voice)
+        # 2. Синтез
         wav, duration = tts.synthesize(request.text, voice_style=style, lang=request.lang)
+        # 3. Конвертация в numpy (если модель вернула тензор PyTorch)
         if hasattr(wav, 'cpu'):
             wav = wav.cpu().numpy()
         elif hasattr(wav, 'numpy'):
             wav = wav.numpy()
+        wav = np.asarray(wav)
+        # 4. Убираем лишние измерения (например, если форма (1, 48000) -> (48000,))
+        wav = wav.squeeze()
+        # 5. Нормализация и конвертация в int16 (стандарт для WAV)
+        # Сначала приводим к float32 для безопасной нормализации
+        wav = wav.astype(np.float32)
+        max_val = np.max(np.abs(wav))
+        if max_val > 1.0:
+            wav = wav / max_val
+        # Конвертируем в int16 (от -32768 до 32767)
+        wav_int16 = (wav * 32767).astype(np.int16)
+        # 6. Получаем sample rate
         sample_rate = getattr(tts, 'sample_rate', 24000)
+        # 7. Записываем в память через scipy (работает безотказно)
         out = io.BytesIO()
+        wavfile.write(out, sample_rate, wav_int16)
         audio_bytes = out.getvalue()
+        # 8. Возвращаем аудио
         return Response(
             content=audio_bytes,
             media_type='audio/wav',
             headers={
+                "Content-Disposition": "attachment; filename=speech.wav",
                 "X-Audio-Duration": str(round(duration, 2))
             }
         )