Spaces:

OpenAPI-AI
/

ST-STTAPI

Sleeping

App Files Files Community

bafifi4972 commited on 4 days ago

Commit

b534bd5

verified ·

1 Parent(s): c43dd80

Update app.py

Browse files

Files changed (1) hide show

app.py +9 -6

app.py CHANGED Viewed

@@ -2,7 +2,7 @@ import os
 import io
 import traceback
 import numpy as np
-import scipy.io.wavfile as wavfile  # Используем scipy вместо soundfile
 from fastapi import FastAPI, HTTPException
 from fastapi.responses import Response
 from pydantic import BaseModel
@@ -42,7 +42,7 @@ async def synthesize(request: TTSRequest):
         # 2. Синтез
         wav, duration = tts.synthesize(request.text, voice_style=style, lang=request.lang)
-        # 3. Конвертация в numpy (если модель вернула тензор PyTorch)
         if hasattr(wav, 'cpu'):
             wav = wav.cpu().numpy()
         elif hasattr(wav, 'numpy'):
@@ -54,7 +54,6 @@ async def synthesize(request: TTSRequest):
         wav = wav.squeeze()
         # 5. Нормализация и конвертация в int16 (стандарт для WAV)
-        # Сначала приводим к float32 для безопасной нормализации
         wav = wav.astype(np.float32)
         max_val = np.max(np.abs(wav))
         if max_val > 1.0:
@@ -66,18 +65,22 @@ async def synthesize(request: TTSRequest):
         # 6. Получаем sample rate
         sample_rate = getattr(tts, 'sample_rate', 24000)
-        # 7. Записываем в память через scipy (работает безотказно)
         out = io.BytesIO()
         wavfile.write(out, sample_rate, wav_int16)
         audio_bytes = out.getvalue()
-        # 8. Возвращаем аудио
         return Response(
             content=audio_bytes,
             media_type='audio/wav',
             headers={
                 "Content-Disposition": "attachment; filename=speech.wav",
-                "X-Audio-Duration": str(round(duration, 2))
             }
         )

 import io
 import traceback
 import numpy as np
+import scipy.io.wavfile as wavfile
 from fastapi import FastAPI, HTTPException
 from fastapi.responses import Response
 from pydantic import BaseModel
         # 2. Синтез
         wav, duration = tts.synthesize(request.text, voice_style=style, lang=request.lang)
+        # 3. Конвертация аудио в numpy (если модель вернула тензор PyTorch)
         if hasattr(wav, 'cpu'):
             wav = wav.cpu().numpy()
         elif hasattr(wav, 'numpy'):
         wav = wav.squeeze()
         # 5. Нормализация и конвертация в int16 (стандарт для WAV)
         wav = wav.astype(np.float32)
         max_val = np.max(np.abs(wav))
         if max_val > 1.0:
         # 6. Получаем sample rate
         sample_rate = getattr(tts, 'sample_rate', 24000)
+        # 7. Записываем в память через scipy
         out = io.BytesIO()
         wavfile.write(out, sample_rate, wav_int16)
         audio_bytes = out.getvalue()
+        # 8. ИСПРАВЛЕНИЕ: Превращаем duration из numpy массива в обычный float
+        # .item() безопасно извлекает скалярное значение из numpy array
+        duration_float = float(np.asarray(duration).item())
+        # 9. Возвращаем аудио
         return Response(
             content=audio_bytes,
             media_type='audio/wav',
             headers={
                 "Content-Disposition": "attachment; filename=speech.wav",
+                "X-Audio-Duration": str(round(duration_float, 2))
             }
         )