Spaces:

OpenAPI-AI
/

ST-STTAPI

Sleeping

App Files Files Community

ST-STTAPI / app.py

bafifi4972

Update app.py

b534bd5 verified 5 days ago

raw

history blame contribute delete

3.27 kB

	import os
	import io
	import traceback
	import numpy as np
	import scipy.io.wavfile as wavfile
	from fastapi import FastAPI, HTTPException
	from fastapi.responses import Response
	from pydantic import BaseModel
	from supertonic import TTS
	import uvicorn

	app = FastAPI(title="Supertonic TTS API")

	class TTSRequest(BaseModel):
	text: str
	lang: str = "ru"
	voice: str = "M2"

	print("Загрузка модели Supertonic TTS...")
	tts = TTS(auto_download=True)
	default_style = tts.get_voice_style(voice_name="M2")
	print("Модель успешно загружена и готова к работе!")

	@app.get("/")
	async def root():
	return {
	"status": "ok",
	"message": "Supertonic TTS API is running",
	"docs": "/docs",
	"usage": "POST /api/tts с JSON: {'text': 'ваш текст', 'lang': 'ru', 'voice': 'M2'}"
	}

	@app.post("/api/tts")
	async def synthesize(request: TTSRequest):
	try:
	# 1. Получаем стиль голоса
	if request.voice == "M2":
	style = default_style
	else:
	style = tts.get_voice_style(voice_name=request.voice)

	# 2. Синтез
	wav, duration = tts.synthesize(request.text, voice_style=style, lang=request.lang)

	# 3. Конвертация аудио в numpy (если модель вернула тензор PyTorch)
	if hasattr(wav, 'cpu'):
	wav = wav.cpu().numpy()
	elif hasattr(wav, 'numpy'):
	wav = wav.numpy()

	wav = np.asarray(wav)

	# 4. Убираем лишние измерения (например, если форма (1, 48000) -> (48000,))
	wav = wav.squeeze()

	# 5. Нормализация и конвертация в int16 (стандарт для WAV)
	wav = wav.astype(np.float32)
	max_val = np.max(np.abs(wav))
	if max_val > 1.0:
	wav = wav / max_val

	# Конвертируем в int16 (от -32768 до 32767)
	wav_int16 = (wav * 32767).astype(np.int16)

	# 6. Получаем sample rate
	sample_rate = getattr(tts, 'sample_rate', 24000)

	# 7. Записываем в память через scipy
	out = io.BytesIO()
	wavfile.write(out, sample_rate, wav_int16)
	audio_bytes = out.getvalue()

	# 8. ИСПРАВЛЕНИЕ: Превращаем duration из numpy массива в обычный float
	# .item() безопасно извлекает скалярное значение из numpy array
	duration_float = float(np.asarray(duration).item())

	# 9. Возвращаем аудио
	return Response(
	content=audio_bytes,
	media_type='audio/wav',
	headers={
	"Content-Disposition": "attachment; filename=speech.wav",
	"X-Audio-Duration": str(round(duration_float, 2))
	}
	)

	except Exception as e:
	traceback.print_exc()
	raise HTTPException(status_code=500, detail=f"Ошибка генерации: {str(e)}")

	if __name__ == '__main__':
	port = int(os.environ.get('PORT', 7860))
	uvicorn.run(app, host='0.0.0.0', port=port)