Spaces:

Afrinetwork
/

sts1

Sleeping

Afrinetwork7 commited on Aug 23, 2024

Commit

06e4c74

verified ·

1 Parent(s): 6250d85

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,11 +1,11 @@
-from fastapi import FastAPI, UploadFile, File, Form
 from fastapi.responses import JSONResponse, FileResponse
 import uvicorn
 from pydantic import BaseModel
 import numpy as np
 import io
 import soundfile as sf
 from asr import transcribe, ASR_LANGUAGES
 from tts import synthesize, TTS_LANGUAGES
 from lid import identify
@@ -17,12 +17,16 @@ class TTSRequest(BaseModel):
     language: str
     speed: float
 @app.post("/transcribe")
-async def transcribe_audio(audio: UploadFile = File(...), language: str = Form(...)):
-    contents = await audio.read()
-    audio_array, sample_rate = sf.read(io.BytesIO(contents))
-    result = transcribe(audio_array, language)
     return JSONResponse(content={"transcription": result})
 @app.post("/synthesize")
@@ -41,9 +45,9 @@ async def synthesize_speech(request: TTSRequest):
     )
 @app.post("/identify")
-async def identify_language(audio: UploadFile = File(...)):
-    contents = await audio.read()
-    audio_array, sample_rate = sf.read(io.BytesIO(contents))
     result = identify(audio_array)
     return JSONResponse(content={"language_identification": result})
@@ -54,4 +58,4 @@ async def get_asr_languages():
 @app.get("/tts_languages")
 async def get_tts_languages():
-    return JSONResponse(content=TTS_LANGUAGES)

+from fastapi import FastAPI, Form
 from fastapi.responses import JSONResponse, FileResponse
 import uvicorn
 from pydantic import BaseModel
 import numpy as np
 import io
 import soundfile as sf
+import base64
 from asr import transcribe, ASR_LANGUAGES
 from tts import synthesize, TTS_LANGUAGES
 from lid import identify
     language: str
     speed: float
+class AudioRequest(BaseModel):
+    audio: str  # Base64 encoded audio data
+    language: str
 @app.post("/transcribe")
+async def transcribe_audio(request: AudioRequest):
+    audio_bytes = base64.b64decode(request.audio)
+    audio_array, sample_rate = sf.read(io.BytesIO(audio_bytes))
+    result = transcribe(audio_array, request.language)
     return JSONResponse(content={"transcription": result})
 @app.post("/synthesize")
     )
 @app.post("/identify")
+async def identify_language(request: AudioRequest):
+    audio_bytes = base64.b64decode(request.audio)
+    audio_array, sample_rate = sf.read(io.BytesIO(audio_bytes))
     result = identify(audio_array)
     return JSONResponse(content={"language_identification": result})
 @app.get("/tts_languages")
 async def get_tts_languages():
+    return JSONResponse(content=TTS_LANGUAGES)