Spaces:

AxL95
/

medically

Runtime error

App Files Files Community

AxL95 commited on May 4

Commit

a5e10c9

verified ·

1 Parent(s): ab6a52d

Update chat.py

Browse files

Files changed (1) hide show

chat.py +17 -14

chat.py CHANGED Viewed

@@ -332,24 +332,31 @@ async def chat(request: Request):
             completion_stream = hf_client.chat.completions.create(
                 model="mistralai/Mistral-7B-Instruct-v0.3",
                 messages=messages,
-                max_tokens=1024,
                 temperature=0.7,
                 stream=True
             )
             chunk_buffer = ""
             chunk_count = 0
-            MAX_CHUNKS_BEFORE_SEND = 3
             for chunk in completion_stream:
                 if chunk.choices and chunk.choices[0].delta.content:
                     content = chunk.choices[0].delta.content
                     collected_response += content
-                    # Envoyer chaque token individuellement sans buffering
-                    yield f"data: {json.dumps({'content': content})}\n\n"
-                    # Petit sleep pour éviter le buffering par le serveur ASGI
-                    await asyncio.sleep(0)
             if collected_response.endswith((".", "!", "?")) == False and len(collected_response) > 500:
                 suffix = "\n\n(Note: Ma réponse a été limitée par des contraintes de taille. N'hésitez pas à me demander de poursuivre si vous souhaitez plus d'informations.)"
                 collected_response += suffix
@@ -374,7 +381,7 @@ async def chat(request: Request):
                 fallback = hf_client.text_generation(
                     model="mistralai/Mistral-7B-Instruct-v0.3",
                     prompt=f"<s>[INST] {system_prompt}\n\nQuestion: {user_message} [/INST]",
-                    max_new_tokens=512,
                     temperature=0.7
                 )
                 yield f"data: {json.dumps({'content': fallback})}\n\n"
@@ -397,9 +404,5 @@ async def chat(request: Request):
     return StreamingResponse(
         generate_stream(),
-        media_type="text/event-stream",
-        headers={
-            "Cache-Control": "no-cache, no-transform",
-            "X-Accel-Buffering": "no"  # Important pour Nginx
-        }
 )

             completion_stream = hf_client.chat.completions.create(
                 model="mistralai/Mistral-7B-Instruct-v0.3",
                 messages=messages,
+                max_tokens=900,
                 temperature=0.7,
                 stream=True
             )
             chunk_buffer = ""
             chunk_count = 0
+            MAX_CHUNKS_BEFORE_SEND = 1
             for chunk in completion_stream:
                 if chunk.choices and chunk.choices[0].delta.content:
                     content = chunk.choices[0].delta.content
+                    print(f"Token received: {content}")
                     collected_response += content
+                    chunk_buffer += content
+                    chunk_count += 1
+                    # Envoyer plus fréquemment
+                    if chunk_count >= MAX_CHUNKS_BEFORE_SEND or '\n' in content:
+                        print(f"Sending chunk: {chunk_buffer}")  # Debug
+                        yield f"data: {json.dumps({'content': chunk_buffer})}\n\n"
+                        chunk_buffer = ""
+                        chunk_count = 0
+            if chunk_buffer:
+                yield f"data: {json.dumps({'content': chunk_buffer})}\n\n"
             if collected_response.endswith((".", "!", "?")) == False and len(collected_response) > 500:
                 suffix = "\n\n(Note: Ma réponse a été limitée par des contraintes de taille. N'hésitez pas à me demander de poursuivre si vous souhaitez plus d'informations.)"
                 collected_response += suffix
                 fallback = hf_client.text_generation(
                     model="mistralai/Mistral-7B-Instruct-v0.3",
                     prompt=f"<s>[INST] {system_prompt}\n\nQuestion: {user_message} [/INST]",
+                    max_tokens=512,
                     temperature=0.7
                 )
                 yield f"data: {json.dumps({'content': fallback})}\n\n"
     return StreamingResponse(
         generate_stream(),
+        media_type="text/event-stream"
 )