Spaces:

FatimaZh
/

iris

Sleeping

FatimaZh commited on 14 days ago

Commit

4900935

verified ·

1 Parent(s): 29f672c

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -28,16 +28,30 @@ def respond(
     temperature,
     top_p,
 ):
-    # Build chat messages (OpenAI-style) for llama-cpp
     messages = []
     if system_message:
         messages.append({"role": "system", "content": system_message})
-    # history already looks like [{"role": "...", "content": "..."}, ...]
-    messages.extend(history)
     messages.append({"role": "user", "content": message})
-    # Generate with llama-cpp chat API
     out = llm.create_chat_completion(
         messages=messages,
         max_tokens=int(max_tokens),

     temperature,
     top_p,
 ):
+    # 👉 1. Safety: history can be None
+    if history is None:
+        history = []
+    # 👉 2. Truncate history so it doesn't grow forever
+    #    0  = stateless (no previous turns)
+    #    2  = last 2 exchanges, etc.
+    MAX_HISTORY_TURNS = 0  # for eval, I'd keep this at 0 or very small (e.g. 2)
+    if MAX_HISTORY_TURNS <= 0:
+        trimmed_history = []
+    else:
+        trimmed_history = history[-MAX_HISTORY_TURNS:]
+    # 👉 3. Build chat messages for llama-cpp
     messages = []
     if system_message:
         messages.append({"role": "system", "content": system_message})
+    # Use ONLY trimmed history (or none)
+    messages.extend(trimmed_history)
     messages.append({"role": "user", "content": message})
+    # 👉 4. Generate with llama-cpp
     out = llm.create_chat_completion(
         messages=messages,
         max_tokens=int(max_tokens),