Spaces:

nanochat-students
/

chat-d20-demo

Running on Zero

File size: 1,397 Bytes

c35409b
 
 
 
 
 
d9bbbfc
 
c35409b
 
 
 
 
 
 
 
 
 
 
 
 
 
e40a429
 
 
c35409b
 
e40a429
 
 
 
c35409b
e40a429
c35409b
e40a429
c35409b
 
602b318
 
c35409b
 
 
 
3cf0ef6
af2a5f9
c35409b
 
37c1e63
e40a429
 
 
c35409b

import spaces
import gradio as gr
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer


device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

def load_model():
    model_id = "nanochat-students/chat-d20"

    tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=False)
    model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=False, dtype=torch.bfloat16).to(device)
    model.eval()

    return tokenizer, model

tokenizer, model = load_model()


@spaces.GPU
def generate(prompt, history):
    
    if len(history) > 0:
        messages = history + [
        {"role": "user", "content": prompt},
    ]
    else:
        messages = [
            {"role": "user", "content": prompt},
        ]

    print(history)
    inputs = tokenizer.apply_chat_template(
        messages,
        add_generation_prompt=True,
        tokenize=True,
        return_tensors="pt",
        return_dict=True,
    ).to(device)
    
    with torch.no_grad():
        outputs = model.generate(
            **inputs,
            max_new_tokens=512,
        )
    
    generated_tokens = outputs[0, inputs.input_ids.shape[1]:]
    output = tokenizer.decode(generated_tokens, skip_special_tokens=True)

    return output


demo = gr.ChatInterface(fn=generate, type="messages", examples=["hello", "hola", "merhaba"], title="NanoChat")
demo.launch()