Spaces:

fdaudens
/

colqwen-omni-demo

Runtime error

File size: 7,085 Bytes

64001ff

import gradio as gr
import spaces
import torch
from pydub import AudioSegment
import numpy as np
import io
from scipy.io import wavfile
from colpali_engine.models import ColQwen2_5Omni, ColQwen2_5OmniProcessor
from transformers.utils.import_utils import is_flash_attn_2_available
import base64
from scipy.io.wavfile import write
import os

# Global model variables
model = None
processor = None

def load_model():
    """Load model and processor once"""
    global model, processor
    if model is None:
        model = ColQwen2_5Omni.from_pretrained(
            "vidore/colqwen-omni-v0.1",
            torch_dtype=torch.bfloat16,
            device_map="cpu",  # Start on CPU for ZeroGPU
            attn_implementation="eager"  # ZeroGPU compatible
        ).eval()
        processor = ColQwen2_5OmniProcessor.from_pretrained("manu/colqwen-omni-v0.1")
    return model, processor

def chunk_audio(audio_file, chunk_length=30):
    """Split audio into chunks"""
    audio = AudioSegment.from_file(audio_file.name)
    
    audios = []
    target_rate = 16000
    chunk_length_ms = chunk_length * 1000
    
    for i in range(0, len(audio), chunk_length_ms):
        chunk = audio[i:i + chunk_length_ms]
        chunk = chunk.set_channels(1).set_frame_rate(target_rate)
        
        buf = io.BytesIO()
        chunk.export(buf, format="wav")
        buf.seek(0)
        
        rate, data = wavfile.read(buf)
        audios.append(data)
    
    return audios

@spaces.GPU(duration=120)
def embed_audio_chunks(audios):
    """Embed audio chunks using GPU"""
    model, processor = load_model()
    model = model.to('cuda')
    
    # Process in batches
    from torch.utils.data import DataLoader
    
    dataloader = DataLoader(
        dataset=audios,
        batch_size=4,
        shuffle=False,
        collate_fn=lambda x: processor.process_audios(x)
    )
    
    embeddings = []
    for batch_doc in dataloader:
        with torch.no_grad():
            batch_doc = {k: v.to(model.device) for k, v in batch_doc.items()}
            embeddings_doc = model(**batch_doc)
        embeddings.extend(list(torch.unbind(embeddings_doc.to("cpu"))))
    
    # Move model back to CPU to free GPU memory
    model = model.to('cpu')
    torch.cuda.empty_cache()
    
    return embeddings

@spaces.GPU(duration=60)
def search_audio(query, embeddings, audios, top_k=5):
    """Search for relevant audio chunks"""
    model, processor = load_model()
    model = model.to('cuda')
    
    # Process query
    batch_queries = processor.process_queries([query]).to(model.device)
    
    with torch.no_grad():
        query_embeddings = model(**batch_queries)
    
    # Score against all embeddings
    scores = processor.score_multi_vector(query_embeddings, embeddings)
    top_indices = scores[0].topk(top_k).indices.tolist()
    
    # Move model back to CPU
    model = model.to('cpu')
    torch.cuda.empty_cache()
    
    return top_indices

def audio_to_base64(data, rate=16000):
    """Convert audio data to base64"""
    buf = io.BytesIO()
    write(buf, rate, data)
    buf.seek(0)
    encoded_string = base64.b64encode(buf.read()).decode("utf-8")
    return encoded_string

def process_audio_rag(audio_file, query, chunk_length=30, use_openai=False, openai_key=None):
    """Main processing function"""
    if not audio_file:
        return "Please upload an audio file", None, None
    
    # Chunk audio
    audios = chunk_audio(audio_file, chunk_length)
    
    # Embed chunks
    embeddings = embed_audio_chunks(audios)
    
    # Search for relevant chunks
    top_indices = search_audio(query, embeddings, audios)
    
    # Prepare results
    result_text = f"Found {len(top_indices)} relevant audio chunks:\n"
    result_text += f"Chunk indices: {top_indices}\n\n"
    
    # Save first result as audio file
    first_chunk_path = "result_chunk.wav"
    wavfile.write(first_chunk_path, 16000, audios[top_indices[0]])
    
    # Optional: Use OpenAI for answer generation
    if use_openai and openai_key:
        from openai import OpenAI
        client = OpenAI(api_key=openai_key)
        
        content = [{"type": "text", "text": f"Answer the query using the audio files. Query: {query}"}]
        
        for idx in top_indices[:3]:  # Use top 3 chunks
            content.extend([
                {"type": "text", "text": f"Audio chunk #{idx}:"},
                {
                    "type": "input_audio",
                    "input_audio": {
                        "data": audio_to_base64(audios[idx]),
                        "format": "wav"
                    }
                }
            ])
        
        try:
            completion = client.chat.completions.create(
                model="gpt-4o-audio-preview",
                messages=[{"role": "user", "content": content}]
            )
            result_text += f"\nOpenAI Answer: {completion.choices[0].message.content}"
        except Exception as e:
            result_text += f"\nOpenAI Error: {str(e)}"
    
    # Create audio visualization
    import matplotlib.pyplot as plt
    fig, ax = plt.subplots(figsize=(10, 4))
    ax.plot(audios[top_indices[0]])
    ax.set_title(f"Waveform of top matching chunk (#{top_indices[0]})")
    ax.set_xlabel("Samples")
    ax.set_ylabel("Amplitude")
    plt.tight_layout()
    
    return result_text, first_chunk_path, fig

# Create Gradio interface
with gr.Blocks(title="AudioRAG Demo") as demo:
    gr.Markdown("# AudioRAG Demo - Semantic Audio Search")
    gr.Markdown("Upload an audio file and search through it using natural language queries!")
    
    with gr.Row():
        with gr.Column():
            audio_input = gr.Audio(label="Upload Audio File", type="filepath")
            query_input = gr.Textbox(label="Search Query", placeholder="What are you looking for in the audio?")
            chunk_length = gr.Slider(minimum=10, maximum=60, value=30, step=5, label="Chunk Length (seconds)")
            
            with gr.Accordion("OpenAI Integration (Optional)", open=False):
                use_openai = gr.Checkbox(label="Use OpenAI for answer generation")
                openai_key = gr.Textbox(label="OpenAI API Key", type="password")
            
            search_btn = gr.Button("Search Audio", variant="primary")
        
        with gr.Column():
            output_text = gr.Textbox(label="Results", lines=10)
            output_audio = gr.Audio(label="Top Matching Audio Chunk", type="filepath")
            output_plot = gr.Plot(label="Audio Waveform")
    
    search_btn.click(
        fn=process_audio_rag,
        inputs=[audio_input, query_input, chunk_length, use_openai, openai_key],
        outputs=[output_text, output_audio, output_plot]
    )
    
    gr.Examples(
        examples=[
            ["example_audio.wav", "Was Hannibal well liked by his men?", 30],
            ["podcast.mp3", "What did they say about climate change?", 20],
        ],
        inputs=[audio_input, query_input, chunk_length]
    )

if __name__ == "__main__":
    # Load model on startup
    load_model()
    demo.launch()