In [1]:
!pip install docling chromadb sentence-transformers



In [2]:
!pip install pymupdf tqdm spacy
!python -m spacy download it_core_news_sm

Collecting it-core-news-sm==3.8.0
  Using cached https://github.com/explosion/spacy-models/releases/download/it_core_news_sm-3.8.0/it_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[38;5;2m‚úî Download and installation successful[0m
You can now load the package via spacy.load('it_core_news_sm')


In [3]:
!pip install transformers




In [4]:
import fitz  # PyMuPDF
from tqdm.auto import tqdm
import pandas as pd

def text_formatter(text: str) -> str:
    # Pulizia semplice
    import re
    text = text.replace("\n", " ").strip()
    text = re.sub(r"[ \t]{2,}", " ", text)
    text = re.sub(r"\.{2,}", " ", text)  # sostituisce ... con spazio
    text = re.sub(r"Pagina\s+\d+\s+di\s+\d+", "", text, flags=re.IGNORECASE)
    text = re.sub(r"Creazione VM su Cloud INSIEL","", text)
    text = re.sub(r"IO_XX_00_XX  ISTRUZIONE OPERATIVA 22/10/2024", "",text)
    text = re.sub(r"IO_XX_00_XX  ISTRUZIONE OPERATIVA 22/10/2024 ","",text)
    return text.strip()

def open_and_read_pdf(pdf_path: str):
    doc = fitz.open(pdf_path)
    pages = []
    for page_number, page in tqdm(enumerate(doc), total=len(doc), desc="üìÑ Lettura pagine PDF"):
        text = text_formatter(page.get_text())
        pages.append({
            "page_number": page_number + 1,
            "page_char_count": len(text),
            "page_word_count": len(text.split()),
            "page_token_estimate": len(text) // 4,
            "text": text
        })
    return pages

pdf_path = "data/insiel.pdf"  # Cambia se il tuo file √® altrove
pages_and_texts = open_and_read_pdf(pdf_path)


üìÑ Lettura pagine PDF:   0%|          | 0/66 [00:00<?, ?it/s]

In [5]:
import spacy
nlp = spacy.load("it_core_news_sm")

# Spezza il testo di ogni pagina in frasi
for page in tqdm(pages_and_texts, desc="‚úÇÔ∏è Split in frasi"):
    doc = nlp(page["text"])
    sentences = [sent.text.strip() for sent in doc.sents if sent.text.strip()]
    page["sentence_chunks"] = []

    CHUNK_SIZE = 10  # Gruppi da 5 frasi
    for i in range(0, len(sentences), CHUNK_SIZE):
        chunk = sentences[i:i + CHUNK_SIZE]
        page["sentence_chunks"].append(chunk)


‚úÇÔ∏è Split in frasi:   0%|          | 0/66 [00:00<?, ?it/s]

In [6]:
pages_and_texts[65]

{'page_number': 66,
 'page_char_count': 45,
 'page_word_count': 9,
 'page_token_estimate': 11,
 'text': 'FIGURA 88 - VMWARE NSX - CRITERIO GRUPPO   58',
 'sentence_chunks': [['FIGURA 88 - VMWARE NSX - CRITERIO GRUPPO   58']]}

In [7]:
df = pd.DataFrame(pages_and_texts)
df["chunk_id"] = df.index.astype(str)

# Mostra i primi
df.tail()


Unnamed: 0,page_number,page_char_count,page_word_count,page_token_estimate,text,sentence_chunks,chunk_id
61,62,1301,173,325,7 APPENDICE 2 ‚Äì NAMING CONVENTION 7.1 NOMI MAC...,[[7 APPENDICE 2 ‚Äì NAMING CONVENTION 7.1 NOMI M...,61
62,63,344,19,86,9.3 VMWARE ARIA ‚Ä¢ HTTPS://DOCS.VMWARE.COM/IT/V...,[[9.3 VMWARE ARIA ‚Ä¢ HTTPS://DOCS.VMWARE.COM/IT...,62
63,64,1949,352,487,12 INDICE DELLE FIGURE FIGURA 1 - VMWARE VSPHE...,[[12 INDICE DELLE FIGURE FIGURA 1 - VMWARE VSP...,63
64,65,2293,446,573,FIGURA 43 ‚Äì RESOURCES ‚Äì MENU CONTESTUALE 30 ...,[[FIGURA 43 ‚Äì RESOURCES ‚Äì MENU CONTESTUALE 3...,64
65,66,45,9,11,FIGURA 88 - VMWARE NSX - CRITERIO GRUPPO 58,[[FIGURA 88 - VMWARE NSX - CRITERIO GRUPPO 58]],65


In [8]:
df.shape

(66, 7)

In [9]:
df[df['page_token_estimate'] < 60].count()

page_number            9
page_char_count        9
page_word_count        9
page_token_estimate    9
text                   9
sentence_chunks        9
chunk_id               9
dtype: int64

In [10]:
final = df[df['page_token_estimate'] > 60]

In [11]:
final.describe().round(2)

Unnamed: 0,page_number,page_char_count,page_word_count,page_token_estimate
count,57.0,57.0,57.0,57.0
mean,34.67,821.02,129.28,204.91
std,18.73,463.38,79.1,115.84
min,3.0,245.0,19.0,61.0
25%,19.0,457.0,71.0,114.0
50%,35.0,733.0,115.0,183.0
75%,51.0,1067.0,164.0,266.0
max,65.0,2293.0,446.0,573.0


In [12]:
!pip install sentence-transformers chromadb




In [13]:
from sentence_transformers import SentenceTransformer
from tqdm.notebook import tqdm

embedding_model = SentenceTransformer("sentence-transformers/distiluse-base-multilingual-cased-v1")

texts = final["text"].tolist()
chunk_ids = final["chunk_id"].tolist()
metadatas = [{"page": int(p)} for p in final["page_number"]]

embeddings = embedding_model.encode(texts, show_progress_bar=True)


Batches:   0%|          | 0/2 [00:00<?, ?it/s]

In [14]:
import chromadb

# nuovo client
client = chromadb.PersistentClient(path="./vectorstore")

# collection
collection = client.get_or_create_collection("insiel_chunks")

# aggiunta
collection.add(
    documents=texts,
    embeddings=embeddings.tolist(),
    metadatas=metadatas,
    ids=chunk_ids
)

In [16]:
query = input("Domanda: ")
query_embedding = embedding_model.encode([query])

results = collection.query(
    query_embeddings=query_embedding,
    n_results=3  # puoi aumentare a 5, 10, ecc.
)

Domanda:  ciao


In [17]:
for i, (doc, meta) in enumerate(zip(results["documents"][0], results["metadatas"][0])):
    print(f"\nüîπ RISULTATO {i+1} (pagina {meta['page']}):")
    print(doc[:500] + "...\n---")



üîπ RISULTATO 1 (pagina 41):
o 17 macchine virtuali (vedi PAR. 5.4.1.1.4.4). o 0 profili di accesso a Livello 7 (vedi PAR. 5.4.1.1.4.3). o 2 sevizi (vedi PAR 5.4.1.1.4.1) o 6 profili contesto (vedi PAR. 5.4.1.1.4.3). 5.4.1.1.2.2 AVVISI Nel tab ‚ÄòAvvisi‚Äô sono presenti due sotto tab: ‚Ä¢ Avvisi ‚Ä¢ Definizione avvisi Figura 60 - VMWare NSX ‚Äì Home ‚Äì Avvisi Figura 61 - VMWare NSX ‚Äì Home ‚Äì Definizione avvisi...
---

üîπ RISULTATO 2 (pagina 60):
5.5.3.1.1 MICROSOFT WINDOWS SERVER 5.5.3.1.2 LINUX 5.5.3.2 AGGIUNTA A DOMINIO 5.5.3.3 ESPANSIONE DISCO DI SISTEMA 5.5.3.4 AGGIORNAMENTO SISTEMA OPERATIVO 5.5.3.4.1 VERIFICA SU CONSOLE WSUS 5.5.3.4.2 AGGIORNAMENTO E PATCHING 5.5.3.5 INSTALLAZIONE ANTIVIRUS 5.5.3.5.1 VERIFICA FUNZIONAMENTO SU CONSOLE ANTIVIRUS...
---

üîπ RISULTATO 3 (pagina 3):
INDICE 1 SCOPO   5 2 AMBITO DI APPLICAZIONE  5 3 ACRONIMI E DEFINIZIONI   5 4 RESPONSABILITA‚Äô   5 5 MODALIT√Ä ESECUTIVE   6 5.1 CONFIGURAZIONE DELL‚ÄôINFRASTRUTTURA  6 5.1.1 VMWARE VSPHERE   6 

In [18]:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline

model_id = "TinyLlama/TinyLlama-1.1B-Chat-v1.0"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id).to(torch.device("cpu"))

rag_chat = pipeline("text-generation", model=model, tokenizer=tokenizer, max_new_tokens=200, device=-1)


Device set to use cpu


In [None]:
def generate_rag_response_local(query, retrieved_chunks):
    context = "\n\n".join(retrieved_chunks)
    
    prompt = f"""[INST] Usa solo le informazioni fornite nel contesto qui sotto per rispondere alla domanda, la risposta deve finire sempre con un punto. 
Se la risposta non √® presente, di' chiaramente che non √® specificato nel documento.

Contesto:
{context}

Domanda: {query}
Risposta: [/INST]
"""
    result = rag_chat(prompt)[0]["generated_text"]
    return result.split("Risposta:")[-1].strip()


In [None]:
# üß† Inserisci la domanda
query = input("Domanda: ")

# üîé Ottieni l'embedding della query (usa sentence-transformers, NON il modello generativo!)
query_embedding = embedding_model.encode([query])  

# üîç Retrieval dei chunk pi√π simili da Chroma
results = collection.query(
    query_embeddings=query_embedding,
    n_results=3
)

# üß± Estrai i chunk di contesto
retrieved_chunks = results["documents"][0]

# ü§ñ Genera la risposta usando il modello open-source locale
response = generate_rag_response_local(query, retrieved_chunks)

# üñ®Ô∏è Mostra la risposta
print("ü§ñ Risposta:\n", response)


In [None]:
retrieved_chunks


In [None]:
results