Spaces:

neural-thinker
/

cidadao.ai-backend

Paused

neural-thinker commited on Aug 18

Commit

3c90182

1 Parent(s): da991b7

feat(monitoring): implement comprehensive Prometheus metrics system

* Add complete Prometheus metrics instrumentation for agents
* Implement investigation lifecycle tracking metrics
* Add anomaly detection metrics with severity classification
* Track transparency API usage and data processing metrics
* Create agent task execution metrics with retry/failure tracking
* Add /health/metrics endpoint for Prometheus scraping
* Add /health/metrics/json endpoint for JSON format debugging
* Update documentation with monitoring capabilities

Technical Implementation:
- BaseAgent: Universal metrics for all agent executions
- ZumbiAgent: Specialized investigation and anomaly detection metrics
- Health Routes: Prometheus and JSON metrics endpoints
- Core Monitoring: Extended metrics collection infrastructure

Metrics Categories:
- API Performance: Request duration, throughput, status codes
- Agent Operations: Task execution, retries, failures, duration
- Investigations: Lifecycle tracking, success/failure rates
- Anomaly Detection: Types, severity levels, detection rates
- Data Processing: Records processed, API calls, external data

Production Ready:
- Prometheus format compliance
- Grafana dashboard compatibility
- Performance optimized metric collection
- Comprehensive observability coverage

Files changed (5) hide show

README.md +17 -2
src/agents/deodoro.py +37 -3
src/agents/zumbi.py +65 -0
src/api/routes/health.py +42 -0
src/core/monitoring.py +31 -0

README.md CHANGED Viewed

@@ -87,8 +87,16 @@ curl -X POST "https://your-space-url.hf.space/api/agents/zumbi/investigate" \
        "data_source": "contracts",
        "max_results": 100
      }'
 ```
 ## 🛡️ Recursos Enterprise
 ### 🏗️ **Arquitetura**
@@ -105,9 +113,14 @@ curl -X POST "https://your-space-url.hf.space/api/agents/zumbi/investigate" \
 - **Gestão de segredos** integrada com HashiCorp Vault
 ### 📊 **Observabilidade Completa**
-- **Métricas Prometheus** customizadas para análises de transparência
 - **Logging estruturado JSON** com correlação de IDs
-- **Health checks** detalhados para todos os componentes
 - **Documentação automática** com OpenAPI/Swagger
 ### ⚡ **Performance & Escalabilidade**
@@ -147,6 +160,8 @@ curl -X POST "https://your-space-url.hf.space/api/agents/zumbi/investigate" \
 - ✅ **Sistema Multi-Agente**: 16 agentes implementados
 - ✅ **API REST**: 100% endpoints funcionais com documentação
 - ✅ **Pipeline ML**: Estado-da-arte para anomaly detection
 - ✅ **Containerização**: Docker pronto para deploy
 - ✅ **Documentação**: Qualidade técnica excepcional

        "data_source": "contracts",
        "max_results": 100
      }'
+# Acessar métricas Prometheus
+curl -X GET "https://your-space-url.hf.space/health/metrics"
 ```
+### Monitoring Endpoints
+- `GET /health/metrics` - Métricas Prometheus para monitoramento
+- `GET /health/metrics/json` - Métricas do sistema em formato JSON
+- `GET /health/detailed` - Health check detalhado com informações do sistema
 ## 🛡️ Recursos Enterprise
 ### 🏗️ **Arquitetura**
 - **Gestão de segredos** integrada com HashiCorp Vault
 ### 📊 **Observabilidade Completa**
+- **Métricas Prometheus** customizadas implementadas em produção:
+  - Métricas de API (requisições, duração, throughput)
+  - Métricas de agentes (execuções, falhas, retry, duração)
+  - Métricas de investigação (anomalias detectadas, tipos, severidade)
+  - Métricas de dados (registros processados, API transparência)
+- **Endpoint /health/metrics** expondo métricas para Grafana/Prometheus
 - **Logging estruturado JSON** com correlação de IDs
+- **Health checks** detalhados para todos os componentes
 - **Documentação automática** com OpenAPI/Swagger
 ### ⚡ **Performance & Escalabilidade**
 - ✅ **Sistema Multi-Agente**: 16 agentes implementados
 - ✅ **API REST**: 100% endpoints funcionais com documentação
 - ✅ **Pipeline ML**: Estado-da-arte para anomaly detection
+- ✅ **Observabilidade**: Métricas Prometheus implementadas em produção
+- ✅ **Monitoramento**: Instrumentação completa de agentes e investigações
 - ✅ **Containerização**: Docker pronto para deploy
 - ✅ **Documentação**: Qualidade técnica excepcional

src/agents/deodoro.py CHANGED Viewed

@@ -17,6 +17,8 @@ from pydantic import BaseModel, Field as PydanticField
 from src.core import AgentStatus, get_logger
 from src.core.exceptions import AgentError, AgentExecutionError
 @dataclass
@@ -165,9 +167,17 @@ class BaseAgent(ABC):
         )
         start_time = datetime.utcnow()
         retries = 0
         last_error = None
         while retries <= self.max_retries:
             try:
                 self.status = AgentStatus.THINKING
@@ -178,13 +188,24 @@ class BaseAgent(ABC):
                     retry=retries,
                 )
-                # Process the message
-                response = await self.process(message, context)
                 # Calculate processing time
                 processing_time = (datetime.utcnow() - start_time).total_seconds() * 1000
                 response.processing_time_ms = processing_time
                 # Update status
                 self.status = AgentStatus.COMPLETED
@@ -211,12 +232,25 @@ class BaseAgent(ABC):
                     retry=retries,
                 )
                 retries += 1
                 if retries <= self.max_retries:
                     # Exponential backoff
                     await self._wait(2 ** retries)
-        # All retries exhausted
         self.status = AgentStatus.ERROR
         error_response = AgentResponse(

 from src.core import AgentStatus, get_logger
 from src.core.exceptions import AgentError, AgentExecutionError
+from src.core.monitoring import AGENT_TASK_COUNT, AGENT_TASK_DURATION
+import time
 @dataclass
         )
         start_time = datetime.utcnow()
+        perf_start_time = time.time()
         retries = 0
         last_error = None
+        # Increment task counter
+        AGENT_TASK_COUNT.labels(
+            agent_type=self.name,
+            task_type=action,
+            status="started"
+        ).inc()
         while retries <= self.max_retries:
             try:
                 self.status = AgentStatus.THINKING
                     retry=retries,
                 )
+                # Process the message with timing
+                with AGENT_TASK_DURATION.labels(
+                    agent_type=self.name,
+                    task_type=action
+                ).time():
+                    response = await self.process(message, context)
                 # Calculate processing time
                 processing_time = (datetime.utcnow() - start_time).total_seconds() * 1000
                 response.processing_time_ms = processing_time
+                # Record successful execution
+                AGENT_TASK_COUNT.labels(
+                    agent_type=self.name,
+                    task_type=action,
+                    status="completed"
+                ).inc()
                 # Update status
                 self.status = AgentStatus.COMPLETED
                     retry=retries,
                 )
+                # Record retry attempt
+                AGENT_TASK_COUNT.labels(
+                    agent_type=self.name,
+                    task_type=action,
+                    status="retry"
+                ).inc()
                 retries += 1
                 if retries <= self.max_retries:
                     # Exponential backoff
                     await self._wait(2 ** retries)
+        # All retries exhausted - record failure
+        AGENT_TASK_COUNT.labels(
+            agent_type=self.name,
+            task_type=action,
+            status="failed"
+        ).inc()
         self.status = AgentStatus.ERROR
         error_response = AgentResponse(

src/agents/zumbi.py CHANGED Viewed

@@ -19,9 +19,14 @@ from pydantic import BaseModel, Field as PydanticField
 from src.agents.deodoro import BaseAgent, AgentContext, AgentMessage
 from src.core import get_logger
 from src.core.exceptions import AgentExecutionError, DataAnalysisError
 from src.tools.transparency_api import TransparencyAPIClient, TransparencyAPIFilter
 from src.tools.models_client import ModelsClient, get_models_client
 from src.ml.spectral_analyzer import SpectralAnalyzer, SpectralAnomaly
 @dataclass
@@ -128,6 +133,8 @@ class InvestigatorAgent(BaseAgent):
         Returns:
             Investigation results with detected anomalies
         """
         try:
             self.logger.info(
                 "investigation_started",
@@ -139,6 +146,14 @@ class InvestigatorAgent(BaseAgent):
             # Parse investigation request
             if message.message_type == "investigation_request":
                 request = InvestigationRequest(**message.content)
             else:
                 raise AgentExecutionError(
                     f"Unsupported message type: {message.message_type}",
@@ -148,6 +163,13 @@ class InvestigatorAgent(BaseAgent):
             # Fetch data for investigation
             contracts_data = await self._fetch_investigation_data(request, context)
             if not contracts_data:
                 return AgentMessage(
                     message_type="investigation_result",
@@ -167,6 +189,14 @@ class InvestigatorAgent(BaseAgent):
                 context
             )
             # Generate investigation summary
             summary = self._generate_investigation_summary(contracts_data, anomalies)
@@ -185,11 +215,25 @@ class InvestigatorAgent(BaseAgent):
                 }
             }
             self.logger.info(
                 "investigation_completed",
                 investigation_id=context.investigation_id,
                 records_analyzed=len(contracts_data),
                 anomalies_found=len(anomalies),
             )
             return AgentMessage(
@@ -199,6 +243,13 @@ class InvestigatorAgent(BaseAgent):
             )
         except Exception as e:
             self.logger.error(
                 "investigation_failed",
                 investigation_id=context.investigation_id,
@@ -259,6 +310,13 @@ class InvestigatorAgent(BaseAgent):
                     # Fetch contracts
                     response = await client.get_contracts(filters)
                     # Add organization code to each contract
                     for contract in response.data:
                         contract["_org_code"] = org_code
@@ -273,6 +331,13 @@ class InvestigatorAgent(BaseAgent):
                     )
                 except Exception as e:
                     self.logger.warning(
                         "data_fetch_failed",
                         org_code=org_code,

 from src.agents.deodoro import BaseAgent, AgentContext, AgentMessage
 from src.core import get_logger
 from src.core.exceptions import AgentExecutionError, DataAnalysisError
+from src.core.monitoring import (
+    INVESTIGATIONS_TOTAL, ANOMALIES_DETECTED, INVESTIGATION_DURATION,
+    DATA_RECORDS_PROCESSED, TRANSPARENCY_API_DATA_FETCHED
+)
 from src.tools.transparency_api import TransparencyAPIClient, TransparencyAPIFilter
 from src.tools.models_client import ModelsClient, get_models_client
 from src.ml.spectral_analyzer import SpectralAnalyzer, SpectralAnomaly
+import time
 @dataclass
         Returns:
             Investigation results with detected anomalies
         """
+        investigation_start_time = time.time()
         try:
             self.logger.info(
                 "investigation_started",
             # Parse investigation request
             if message.message_type == "investigation_request":
                 request = InvestigationRequest(**message.content)
+                # Record investigation start
+                INVESTIGATIONS_TOTAL.labels(
+                    agent_type="zumbi",
+                    investigation_type=request.anomaly_types[0] if request.anomaly_types else "general",
+                    status="started"
+                ).inc()
             else:
                 raise AgentExecutionError(
                     f"Unsupported message type: {message.message_type}",
             # Fetch data for investigation
             contracts_data = await self._fetch_investigation_data(request, context)
+            # Record data processed
+            DATA_RECORDS_PROCESSED.labels(
+                data_source="transparency_api",
+                agent="zumbi",
+                operation="fetch"
+            ).inc(len(contracts_data) if contracts_data else 0)
             if not contracts_data:
                 return AgentMessage(
                     message_type="investigation_result",
                 context
             )
+            # Record anomalies detected
+            for anomaly in anomalies:
+                ANOMALIES_DETECTED.labels(
+                    anomaly_type=anomaly.anomaly_type,
+                    severity="high" if anomaly.severity > 0.7 else "medium" if anomaly.severity > 0.4 else "low",
+                    agent="zumbi"
+                ).inc()
             # Generate investigation summary
             summary = self._generate_investigation_summary(contracts_data, anomalies)
                 }
             }
+            # Record investigation completion and duration
+            investigation_duration = time.time() - investigation_start_time
+            INVESTIGATION_DURATION.labels(
+                agent_type="zumbi",
+                investigation_type=request.anomaly_types[0] if request.anomaly_types else "general"
+            ).observe(investigation_duration)
+            INVESTIGATIONS_TOTAL.labels(
+                agent_type="zumbi",
+                investigation_type=request.anomaly_types[0] if request.anomaly_types else "general",
+                status="completed"
+            ).inc()
             self.logger.info(
                 "investigation_completed",
                 investigation_id=context.investigation_id,
                 records_analyzed=len(contracts_data),
                 anomalies_found=len(anomalies),
+                duration_seconds=investigation_duration,
             )
             return AgentMessage(
             )
         except Exception as e:
+            # Record investigation failure
+            INVESTIGATIONS_TOTAL.labels(
+                agent_type="zumbi",
+                investigation_type="general",  # Fallback for failed investigations
+                status="failed"
+            ).inc()
             self.logger.error(
                 "investigation_failed",
                 investigation_id=context.investigation_id,
                     # Fetch contracts
                     response = await client.get_contracts(filters)
+                    # Record API data fetched
+                    TRANSPARENCY_API_DATA_FETCHED.labels(
+                        endpoint="contracts",
+                        organization=org_code,
+                        status="success"
+                    ).inc(len(response.data))
                     # Add organization code to each contract
                     for contract in response.data:
                         contract["_org_code"] = org_code
                     )
                 except Exception as e:
+                    # Record API fetch failure
+                    TRANSPARENCY_API_DATA_FETCHED.labels(
+                        endpoint="contracts",
+                        organization=org_code,
+                        status="failed"
+                    ).inc()
                     self.logger.warning(
                         "data_fetch_failed",
                         org_code=org_code,

src/api/routes/health.py CHANGED Viewed

@@ -15,7 +15,10 @@ from fastapi import APIRouter, HTTPException, Depends
 from pydantic import BaseModel
 from src.core import get_logger, settings
 from src.tools import TransparencyAPIClient
 logger = get_logger(__name__)
@@ -171,6 +174,45 @@ async def liveness_probe():
     return {"status": "alive", "timestamp": datetime.utcnow()}
 @router.get("/ready")
 async def readiness_probe():
     """

 from pydantic import BaseModel
 from src.core import get_logger, settings
+from src.core.monitoring import get_metrics_data, collect_system_metrics, performance_metrics, health_monitor
 from src.tools import TransparencyAPIClient
+from prometheus_client import CONTENT_TYPE_LATEST
+from fastapi.responses import Response
 logger = get_logger(__name__)
     return {"status": "alive", "timestamp": datetime.utcnow()}
+@router.get("/metrics")
+async def prometheus_metrics():
+    """
+    Prometheus metrics endpoint.
+    Returns metrics in Prometheus format for monitoring.
+    """
+    try:
+        metrics_data = get_metrics_data()
+        return Response(
+            content=metrics_data,
+            media_type=CONTENT_TYPE_LATEST
+        )
+    except Exception as e:
+        logger.error("metrics_endpoint_error", error=str(e))
+        raise HTTPException(
+            status_code=500,
+            detail=f"Failed to collect metrics: {str(e)}"
+        )
+@router.get("/metrics/json")
+async def system_metrics_json():
+    """
+    System metrics in JSON format for debugging.
+    Returns comprehensive system metrics in JSON format.
+    """
+    try:
+        metrics = await collect_system_metrics()
+        return metrics
+    except Exception as e:
+        logger.error("system_metrics_error", error=str(e))
+        raise HTTPException(
+            status_code=500,
+            detail=f"Failed to collect system metrics: {str(e)}"
+        )
 @router.get("/ready")
 async def readiness_probe():
     """

src/core/monitoring.py CHANGED Viewed

@@ -99,6 +99,37 @@ ACTIVE_CONNECTIONS = Gauge(
     ['connection_type']
 )
 class PerformanceMetrics:
     """System performance metrics collector."""

     ['connection_type']
 )
+# Investigation and Anomaly Detection Metrics
+INVESTIGATIONS_TOTAL = Counter(
+    'cidadao_ai_investigations_total',
+    'Total number of investigations started',
+    ['agent_type', 'investigation_type', 'status']
+)
+ANOMALIES_DETECTED = Counter(
+    'cidadao_ai_anomalies_detected_total',
+    'Total number of anomalies detected',
+    ['anomaly_type', 'severity', 'agent']
+)
+INVESTIGATION_DURATION = Histogram(
+    'cidadao_ai_investigation_duration_seconds',
+    'Time taken for investigations',
+    ['agent_type', 'investigation_type']
+)
+DATA_RECORDS_PROCESSED = Counter(
+    'cidadao_ai_data_records_processed_total',
+    'Total number of data records processed',
+    ['data_source', 'agent', 'operation']
+)
+TRANSPARENCY_API_DATA_FETCHED = Counter(
+    'cidadao_ai_transparency_data_fetched_total',
+    'Total data fetched from transparency API',
+    ['endpoint', 'organization', 'status']
+)
 class PerformanceMetrics:
     """System performance metrics collector."""