Spaces:

guifav
/

listen_lynx

Sleeping

Guilherme Favaron commited on 20 days ago

Commit

4a19bf8

1 Parent(s): f54d6c3

📚 Atualização e otimização do README.md

✨ Melhorias na documentação:
• Estrutura mais organizada e clara
• Informações atualizadas sobre o projeto
• Melhor formatação e legibilidade
• Conteúdo mais conciso e direto

🔧 Otimizações:
• Remoção de informações redundantes
• Reorganização das seções
• Melhoria na apresentação visual

📊 Estatísticas: 108 inserções, 131 deleções

Files changed (1) hide show

README.md +108 -131

README.md CHANGED Viewed

@@ -10,166 +10,131 @@ pinned: false
 license: mit
 ---
-Transcreva arquivos de áudio usando os modelos mais avançados da OpenAI com recursos profissionais completos!
-✨ Funcionalidades Completas
-🎯 4 Modelos Disponíveis
-- GPT-4o Transcribe: Máxima qualidade com correção automática
-- GPT-4o Mini Transcribe: Velocidade otimizada e econômico
-- GPT-4o Transcribe Diarize: Identifica quem está falando (ideal para reuniões)
-- Whisper-1: Modelo clássico com suporte a múltiplos formatos
-📄 5 Formatos de Saída
-- Text: Texto simples e direto
-- JSON: Estruturado para integração
-- SRT: Legendas SubRip (para vídeos)
-- VTT: WebVTT (para web)
-- Verbose JSON: JSON detalhado com timestamps
-- Diarized JSON: JSON com identificação de speakers
-🌍 15+ Idiomas Suportados
-Português 🇧🇷, Inglês 🇺🇸, Espanhol 🇪🇸, Francês 🇫🇷, Alemão 🇩🇪
-Italiano 🇮🇹, Japonês 🇯🇵, Coreano 🇰🇷, Chinês 🇨🇳, Russo 🇷🇺
-Árabe 🇸🇦, Hindi 🇮🇳, Holandês 🇳🇱, Polonês 🇵🇱, Turco 🇹🇷
-Auto-detecção disponível
-🎧 Formatos de Áudio Suportados
-- Comprimidos: MP3, M4A, AAC, OPUS, OGG
-- Não comprimidos: WAV, FLAC
-- Vídeo: MP4, MPEG, MPGA, WEBM
-**🚀 Recursos Avançados**
-💬 Prompt Personalizado
-- Melhora reconhecimento de termos técnicos (+30-50%)
-- Ideal para acrônimos, nomes próprios, vocabulário específico
-- Limite: 224 tokens (~150 palavras)
-📄 Vocabulário Personalizado
-- Adicione termos técnicos, acrônimos ou nomes próprios ao prompt
-- Melhora a precisão do reconhecimento para seu nicho
-- Impacto: +20-40% na qualidade final
-✨ Pós-processamento com GPT-4 Mini
-- Correção automática de erros ortográficos
-- Melhoria de pontuação e gramática
-- Vocabulário personalizado para termos específicos
-- Impacto: +20-40% na qualidade final
 📦 Processamento de Arquivos Grandes
-- Arquivos até 25MB: processamento direto
-- Arquivos maiores: divisão automática em chunks de 20MB
-- Progress bar em tempo real
-- Sem limite de duração total
-🎨 Interface Profissional
-- Layout responsivo em 2 colunas
-- Acordeões organizados (Básico/Avançado)
-- Documentação integrada com guia completo
-- Tooltips informativos em todos os campos
-- Estatísticas da transcrição (palavras/caracteres)
-📊 Casos de Uso
-🎙️ Podcasts e Conteúdo
-- Modelo: gpt-4o-transcribe
-- Formato: text
-- Idioma: pt
-- Prompt: [termos técnicos do seu nicho]
-- Pós-proc.: ✅ Ativado
-→ Transcrição profissional pronta para publicação
-📞 Reuniões e Chamadas
-- Modelo: gpt-4o-transcribe-diarize
-- Formato: diarized_json
-- Idioma: pt
-→ Identifica automaticamente quem está falando e seus tempos
-🎥 Legendas para Vídeos
-- Modelo: whisper-1
-- Formato: srt ou vtt
-- Idioma: [idioma do vídeo]
-→ Arquivo de legendas pronto para upload
-🎓 Aulas e Palestras
-- Modelo: gpt-4o-transcribe
-- Formato: text
-- Idioma: pt
-- Prompt: [termos técnicos da disciplina]
-- Pós-proc.: ✅ Ativado
-- Vocabulário: [conceitos importantes]
-→ Transcrição acadêmica de alta qualidade
-💼 Entrevistas e Jornalismo
-- Modelo: gpt-4o-transcribe-diarize
-- Formato: text
-- Idioma: auto
-→ Diferencia entrevistador e entrevistado
-⚙️ Configuração
-1. API Key da OpenAI
-Configure a variável de ambiente OPENAI_API_KEY nas secrets do Space com sua chave da API da OpenAI.
-2. Dependências
-bashpip install -r requirements.txt
-3. Dependências do Sistema
-bashapt-get install ffmpeg
-💰 Custos Estimados
-Transcrição Base (OpenAI)
-```
 $0.006 por minuto de áudio
 Exemplo: 1 hora = $0.36
-```
-Pós-processamento (Opcional)
-```
 ~$0.0001-0.0005 por transcrição
 Custo adicional mínimo
-```
 Exemplos Práticos
 Podcast 45 minutos:
-- Transcrição: $0.27
-- Com pós-proc.: $0.27 + $0.0003 = $0.2703
 Reunião 2 horas:
-- Transcrição: $0.72
-- Com pós-proc.: $0.72 + $0.0005 = $0.7205
 Aula 1h30:
-- Transcrição: $0.54
-- Com pós-proc.: $0.54 + $0.0004 = $0.5404
-🛠️ Tecnologias Utilizadas
-- Streamlit: Interface web moderna
-- OpenAI API: Modelos GPT-4o e Whisper
-- Pydub: Processamento de áudio
-- Python 3.10+: Backend
-📝 Como Usar
-1. Upload: Faça upload do arquivo de áudio
-2. Configure: Escolha modelo, formato e idioma
-3. Avançado (opcional): Adicione prompt e vocabulário personalizado
-4. Transcreva: Clique em "Transcrever Áudio"
-5. Download: Baixe o resultado em TXT
-🔒 Privacidade e Segurança
-✅ Arquivos processados via API OpenAI
-✅ Nenhum arquivo armazenado permanentemente
-✅ Limpeza automática de arquivos temporários
-✅ Processamento seguro com HTTPS
-📚 Documentação Adicional
-A interface inclui documentação completa integrada com:
-- Guia de modelos e quando usar cada um
-- Dicas para melhores resultados
-- Informações de custo detalhadas
-- Exemplos práticos de uso
 🚀 Deploy
 Hugging Face Spaces
-1. Clone este repositório
-2. Configure OPENAI_API_KEY nas secrets
-3. Push para o Hugging Face
-4. Aguarde build (3-5 minutos)
 Local
 ```
@@ -180,9 +145,21 @@ export OPENAI_API_KEY="sk-..."
 streamlit run app.py
 ```
 🎓 Créditos
 Desenvolvido usando:
-- OpenAI GPT-4o & Whisper API
 - Streamlit Framework
 - Python & Pydub

 license: mit
 ---
+✨ Características
+🤖 GPT-4o Mini Transcribe
+Modelo rápido e econômico da OpenAI
+Máxima precisão na transcrição
+Otimizado para performance
+🌍 Detecção Automática de Idioma
+Suporta 15+ idiomas automaticamente
+Português 🇧🇷, Inglês 🇺🇸, Espanhol 🇪🇸, Francês 🇫🇷, Alemão 🇩🇪
+Italiano 🇮🇹, Japonês 🇯🇵, Coreano 🇰🇷, Chinês 🇨🇳, Russo 🇷🇺
+Árabe 🇸🇦, Hindi 🇮🇳, Holandês 🇳🇱, Polonês 🇵🇱, Turco 🇹🇷 e mais!
+✨ Correção Automática com GPT-4 Mini
+Correção automática de erros ortográficos
+Melhoria de pontuação e gramática
+Texto mais legível e profissional
+Impacto: +20-40% na qualidade final
 📦 Processamento de Arquivos Grandes
+Arquivos até 25MB: processamento direto
+Arquivos maiores: divisão automática em chunks de 20MB
+Sem limite de tamanho ou duração total
+Progress bar em tempo real
+🎧 Todos os Formatos de Áudio Suportados
+Comprimidos: MP3, M4A, AAC, OPUS, OGG
+Não comprimidos: WAV, FLAC
+Vídeo: MP4, MPEG, MPGA, WEBM
+Conversão automática para formato otimizado
+🎯 Como Usar
+Upload: Faça upload do seu arquivo de áudio (qualquer formato, qualquer tamanho)
+Clique: Pressione o botão "Transcrever Áudio"
+Aguarde: O sistema irá:
+Converter para MP3 (se necessário)
+Dividir em partes (arquivos grandes)
+Transcrever com GPT-4o Mini
+Aplicar correções automáticas
+Download: Baixe o resultado em TXT
+💰 Custos Estimados (OpenAI API)
+Transcrição Base
 $0.006 por minuto de áudio
 Exemplo: 1 hora = $0.36
+Pós-processamento (Automático)
 ~$0.0001-0.0005 por transcrição
 Custo adicional mínimo
 Exemplos Práticos
 Podcast 45 minutos:
+Transcrição: $0.27
+Com pós-proc.: $0.27 + $0.0003 = $0.2703
 Reunião 2 horas:
+Transcrição: $0.72
+Com pós-proc.: $0.72 + $0.0005 = $0.7205
 Aula 1h30:
+Transcrição: $0.54
+Com pós-proc.: $0.54 + $0.0004 = $0.5404
+📊 Casos de Uso
+🎙️ Podcasts e Conteúdo
+→ Transcrição profissional pronta para publicação
+→ Correção automática de erros
+→ Formatação limpa e legível
+📞 Reuniões e Chamadas
+→ Transcrição completa de reuniões
+→ Texto corrigido e formatado
+→ Pronto para compartilhamento
+🎥 Vídeos para Texto
+→ Extração de áudio de vídeos
+→ Transcrição automática
+→ Pode ser usado para criar legendas
+🎓 Aulas e Palestras
+→ Transcrição acadêmica de alta qualidade
+→ Correção de termos técnicos
+→ Formatação profissional
+💼 Entrevistas e Jornalismo
+→ Transcrição rápida e precisa
+→ Texto corrigido automaticamente
+→ Economia de tempo na edição
+⚙️ Configuração
+1. API Key da OpenAI
+Configure a variável de ambiente OPENAI_API_KEY nas secrets do Space com sua chave da API da OpenAI.
+2. Dependências Python
+bashpip install -r requirements.txt
+requirements.txt:
+streamlit>=1.28.0
+openai>=1.50.0
+httpx>=0.27.0
+pydub==0.25.1
+python-dotenv==1.0.0
+3. Dependências do Sistema
+bashapt-get install ffmpeg
+packages.txt:
+ffmpeg
+🛠️ Tecnologias Utilizadas
+Streamlit: Interface web moderna e responsiva
+- OpenAI GPT-4o Mini: Transcrição e correção de texto
+- Pydub: Processamento e manipulação de áudio
+- Python 3.10+: Backend robusto e confiável
 🚀 Deploy
 Hugging Face Spaces
+- Clone este repositório
+- Configure OPENAI_API_KEY nas secrets
+- Push para o Hugging Face
+- Aguarde build (3-5 minutos)
 Local
 ```
 streamlit run app.py
 ```
+🔒 Privacidade e Segurança
+✅ Arquivos processados via API OpenAI
+✅ Nenhum arquivo armazenado permanentemente
+✅ Limpeza automática de arquivos temporários
+✅ Processamento seguro com HTTPS
+📝 Limitações
+Requer chave de API da OpenAI válida
+Custos baseados no uso da API
+Arquivos muito grandes podem levar alguns minutos
+Qualidade da transcrição depende da qualidade do áudio
 🎓 Créditos
 Desenvolvido usando:
+- OpenAI GPT-4o Mini API
 - Streamlit Framework
 - Python & Pydub