Guilherme Favaron commited on
Commit
4a19bf8
·
1 Parent(s): f54d6c3

📚 Atualização e otimização do README.md

Browse files

✨ Melhorias na documentação:
• Estrutura mais organizada e clara
• Informações atualizadas sobre o projeto
• Melhor formatação e legibilidade
• Conteúdo mais conciso e direto

🔧 Otimizações:
• Remoção de informações redundantes
• Reorganização das seções
• Melhoria na apresentação visual

📊 Estatísticas: 108 inserções, 131 deleções

Files changed (1) hide show
  1. README.md +108 -131
README.md CHANGED
@@ -10,166 +10,131 @@ pinned: false
10
  license: mit
11
  ---
12
 
13
- Transcreva arquivos de áudio usando os modelos mais avançados da OpenAI com recursos profissionais completos!
14
-
15
- ✨ Funcionalidades Completas
16
- 🎯 4 Modelos Disponíveis
17
- - GPT-4o Transcribe: Máxima qualidade com correção automática
18
- - GPT-4o Mini Transcribe: Velocidade otimizada e econômico
19
- - GPT-4o Transcribe Diarize: Identifica quem está falando (ideal para reuniões)
20
- - Whisper-1: Modelo clássico com suporte a múltiplos formatos
21
-
22
- 📄 5 Formatos de Saída
23
- - Text: Texto simples e direto
24
- - JSON: Estruturado para integração
25
- - SRT: Legendas SubRip (para vídeos)
26
- - VTT: WebVTT (para web)
27
- - Verbose JSON: JSON detalhado com timestamps
28
- - Diarized JSON: JSON com identificação de speakers
29
-
30
- 🌍 15+ Idiomas Suportados
31
- Português 🇧🇷, Inglês 🇺🇸, Espanhol 🇪🇸, Francês 🇫🇷, Alemão 🇩🇪
32
- Italiano 🇮🇹, Japonês 🇯🇵, Coreano 🇰🇷, Chinês 🇨🇳, Russo 🇷🇺
33
- Árabe 🇸🇦, Hindi 🇮🇳, Holandês 🇳🇱, Polonês 🇵🇱, Turco 🇹🇷
34
- Auto-detecção disponível
35
 
36
- 🎧 Formatos de Áudio Suportados
37
- - Comprimidos: MP3, M4A, AAC, OPUS, OGG
38
- - Não comprimidos: WAV, FLAC
39
- - Vídeo: MP4, MPEG, MPGA, WEBM
40
 
41
- **🚀 Recursos Avançados**
42
 
43
- 💬 Prompt Personalizado
44
- - Melhora reconhecimento de termos técnicos (+30-50%)
45
- - Ideal para acrônimos, nomes próprios, vocabulário específico
46
- - Limite: 224 tokens (~150 palavras)
47
 
48
- 📄 Vocabulário Personalizado
49
- - Adicione termos técnicos, acrônimos ou nomes próprios ao prompt
50
- - Melhora a precisão do reconhecimento para seu nicho
51
- - Impacto: +20-40% na qualidade final
52
 
53
- Pós-processamento com GPT-4 Mini
54
- - Correção automática de erros ortográficos
55
- - Melhoria de pontuação e gramática
56
- - Vocabulário personalizado para termos específicos
57
- - Impacto: +20-40% na qualidade final
58
 
59
  📦 Processamento de Arquivos Grandes
60
- - Arquivos até 25MB: processamento direto
61
- - Arquivos maiores: divisão automática em chunks de 20MB
62
- - Progress bar em tempo real
63
- - Sem limite de duração total
64
-
65
- 🎨 Interface Profissional
66
- - Layout responsivo em 2 colunas
67
- - Acordeões organizados (Básico/Avançado)
68
- - Documentação integrada com guia completo
69
- - Tooltips informativos em todos os campos
70
- - Estatísticas da transcrição (palavras/caracteres)
71
 
72
- 📊 Casos de Uso
73
- 🎙️ Podcasts e Conteúdo
74
- - Modelo: gpt-4o-transcribe
75
- - Formato: text
76
- - Idioma: pt
77
- - Prompt: [termos técnicos do seu nicho]
78
- - Pós-proc.: ✅ Ativado
79
 
80
- Transcrição profissional pronta para publicação
81
- 📞 Reuniões e Chamadas
82
- - Modelo: gpt-4o-transcribe-diarize
83
- - Formato: diarized_json
84
- - Idioma: pt
85
- → Identifica automaticamente quem está falando e seus tempos
86
 
87
- 🎥 Legendas para Vídeos
88
- - Modelo: whisper-1
89
- - Formato: srt ou vtt
90
- - Idioma: [idioma do vídeo]
91
- → Arquivo de legendas pronto para upload
92
 
93
- 🎓 Aulas e Palestras
94
- - Modelo: gpt-4o-transcribe
95
- - Formato: text
96
- - Idioma: pt
97
- - Prompt: [termos técnicos da disciplina]
98
- - Pós-proc.: ✅ Ativado
99
- - Vocabulário: [conceitos importantes]
100
- → Transcrição acadêmica de alta qualidade
101
 
102
- 💼 Entrevistas e Jornalismo
103
- - Modelo: gpt-4o-transcribe-diarize
104
- - Formato: text
105
- - Idioma: auto
106
- → Diferencia entrevistador e entrevistado
107
 
108
- ⚙️ Configuração
109
- 1. API Key da OpenAI
110
- Configure a variável de ambiente OPENAI_API_KEY nas secrets do Space com sua chave da API da OpenAI.
111
- 2. Dependências
112
- bashpip install -r requirements.txt
113
- 3. Dependências do Sistema
114
- bashapt-get install ffmpeg
115
 
116
- 💰 Custos Estimados
117
 
118
- Transcrição Base (OpenAI)
119
- ```
 
 
120
  $0.006 por minuto de áudio
121
  Exemplo: 1 hora = $0.36
122
- ```
123
- Pós-processamento (Opcional)
124
- ```
125
  ~$0.0001-0.0005 por transcrição
126
  Custo adicional mínimo
127
- ```
128
  Exemplos Práticos
129
  Podcast 45 minutos:
130
- - Transcrição: $0.27
131
- - Com pós-proc.: $0.27 + $0.0003 = $0.2703
 
132
 
133
  Reunião 2 horas:
134
- - Transcrição: $0.72
135
- - Com pós-proc.: $0.72 + $0.0005 = $0.7205
 
136
 
137
  Aula 1h30:
138
- - Transcrição: $0.54
139
- - Com pós-proc.: $0.54 + $0.0004 = $0.5404
140
-
141
- 🛠️ Tecnologias Utilizadas
142
- - Streamlit: Interface web moderna
143
- - OpenAI API: Modelos GPT-4o e Whisper
144
- - Pydub: Processamento de áudio
145
- - Python 3.10+: Backend
146
-
147
- 📝 Como Usar
148
- 1. Upload: Faça upload do arquivo de áudio
149
- 2. Configure: Escolha modelo, formato e idioma
150
- 3. Avançado (opcional): Adicione prompt e vocabulário personalizado
151
- 4. Transcreva: Clique em "Transcrever Áudio"
152
- 5. Download: Baixe o resultado em TXT
153
 
154
- 🔒 Privacidade e Segurança
155
- Arquivos processados via API OpenAI
156
- ✅ Nenhum arquivo armazenado permanentemente
157
- Limpeza automática de arquivos temporários
158
- Processamento seguro com HTTPS
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
159
 
160
- 📚 Documentação Adicional
161
- A interface inclui documentação completa integrada com:
162
- - Guia de modelos e quando usar cada um
163
- - Dicas para melhores resultados
164
- - Informações de custo detalhadas
165
- - Exemplos práticos de uso
 
 
 
 
 
 
 
 
 
 
 
 
 
 
166
 
167
  🚀 Deploy
168
  Hugging Face Spaces
169
- 1. Clone este repositório
170
- 2. Configure OPENAI_API_KEY nas secrets
171
- 3. Push para o Hugging Face
172
- 4. Aguarde build (3-5 minutos)
173
 
174
  Local
175
  ```
@@ -180,9 +145,21 @@ export OPENAI_API_KEY="sk-..."
180
  streamlit run app.py
181
  ```
182
 
 
 
 
 
 
 
 
 
 
 
 
 
183
  🎓 Créditos
184
  Desenvolvido usando:
185
- - OpenAI GPT-4o & Whisper API
186
  - Streamlit Framework
187
  - Python & Pydub
188
 
 
10
  license: mit
11
  ---
12
 
13
+ Características
14
+ 🤖 GPT-4o Mini Transcribe
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
15
 
16
+ Modelo rápido e econômico da OpenAI
17
+ Máxima precisão na transcrição
18
+ Otimizado para performance
 
19
 
20
+ 🌍 Detecção Automática de Idioma
21
 
22
+ Suporta 15+ idiomas automaticamente
23
+ Português 🇧🇷, Inglês 🇺🇸, Espanhol 🇪🇸, Francês 🇫🇷, Alemão 🇩🇪
24
+ Italiano 🇮🇹, Japonês 🇯🇵, Coreano 🇰🇷, Chinês 🇨🇳, Russo 🇷🇺
25
+ Árabe 🇸🇦, Hindi 🇮🇳, Holandês 🇳🇱, Polonês 🇵🇱, Turco 🇹🇷 e mais!
26
 
27
+ Correção Automática com GPT-4 Mini
 
 
 
28
 
29
+ Correção automática de erros ortográficos
30
+ Melhoria de pontuação e gramática
31
+ Texto mais legível e profissional
32
+ Impacto: +20-40% na qualidade final
 
33
 
34
  📦 Processamento de Arquivos Grandes
 
 
 
 
 
 
 
 
 
 
 
35
 
36
+ Arquivos até 25MB: processamento direto
37
+ Arquivos maiores: divisão automática em chunks de 20MB
38
+ Sem limite de tamanho ou duração total
39
+ Progress bar em tempo real
 
 
 
40
 
41
+ 🎧 Todos os Formatos de Áudio Suportados
 
 
 
 
 
42
 
43
+ Comprimidos: MP3, M4A, AAC, OPUS, OGG
44
+ Não comprimidos: WAV, FLAC
45
+ Vídeo: MP4, MPEG, MPGA, WEBM
46
+ Conversão automática para formato otimizado
 
47
 
48
+ 🎯 Como Usar
 
 
 
 
 
 
 
49
 
50
+ Upload: Faça upload do seu arquivo de áudio (qualquer formato, qualquer tamanho)
51
+ Clique: Pressione o botão "Transcrever Áudio"
52
+ Aguarde: O sistema irá:
 
 
53
 
54
+ Converter para MP3 (se necessário)
55
+ Dividir em partes (arquivos grandes)
56
+ Transcrever com GPT-4o Mini
57
+ Aplicar correções automáticas
 
 
 
58
 
 
59
 
60
+ Download: Baixe o resultado em TXT
61
+
62
+ 💰 Custos Estimados (OpenAI API)
63
+ Transcrição Base
64
  $0.006 por minuto de áudio
65
  Exemplo: 1 hora = $0.36
66
+ Pós-processamento (Automático)
 
 
67
  ~$0.0001-0.0005 por transcrição
68
  Custo adicional mínimo
 
69
  Exemplos Práticos
70
  Podcast 45 minutos:
71
+
72
+ Transcrição: $0.27
73
+ Com pós-proc.: $0.27 + $0.0003 = $0.2703
74
 
75
  Reunião 2 horas:
76
+
77
+ Transcrição: $0.72
78
+ Com pós-proc.: $0.72 + $0.0005 = $0.7205
79
 
80
  Aula 1h30:
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
81
 
82
+ Transcrição: $0.54
83
+ Com pós-proc.: $0.54 + $0.0004 = $0.5404
84
+
85
+ 📊 Casos de Uso
86
+ 🎙️ Podcasts e Conteúdo
87
+ → Transcrição profissional pronta para publicação
88
+ → Correção automática de erros
89
+ → Formatação limpa e legível
90
+ 📞 Reuniões e Chamadas
91
+ → Transcrição completa de reuniões
92
+ → Texto corrigido e formatado
93
+ → Pronto para compartilhamento
94
+ 🎥 Vídeos para Texto
95
+ → Extração de áudio de vídeos
96
+ → Transcrição automática
97
+ → Pode ser usado para criar legendas
98
+ 🎓 Aulas e Palestras
99
+ → Transcrição acadêmica de alta qualidade
100
+ → Correção de termos técnicos
101
+ → Formatação profissional
102
+ 💼 Entrevistas e Jornalismo
103
+ → Transcrição rápida e precisa
104
+ → Texto corrigido automaticamente
105
+ → Economia de tempo na edição
106
+
107
+ ⚙️ Configuração
108
+ 1. API Key da OpenAI
109
+ Configure a variável de ambiente OPENAI_API_KEY nas secrets do Space com sua chave da API da OpenAI.
110
 
111
+ 2. Dependências Python
112
+ bashpip install -r requirements.txt
113
+ requirements.txt:
114
+ streamlit>=1.28.0
115
+ openai>=1.50.0
116
+ httpx>=0.27.0
117
+ pydub==0.25.1
118
+ python-dotenv==1.0.0
119
+
120
+ 3. Dependências do Sistema
121
+ bashapt-get install ffmpeg
122
+ packages.txt:
123
+ ffmpeg
124
+
125
+ 🛠️ Tecnologias Utilizadas
126
+
127
+ Streamlit: Interface web moderna e responsiva
128
+ - OpenAI GPT-4o Mini: Transcrição e correção de texto
129
+ - Pydub: Processamento e manipulação de áudio
130
+ - Python 3.10+: Backend robusto e confiável
131
 
132
  🚀 Deploy
133
  Hugging Face Spaces
134
+ - Clone este repositório
135
+ - Configure OPENAI_API_KEY nas secrets
136
+ - Push para o Hugging Face
137
+ - Aguarde build (3-5 minutos)
138
 
139
  Local
140
  ```
 
145
  streamlit run app.py
146
  ```
147
 
148
+ 🔒 Privacidade e Segurança
149
+ ✅ Arquivos processados via API OpenAI
150
+ ✅ Nenhum arquivo armazenado permanentemente
151
+ ✅ Limpeza automática de arquivos temporários
152
+ ✅ Processamento seguro com HTTPS
153
+
154
+ 📝 Limitações
155
+ Requer chave de API da OpenAI válida
156
+ Custos baseados no uso da API
157
+ Arquivos muito grandes podem levar alguns minutos
158
+ Qualidade da transcrição depende da qualidade do áudio
159
+
160
  🎓 Créditos
161
  Desenvolvido usando:
162
+ - OpenAI GPT-4o Mini API
163
  - Streamlit Framework
164
  - Python & Pydub
165