Software livre e gratuito — v0.1.8

Transcreva entrevistas sem enviar seu áudio pra nuvem.

Transcritório é um aplicativo de desktop para transcrição automática e separação de falantes em português brasileiro. Roda 100% na sua máquina — sem login, sem assinatura, sem envio de dados.

Ainda avaliando? Role a página e veja em 30 segundos por que pesquisadores estão migrando de serviços na nuvem.

Tela principal do Transcritório mostrando forma de onda, tabela de turnos com entrevistadora e entrevistado, e editor de bloco.

🔒 100% local, sem nuvem
🗣️ Separação automática de falantes
🇧🇷 Português brasileiro nativo
〰️ Editor com forma de onda
📄 Exporta em vários formatos
🆓 Gratuito e código aberto

Como mudam as suas horas de trabalho

Sem Transcritório

8 a 10 horas transcrevendo manualmente 1 hora de entrevista.
Enviar áudio sigiloso para servidores de empresas estrangeiras.
Mensalidade de R$ 100–300 por serviços de transcrição online.
Marcar falantes na mão, linha por linha.
Explicar ao comitê de ética por que o áudio foi para a nuvem.

Com Transcritório

15 a 30 minutos de processamento, depois só revisar.
Áudio nunca sai do seu computador.
Zero custo, para sempre. Código aberto sob licença MIT.
Falantes identificados automaticamente e renomeáveis em um clique.
Texto pronto para colar no projeto de pesquisa (logo abaixo).

Privacidade por desenho, não por promessa

Processamento 100% local: o áudio da entrevista nunca é enviado a servidores externos.
Sem coleta de dados, sem telemetria: nenhum cadastro ou login é exigido.
Código-fonte aberto sob licença MIT: auditável por qualquer pessoa.
Compatível com LGPD e TCLE: você mantém controle integral sobre o áudio do informante.

Tudo que um pesquisador precisa

Gerenciador de arquivos do projeto

Todos os áudios do projeto em uma única tela, com status visual de cada etapa: ainda não transcrito, em fila, concluído, revisado. Você acompanha um projeto inteiro — dezenas de entrevistas — sem perder o fio do trabalho.

Player sincronizado com áudio e forma de onda, mostrando o momento atual da entrevista.

Revisão lado a lado com o áudio

Ouça e corrija ao mesmo tempo. Cada trecho transcrito fica ancorado no ponto exato do áudio, e um clique leva você até lá. O pesquisador revisa em um terço do tempo que levaria em um editor de texto comum.

Editor de turnos mostrando opções de juntar e dividir blocos da transcrição.

Editor de turnos com forma de onda

A forma de onda mostra visualmente silêncios, sobreposições e trocas de falante. Você ajusta limites de trechos, junta ou divide blocos com um clique — útil em entrevistas com falas rápidas ou interrupções frequentes.

Menu contextual da tabela de turnos com opções de edição avançada.

Tabela de turnos pronta para análise

A transcrição é organizada em turnos de fala com metadados de tempo e falante. Exporte em DOCX, MD, SRT, VTT, CSV, TSV ou NVivo — e importe direto no NVivo, Atlas.ti, MAXQDA ou em um script de R/Python.

Como usar, em quatro passos

1

Crie um projeto

Escolha um nome para o projeto e uma pasta onde os arquivos serão organizados. O Transcritório cria a estrutura de pastas para você.
2

Adicione os áudios ou vídeos

Arraste seus arquivos para a janela. MP3, WAV, M4A, MP4 e outros formatos comuns são aceitos.
3

Clique em transcrever

Escolha o idioma (português brasileiro) e o número de falantes. O Transcritório faz o resto — em um notebook comum, processa de metade a um terço da duração do áudio.
4

Revise no Estúdio e exporte

Abra a transcrição, ajuste trechos, renomeie os falantes (Entrevistador, Joana, Pedro…) e exporte no formato da sua preferência.

Instalando no seu sistema

🪟 Windows 10/11

Baixe o arquivo Transcritorio-0.1.8-Setup.exe da última release.
Execute o instalador. O Windows Defender pode exibir um aviso azul — clique em "Mais informações" e depois em "Executar assim mesmo".
Abra o Transcritório pelo menu Iniciar.
Opcional: se você tem placa gráfica NVIDIA, o aplicativo detecta automaticamente e oferece baixar a aceleração (~1 GB), tornando a transcrição até 9x mais rápida.

🍎 macOS (Apple Silicon)

Baixe o arquivo Transcritorio.dmg da última release.
Arraste o Transcritório para a pasta Aplicativos.
Primeira vez: clique com o botão direito no ícone do app e escolha "Abrir". Em seguida, clique em "Abrir" no aviso de segurança. Se o app ainda não abrir (macOS 15 Sequoia bloqueia apps sem Apple Developer ID), clique duas vezes no arquivo Habilitar Transcritório.command que vem dentro do mesmo .dmg. Detalhes em docs/MAC_INSTALL.md.
Aceleração Metal automática (M1/M2/M3/M4): o app já vem com a biblioteca de aceleração GPU Apple embutida. Um selo Motor: MLX (Metal) aparece no cabeçalho do projeto quando a aceleração está ativa. Na primeira transcrição, o modelo otimizado (~1,6 GB) é baixado em segundo plano.
Tudo embutido: ffmpeg e todas as dependências vêm dentro do .dmg. Nada pra instalar pelo terminal.

🐧 Linux

Baixe o arquivo Transcritorio-x86_64.AppImage da última release.
No terminal, dê permissão de execução: chmod +x Transcritorio-*.AppImage
Instale as bibliotecas do sistema X11 (Ubuntu/Debian): sudo apt install libfuse2 libxcb-cursor0 libxcb-xinerama0 libxkbcommon-x11-0. ffmpeg já vem embutido no AppImage — não precisa instalar à parte.
Execute com duplo clique ou ./Transcritorio-x86_64.AppImage. Testado em Ubuntu 22.04+ e Fedora 40+.

Requisitos de sistema

Mínimo

CPU: 4 núcleos
RAM: 8 GB
Disco: 5 GB livres
Funciona — 1h de áudio leva ~40–60 min.

Recomendado

CPU: 8 núcleos
RAM: 16 GB
Disco: 10 GB livres
1h de áudio em ~20–30 min.

Ideal

CPU: 8+ núcleos
RAM: 16 GB ou mais
GPU: NVIDIA com 6 GB+ VRAM (ou Apple Silicon)
1h de áudio em 5–10 min.

A inteligência artificial por detrás

(detalhes técnicos)

Whisper (OpenAI, 2022)

Modelo de transcrição automática treinado em 680 mil horas de áudio multilíngue, incluindo grande quantidade de português. O Transcritório usa a versão large-v3 por padrão, que entrega alta acurácia mesmo em áudios com ruído de fundo ou sotaques regionais. Executado localmente via faster-whisper.

pyannote.audio (Bredin et al., 2020)

Biblioteca responsável pela separação automática de falantes — ou seja, por identificar quem falou em cada trecho. Usa redes neurais para agrupar vozes semelhantes ao longo da entrevista. Funciona bem até com 6–8 participantes distintos e também roda offline.

Processamento local

Tanto Whisper quanto pyannote rodam inteiramente no seu computador, via PyTorch. Nenhum áudio, texto ou metadado sai da sua máquina em momento algum. O primeiro uso baixa os pesos dos modelos (~3 GB); depois disso, o aplicativo funciona sem conexão com a internet.

Perguntas frequentes

Preciso de internet para usar?

Apenas no primeiro uso, para baixar os modelos (~3 GB). Depois disso, o Transcritório funciona integralmente offline.

Quão precisa é a transcrição?

Em áudios limpos de português brasileiro, a acurácia fica entre 90% e 96% das palavras corretas. Revisão humana continua sendo recomendada, especialmente para termos técnicos, nomes próprios e trechos com ruído.

E entrevistas com sotaque nordestino, caipira ou sulista?

O modelo Whisper large-v3 foi treinado com ampla variação dialetal em português e lida bem com sotaques regionais brasileiros. A queda de acurácia costuma ser pequena (2–4 pontos percentuais) em comparação a áudios em variante paulistana/carioca padrão.

Minha TI institucional bloqueia instalação de programas. O que faço?

Em Windows e Linux, o Transcritório pode rodar em modo portátil a partir de uma pasta do usuário, sem exigir privilégios de administrador (.AppImage no Linux, versão zipada no Windows sob demanda). Em último caso, peça à TI uma exceção apresentando a licença MIT e o repositório público no GitHub.

Como cito o Transcritório em um artigo ou tese?

Barbosa, R. J. (2026). Transcritório: transcrição local de entrevistas em português brasileiro (v0.1.8) [Software]. IESP-UERJ/CERES.

@software{barbosa2026transcritorio,
  author    = {Barbosa, Rog{\'e}rio Jer{\^o}nimo},
  title     = {Transcrit{\'o}rio: transcri{\c{c}}{\~a}o local de entrevistas em portugu{\^e}s brasileiro},
  year      = {2026},
  version   = {0.1.8},
  publisher = {IESP-UERJ/CERES},
  license   = {MIT},
  url       = {https://github.com/antrologos/Transcritorio}
}

Preciso de token da Hugging Face para os modelos?

Não no fluxo padrão. O Transcritório já inclui os componentes necessários dos modelos. Um token da Hugging Face só é pedido em cenários avançados (por exemplo, usar modelos de separação de falantes mais recentes manualmente).

Funciona com entrevistas em outros idiomas?

Sim. O Whisper suporta mais de 90 idiomas. O foco do Transcritório é português brasileiro, mas você pode selecionar espanhol, inglês, francês, etc. na interface.

Posso transcrever grupos focais com muitos participantes?

Sim, até cerca de 8 falantes com bons resultados. Acima disso, a separação de falantes começa a misturar vozes parecidas — nesses casos, recomenda-se revisão manual dos rótulos no editor.

O código é realmente aberto? Posso auditar?

Sim. Todo o código-fonte está publicado no GitHub sob licença MIT. Qualquer pessoa pode ler, modificar, redistribuir e verificar o comportamento do aplicativo.

Comece hoje. Seus áudios permanecem com você.

Gratuito, sem cadastro, código aberto.

Ver todas as versões no GitHub