Como funciona
Você carrega um PDF, a gente percorre página por página lendo o texto digital embutido (mesmo o que está bloqueado contra Ctrl+C no leitor), organiza por páginas e devolve pra você copiar ou salvar como .txt.
Tudo roda no seu navegador via pdfjs-dist, a mesma biblioteca que o Firefox usa pra exibir PDFs. O arquivo não sai do seu dispositivo.
Pra que serve
- Apostilas e provas de concurso protegidas: aquele PDF que não deixa selecionar texto pra resumir ou estudar.
- Jogar conteúdo no ChatGPT: pra resumir, traduzir, perguntar sobre. Pega o texto aqui e cola lá.
- Trechos de processos jurídicos: advogados que precisam citar parte de uma decisão ou petição.
- Artigos científicos: estudante copiando trecho de paper pra TCC ou monografia.
- Relatórios e e-books: qualquer PDF que você queira transformar em texto editável.
Limitações honestas
- PDFs scaneados não funcionam. Se o PDF for foto de papel digitalizado, não há texto digital pra extrair, só imagem. Precisaria OCR, que ainda não temos.
- Formatação básica. Negrito, fontes, cores e tabelas não são preservados. Vem texto puro com quebras de linha aproximadas.
- Layout de colunas pode embaralhar. PDFs com texto em duas colunas (jornais acadêmicos, por exemplo) podem sair com ordem confusa, dependendo de como o gerador montou o PDF.
- Caracteres especiais raros. Algumas fontes muito antigas ou exóticas podem extrair texto com símbolos no lugar de acentos. Caso aconteça, abre numa ferramenta diferente.
Privacidade
Tudo processado localmente no navegador. O PDF não é enviado pra servidor nenhum, não é armazenado, não passa por logs. Pode usar tranquilo com documentos sensíveis (jurídico, médico, financeiro), confirme pelas DevTools do navegador na aba Network: nenhuma requisição leva o arquivo.
Perguntas frequentes
Funciona em PDFs protegidos contra cópia?
Sim. A proteção contra cópia que muitos PDFs têm (apostilas, e-books, provas) bloqueia o Ctrl+C no leitor de PDF, mas o texto continua presente no arquivo. A gente lê direto, ignora a flag de proteção e devolve o conteúdo. Funciona pra apostilas de concurso, e-books, provas e qualquer PDF que tenha texto digital.
Funciona em PDFs scaneados?
Não. PDF scaneado é tecnicamente uma imagem dentro de um PDF, sem texto digital embutido. Pra extrair texto desses precisaria OCR (reconhecimento óptico de caracteres), que ainda não temos. Se a ferramenta retornar texto vazio, é provavelmente esse o motivo.
Como sei se meu PDF é digital ou scaneado?
Tente selecionar texto com o mouse no leitor de PDF. Se conseguir selecionar palavra por palavra, é PDF digital (e funciona aqui). Se o cursor selecionar uma área retangular como se fosse imagem, é scaneado.
O texto sai formatado?
Sai como texto puro com quebras de linha aproximadas. Negrito, itálico, fontes, cores e tabelas não são preservados, é só o conteúdo textual. Se precisar manter a formatação, use a ferramenta original que gerou o PDF.
Pra que serve extrair texto?
Casos comuns no BR: copiar trecho de apostila pra estudar/resumir, jogar texto no ChatGPT pra resumir ou traduzir, extrair conteúdo pra colar em email/Word, advogado pegando trecho de processo, estudante copiando artigo científico.
Os arquivos são enviados para algum servidor?
Não. Tudo é processado no seu navegador, com pdfjs-dist. O PDF nunca sai do seu dispositivo, dá pra confirmar pelas DevTools, na aba Network: nenhuma requisição leva o arquivo.
Tem limite de tamanho?
50 MB por arquivo. Suficiente pra apostilas grandes, e-books e relatórios com centenas de páginas.
Outras ferramentas
- PDF para JPG, transforma cada página em imagem.
- Comprimir PDF, reduz o tamanho.
- Ver todas as ferramentas