Contents

Como copiar facilmente texto de um PDF frustrante!

/images/selezionare-copiare-testo-PDF-OCR-intro-1120x700.jpg -Como fazer

Os documentos em formato PDF também são frequentemente utilizados como simples “contêineres” de imagens adquiridas via scanner. Muitos aplicativos permitem criar arquivos PDF de várias páginas: cada página corresponde a uma folha de papel previamente digitalizada digitalmente. Muitas vezes, porém, são encontradas dificuldades consideráveis ​​em copiar texto de um PDF.

Se você não conseguir abrir um documento PDF para selecionar e copiar o texto em outro lugar ( CTRL\+C , CTRL\+V ), geralmente significa que há apenas imagens no arquivo. Anote qualquer palavra que apareça no arquivo e pressione a combinação de teclas CTRL\+F. Se, digitando a mesma palavra na caixa de pesquisa , você não obteve nenhuma ocorrência (zero resultado), você terá mais uma confirmação da ausência de texto pesquisável no documento PDF.

Como reconhecer texto em documento PDF usando OCR

Existem muitas soluções para lidar com o problema de ter que pesquisar ou copiar texto de um documento PDF digitalizado. Um dos melhores, mais simples de usar e com custo zero é usar o aplicativo de código aberto OCRmyPDF.

Trata-se de uma ferramenta desenvolvida para adicionar uma camada de texto a arquivos PDF que hospedam apenas imagens, utilizando o recurso OCR ​​(reconhecimento óptico de caracteres).

OCRmyPDF é uma ferramenta poderosa e flexível que resolve um dos problemas comuns relacionados a arquivos PDF gerados a partir de documentos digitalizados. Sua principal função é produzir arquivos PDF/A pesquisáveis ​​a partir de um PDF normal, permitindo aos usuários realizar pesquisas no documento, bem como copiar e colar o texto em outros contextos.

O software OCRmyPDF posiciona com precisão o texto reconhecido abaixo da imagem original, simplificando a operação copiar e colar. Também preserva a resolução exata das imagens incorporadas no documento original e pode possivelmente corrigir, mediante solicitação, a inclinação das imagens (deskewing) antes de realizar a operação de OCR.

OCRmyPDF também permite otimizar imagens PDF , muitas vezes produzindo arquivos menores que o documento de entrada.

Do ponto de vista do desempenho , o aplicativo distribui com eficiência o trabalho de processamento de PDF, dividindo as tarefas entre todos os núcleos disponíveis na CPU. Desta forma, OCRmyPDF pode reduzir o tempo de gestão de documentos maiores e compostos por um grande número de páginas (verificámos que os resultados são excelentes mesmo com documentos compostos por milhares de páginas).

Etapas para instalar o OCRmyPDF

Softwares como OCRmyPDF nasceram como um aplicativo destinado principalmente a sistemas GNU/Linux. No entanto, é um utilitário muito fácil de usar também no Windows 10 e no Windows 11.

O programa não possui interface gráfica e funciona exclusivamente a partir de linha de comando. Apesar disso, tudo permanece muito simples e acessível para qualquer usuário.

Abaixo está a lista de comandos que podem ser usados ​​nas diversas distribuições Linux para instalar o OCRmyPDF com os diversos gerenciadores de pacotes disponíveis:

Sistema operacional Comando de instalação Debian, Ubuntu apt install ocrmypdf Subsistema Windows para Linux apt install ocrmypdf Fedora dnf install ocrmypdf macOS (Homebrew) brew install ocrmypdf macOS (nix) nix-env-i ocrmypdf LinuxBrew brew install ocrmypdf FreeBSD pkg install py-ocrmypdf Conda conda instalar ocrmypdf Ubuntu Snap instalar ocrmypdf

Na tabela você também vê Subsistema Windows para Linux (WSL) especificado: sim, porque, por exemplo, instalando o Ubuntu no Windows 10 e Windows 11 e executando-o em uma janela com WSL, você ainda pode fazer o OCR do conteúdo do PDF e obtenha um novo arquivo.

Como usar OCRmyPDF no Windows com WSL

Supondo que você execute Linux no Windows com WSL e que você já tenha instalado com sucesso o Ubuntu 22.04 ( wsl–install-d Ubuntu-20.04 no prompt de comando aberto com direitos de administrador), você pode instalar o OCRmyPDF com uma única instrução:

sudo apt instalar ocrmypdf-y

Neste ponto tudo está pronto: pressionando Windows\+R e digitando \\WSL$ e pressionando Enter, você acessa o sistema de arquivos do Ubuntu. Ao clicar duas vezes no recurso Ubuntu-22.04, depois na pasta home e por fim no nome de usuário configurado no Linux, você pode copiar o arquivo PDF a ser processado (aquele que contém os scans from paper pages ).

/images/copiare-testo-PDF-OCR.png

No ambiente Windows Subsystem for Linux (WSL), assim que a janela WSL estiver aberta, você pode inserir o seguinte comando nela:

ocrmypdf entrada.pdf saída.pdf

No lugar de input.pdf deve ser indicado o nome do arquivo PDF original, recém copiado para o sistema de arquivos Ubuntu. A string output.pdf deve ser substituída pelo nome do documento que você deseja obter. Adicionando a opção se necessário–skip-text , OCRmyPDF ignora as páginas que já contêm texto, concentrando-se naquelas que apresentam apenas imagens. A opção é útil para todos aqueles documentos “mistos” que combinam conteúdo criado digitalmente e cópias de páginas impressas capturadas por scanner ou foto.

Também é adequado para “ normalizar ” os PDFs e convertê-los em formato PDF/A, independentemente do tipo e do conteúdo que hospedam:

ocrmypdf–skip-text input.pdf output.pdf

/images/OCRmyPDF-PDF-scannerizzati.png

O comando a seguir executa OCR no arquivo PDF de entrada especificado, cria um novo PDF com reconhecimento dos idiomas inglês e italiano, corrigindo quaisquer inclinações imperfeitas das imagens (o que é bastante comum em páginas digitalizadas):

ocrmypdf input.pdf output.pdf–idioma eng\+ita–deskew

OCRmyPDF é um aplicativo altamente útil que permite aos usuários trabalhar de forma eficiente com arquivos PDF contendo imagens de documentos digitalizados. Sua variedade de recursos, incluindo extração e manipulação contínua de texto, o torna particularmente benéfico para aqueles que lidam com quantidades substanciais de conteúdo de página. A conveniência de selecionar e transferir o texto extraído para outros aplicativos é imediata e direta.

O referido documento intitulado “output.pdf” foi gerado dentro dos limites do repositório pessoal de um usuário Ubuntu e pode posteriormente ser transferido para locais alternativos com relativa facilidade, utilizando a interface intuitiva do aplicativo File Explorer.

Saiba mais sobre a sintaxe avançada do OCRmyPDF estão disponíveis nos Cookbooks, que convidamos você a consultar.

Crédito da imagem de abertura: iStock.com – monticelllo

barra lateral inferior relacionada 300

*️⃣ Link da fonte:

Livros de receitas , monte ,