Como extrair texto de um documento PDF

Pode ser muito frustrante tentar extrair o texto de um arquivo PDF para uso em outro aplicativo. Não é de admirar que você tenha gráficos ou que o design do documento torne muito difícil obter frases significativas. Embora não seja impossível extrair o texto com o método copiar e colar, isso pode levar muito tempo e não permitirá a exportação de um documento PDF em um formato diferente. No entanto, existem algumas maneiras de extrair texto de um arquivo PDF.

Extrair texto usando o Acrobat Reader

Passo 1

Abra o arquivo no Acrobat Reader. No Windows, selecione “Arquivo -> Exportar documento de texto”, nomeie o documento e salve-o.

Etapa 2

Em um sistema operacional Mac ou Linux, copie o texto acessando o menu “Exibir” e selecione “Contínuo” ou “Orientação contínua”. (A primeira opção fornecerá o texto em uma coluna, enquanto a segunda será formatada como páginas lado a lado). Vá para “Editar -> Selecionar tudo” e, em seguida, “Editar -> Copiar”.

Etapa 3

Use a ferramenta Selecionar se você deseja extrair apenas parte do texto. Clique na ferramenta “Selecionar texto” e escolha as informações que deseja. Em um documento no formato de várias colunas, você precisará usar a primeira ferramenta “Seleção de coluna”. Vá para “Editar -> Copiar”

Converta PDF para HTML

Passo 1

Use o Gmail como um atalho. Anexe o arquivo PDF a um email e envie-o para sua conta do Gmail. Ao abrir o email, você verá uma série de opções ao lado do arquivo anexado. Selecione a opção “Visualizar como HTML” e salve o arquivo que é aberto em uma janela separada. Embora você não consiga ver os gráficos, o arquivo HTML mantém o formato do documento de texto.

Etapa 2

Extraia e converta os arquivos na linha de comando. Os usuários do Linux podem usar um comando básico de conversão que alterará um arquivo .pdf para um arquivo .txt: “Pdftotext filename.pdf”. Renomeie o arquivo com o nome do arquivo PDF.

Etapa 3

Faça o download de um programa de conversão de texto em PDF. Existem vários programas de código aberto e programas gratuitos disponíveis, como PDFBox e Easy PDF to Text Converter. Muitos desses programas também podem converter arquivos PDF em HTML.

 

Você pode estar interessado:

Deixe um comentário