Neste artigo, veremos como converter um PDF para Excel ou arquivo CSV usando Python. Isso pode ser feito com vários métodos, aqui vamos usar alguns métodos.

Método 1: usando pdftables_api 

Aqui, usaremos o Módulo pdftables_api para converter o arquivo PDF em qualquer outro formato. É uma API simples baseada na web , portanto, pode ser chamada a partir de qualquer linguagem de programação.

Instalação:

pip install git + https: //github.com/pdftables/python-pdftables-api.git

Após a instalação, você precisa de uma chave API. Vá para PDFTables.com e inscreva -se, em seguida, visite a página da API para ver sua chave de API.



Para converter arquivo PDF em arquivo excel, usaremos o método xml() .

Sintaxe:

xml (pdf_path, xml_path)

Abaixo está a implementação:

Arquivo PDF usado:

FICHEIRO PDF

import pdftables_api 
conversion = pdftables_api.Client('API KEY') 
conversion.xlsx("pdf_file_path", "output_file_path")

Resultado:

ARQUIVO EXCEL

Método 2: usando tabula-py

Aqui, usaremos o Módulo tabula-py para converter o arquivo PDF em qualquer outro formato.



Instalação:

pip install tabula-py

Antes de começar, primeiro precisamos instalar o java e adicionar uma pasta de instalação do java à variável PATH.

  • Instale java clique aqui
  • Adicione a pasta de instalação do java (C: \ Arquivos de programas (x86) \ Java \ jre1.8.0_251 \ bin) à variável do caminho do ambiente

Abordagem:

  • Leia o arquivo PDF usando o método read_pdf() .
  • Em seguida, converteremos os arquivos PDF em um arquivo Excel usando o método to_excel() .

Sintaxe:

read_pdf (caminho do arquivo PDF, páginas = número de páginas, ** agrs)

Abaixo está a implementação:

Arquivo PDF usado:

FICHEIRO PDF

import tabula 
df = tabula.read_pdf("PDF File Path", pages = 1)[0] 
df.to_excel('Excel File Path') 

Resultado:

ARQUIVO EXCEL