Como converter arquivo PDF em arquivo Excel usando Python?
Neste artigo, veremos como converter um PDF para Excel ou arquivo CSV usando Python. Isso pode ser feito com vários métodos, aqui vamos usar alguns métodos.
Método 1: usando pdftables_api
Aqui, usaremos o Módulo pdftables_api para converter o arquivo PDF em qualquer outro formato. É uma API simples baseada na web , portanto, pode ser chamada a partir de qualquer linguagem de programação.
Instalação:
pip install git + https: //github.com/pdftables/python-pdftables-api.git
Após a instalação, você precisa de uma chave API. Vá para PDFTables.com e inscreva -se, em seguida, visite a página da API para ver sua chave de API.
Para converter arquivo PDF em arquivo excel, usaremos o método xml() .
Sintaxe:
xml (pdf_path, xml_path)
Abaixo está a implementação:
Arquivo PDF usado:
import
pdftables_api
conversion
=
pdftables_api.Client(
'API KEY'
)
conversion.xlsx(
"pdf_file_path"
,
"output_file_path"
)
Resultado:
Método 2: usando tabula-py
Aqui, usaremos o Módulo tabula-py para converter o arquivo PDF em qualquer outro formato.
Instalação:
pip install tabula-py
Antes de começar, primeiro precisamos instalar o java e adicionar uma pasta de instalação do java à variável PATH.
- Instale java clique aqui
- Adicione a pasta de instalação do java (C: \ Arquivos de programas (x86) \ Java \ jre1.8.0_251 \ bin) à variável do caminho do ambiente
Abordagem:
- Leia o arquivo PDF usando o método read_pdf() .
- Em seguida, converteremos os arquivos PDF em um arquivo Excel usando o método to_excel() .
Sintaxe:
read_pdf (caminho do arquivo PDF, páginas = número de páginas, ** agrs)
Abaixo está a implementação:
Arquivo PDF usado:
import
tabula
df
=
tabula.read_pdf(
"PDF File Path"
, pages
=
1
)[
0
]
df.to_excel(
'Excel File Path'
)
Resultado:
As postagens do blog Acervo Lima te ajudaram? Nos ajude a manter o blog no ar!
Faça uma doação para manter o blog funcionando.
70% das doações são no valor de R$ 5,00...
Diógenes Lima da Silva