Como converter arquivo PDF em arquivo Excel usando Python?

Neste artigo, veremos como converter um PDF para Excel ou arquivo CSV usando Python. Isso pode ser feito com vários métodos, aqui vamos usar alguns métodos.

Método 1: usando pdftables_api

Aqui, usaremos o Módulo pdftables_api para converter o arquivo PDF em qualquer outro formato. É uma API simples baseada na web , portanto, pode ser chamada a partir de qualquer linguagem de programação.

Instalação:

pip install git + https: //github.com/pdftables/python-pdftables-api.git

Após a instalação, você precisa de uma chave API. Vá para PDFTables.com e inscreva -se, em seguida, visite a página da API para ver sua chave de API.

Para converter arquivo PDF em arquivo excel, usaremos o método xml() .

Sintaxe:

xml (pdf_path, xml_path)

Abaixo está a implementação:

Arquivo PDF usado:

FICHEIRO PDF

import pdftables_api 
conversion = pdftables_api.Client('API KEY') 
conversion.xlsx("pdf_file_path", "output_file_path")

Resultado:

ARQUIVO EXCEL

Método 2: usando tabula-py

Aqui, usaremos o Módulo tabula-py para converter o arquivo PDF em qualquer outro formato.

Instalação:

pip install tabula-py

Antes de começar, primeiro precisamos instalar o java e adicionar uma pasta de instalação do java à variável PATH.

Instale java clique aqui
Adicione a pasta de instalação do java (C: \ Arquivos de programas (x86) \ Java \ jre1.8.0_251 \ bin) à variável do caminho do ambiente

Abordagem:

Leia o arquivo PDF usando o método read_pdf() .
Em seguida, converteremos os arquivos PDF em um arquivo Excel usando o método to_excel() .

Sintaxe:

read_pdf (caminho do arquivo PDF, páginas = número de páginas, ** agrs)

Abaixo está a implementação:

Arquivo PDF usado:

FICHEIRO PDF

import tabula 
df = tabula.read_pdf("PDF File Path", pages = 1)[0] 
df.to_excel('Excel File Path')

Resultado:

ARQUIVO EXCEL

Acervo Lima

O maior acervo de tutoriais e referências

Como converter arquivo PDF em arquivo Excel usando Python?

Latest posts

Latest posts

Most popular posts