Vamos ver como ler um PDF que está convertendo um arquivo PDF textual em áudio.

Pacotes usados:

  • pyttsx3: É uma biblioteca Python para Text to Speech. Possui muitas funções que ajudarão a máquina a se comunicar conosco. Vai ajudar a máquina a falar conosco
  • PyPDF2: Vai ajudar no texto do PDF. Uma biblioteca Pure-Python construída como um kit de ferramentas PDF. É capaz de extrair informações de documentos, dividir documentos página por página, mesclar documentos página por página, etc.

Ambos os módulos precisam ser instalados

pip install pyttsx3
pip install PyPDF2

Você também precisa saber sobre a função open() que nos ajudará a abrir o PDF em modo de leitura. Conhecimento sobre o conceito OOPS também é recomendado.

Aqui está o link do PDF que é lido no exemplo: https://drive.google.com/file/d/1zhf7-_v6CVUtgd_XMK562mg6ciewi1QR/view?usp=sharing



Abordagem:

  • Importe os módulos PyPDF2 e pyttx3.
  • Abra o arquivo PDF.
  • Use PdfFileReader() para ler o PDF. Só temos que dar o caminho do PDF como argumento.
  • Use o método getPage() para selecionar a página a ser lida.
  • Extraia o texto da página usando extractText() .
  • Instancie um objeto pyttx3.
  • Use os métodos say() e runwait() para falar o texto.

Agora aqui está o código para isso

import PyPDF2 
import pyttsx3 
path = open('file.pdf', 'rb') 
pdfReader = PyPDF2.PdfFileReader(path) 
from_page = pdfReader.getPage(24) 
text = from_page.extractText() 
speak = pyttsx3.init() 
speak.say(text) 
speak.runAndWait()

Resultado: