# Importação de bibliotecas
import pdfplumber
import openpyxl
# Função para extrair texto de um PDF
def extrair_texto_pdf(caminho_pdf):
"""
Extrai o texto de um arquivo PDF e retorna como string.
Args:
caminho_pdf (str): Caminho completo para o arquivo PDF.
Returns:
str: Texto extraído do PDF.
"""
with pdfplumber.open(caminho_pdf) as pdf:
pagina = pdf.pages[0] # Assumindo que o texto está na primeira página
texto_pagina = pagina.extract_text()
return texto_pagina
# Função para ler lista de palavras de um Excel
def ler_lista_excel(caminho_excel):
"""
Lê uma lista de palavras de uma única coluna em um arquivo Excel e retorna como lista.
Args:
caminho_excel (str): Caminho completo para o arquivo Excel.
Returns:
list: Lista de palavras extraídas do Excel.
"""
try:
arquivo_excel = openpyxl.load_workbook(caminho_excel)
planilha = arquivo_excel.active
coluna_palavras = planilha['A'] # Assumindo que as palavras estão na coluna A
lista_palavras = [celula.value for celula in coluna_palavras]
lista_palavras.pop(0) # Remove o cabeçalho da coluna
return lista_palavras
except FileNotFoundError:
print(f"Erro: Arquivo Excel '{caminho_excel}' não encontrado.")
exit()
# Função para comparar texto do PDF com lista de palavras e identificar correspondências
def comparar_e_identificar(texto_pdf, lista_palavras):
"""
Compara o texto extraído do PDF com as palavras da lista do Excel e identifica correspondências.
Args:
texto_pdf (str): Texto extraído do PDF.
lista_palavras (list): Lista de palavras extraídas do Excel.
"""
correspondencias = []
for palavra in lista_palavras:
if palavra.lower() in texto_pdf.lower(): # Comparação em maiúsculas e minúsculas
correspondencias.append(palavra)
if correspondencias:
print(f"Correspondências encontradas no PDF:")
for palavra in correspondencias:
print(f"- {palavra}")
else:
print("Nenhuma correspondência encontrada no PDF.")
# Função principal para executar o script
def main():
"""
Executa o script principal para pesquisa em PDF e comparação com lista de palavras em Excel.
"""
caminho_pdf = "caminho/para/seu/pdf.pdf" # Substitua pelo caminho real do PDF
caminho_excel = "caminho/para/seu/arquivo.xlsx" # Substitua pelo caminho real do Excel
texto_pdf = extrair_texto_pdf(caminho_pdf)
lista_palavras = ler_lista_excel(caminho_excel)
comparar_e_identificar(texto_pdf, lista_palavras)
# Chamada da função principal para executar o script
if __name__ == "__main__":
main()
Deixe um comentário