Python2

# Importação de bibliotecas
import pdfplumber
import openpyxl

# Função para extrair texto de um PDF
def extrair_texto_pdf(caminho_pdf):
    """
    Extrai o texto de um arquivo PDF e retorna como string.

    Args:
        caminho_pdf (str): Caminho completo para o arquivo PDF.

    Returns:
        str: Texto extraído do PDF.
    """
    with pdfplumber.open(caminho_pdf) as pdf:
        pagina = pdf.pages[0]  # Assumindo que o texto está na primeira página
        texto_pagina = pagina.extract_text()
    return texto_pagina

# Função para ler lista de palavras de um Excel
def ler_lista_excel(caminho_excel):
    """
    Lê uma lista de palavras de uma única coluna em um arquivo Excel e retorna como lista.

    Args:
        caminho_excel (str): Caminho completo para o arquivo Excel.

    Returns:
        list: Lista de palavras extraídas do Excel.
    """
    try:
        arquivo_excel = openpyxl.load_workbook(caminho_excel)
        planilha = arquivo_excel.active
        coluna_palavras = planilha['A']  # Assumindo que as palavras estão na coluna A
        lista_palavras = [celula.value for celula in coluna_palavras]
        lista_palavras.pop(0)  # Remove o cabeçalho da coluna
        return lista_palavras
    except FileNotFoundError:
        print(f"Erro: Arquivo Excel '{caminho_excel}' não encontrado.")
        exit()

# Função para comparar texto do PDF com lista de palavras e identificar correspondências
def comparar_e_identificar(texto_pdf, lista_palavras):
    """
    Compara o texto extraído do PDF com as palavras da lista do Excel e identifica correspondências.

    Args:
        texto_pdf (str): Texto extraído do PDF.
        lista_palavras (list): Lista de palavras extraídas do Excel.
    """
    correspondencias = []
    for palavra in lista_palavras:
        if palavra.lower() in texto_pdf.lower():  # Comparação em maiúsculas e minúsculas
            correspondencias.append(palavra)
    if correspondencias:
        print(f"Correspondências encontradas no PDF:")
        for palavra in correspondencias:
            print(f"- {palavra}")
    else:
        print("Nenhuma correspondência encontrada no PDF.")

# Função principal para executar o script
def main():
    """
    Executa o script principal para pesquisa em PDF e comparação com lista de palavras em Excel.
    """
    caminho_pdf = "caminho/para/seu/pdf.pdf"  # Substitua pelo caminho real do PDF
    caminho_excel = "caminho/para/seu/arquivo.xlsx"  # Substitua pelo caminho real do Excel

    texto_pdf = extrair_texto_pdf(caminho_pdf)
    lista_palavras = ler_lista_excel(caminho_excel)

    comparar_e_identificar(texto_pdf, lista_palavras)

# Chamada da função principal para executar o script
if __name__ == "__main__":
    main()
Comments

Deixe um comentário Cancelar resposta