Pyton PDF

import openpyxl
import PyPDF2

def extrair_texto(pdf_path):
    texto = ""
    with open(pdf_path, 'rb') as f:
        pdf_reader = PyPDF2.PdfFileReader(f)
        num_paginas = pdf_reader.numPages
        for pagina_num in range(num_paginas):
            pagina = pdf_reader.getPage(pagina_num)
            texto += pagina.extractText()
    return texto

def carregar_palavras_excel(excel_path, sheet_name, column_index):
    palavras = []
    workbook = openpyxl.load_workbook(excel_path)
    sheet = workbook[sheet_name]
    for row in sheet.iter_rows(values_only=True):
        palavra = row[column_index]
        if palavra:  # Verifica se a célula não está vazia
            palavras.append(palavra)
    return palavras

def procurar_palavras(texto, palavras):
    resultados = {}
    for palavra in palavras:
        if palavra.lower() in texto.lower():
            indices = [i for i in range(len(texto)) if texto.lower().find(palavra.lower(), i) == i]
            resultados[palavra] = indices
    return resultados

def main():
    pdf_path = 'seu_arquivo.pdf'
    excel_path = 'sua_planilha.xlsx'
    sheet_name = 'Sheet1'  # Nome da planilha no Excel
    column_index = 0  # Índice da coluna que contém as palavras

    texto_pdf = extrair_texto(pdf_path)
    palavras = carregar_palavras_excel(excel_path, sheet_name, column_index)
    resultados = procurar_palavras(texto_pdf, palavras)

    for palavra, indices in resultados.items():
        print(f"A palavra '{palavra}' foi encontrada nos seguintes índices:")
        print(indices)

if __name__ == "__main__":
    main()
Comments

Deixe um comentário Cancelar resposta