import openpyxl
import PyPDF2
def extrair_texto(pdf_path):
texto = ""
with open(pdf_path, 'rb') as f:
pdf_reader = PyPDF2.PdfFileReader(f)
num_paginas = pdf_reader.numPages
for pagina_num in range(num_paginas):
pagina = pdf_reader.getPage(pagina_num)
texto += pagina.extractText()
return texto
def carregar_palavras_excel(excel_path, sheet_name, column_index):
palavras = []
workbook = openpyxl.load_workbook(excel_path)
sheet = workbook[sheet_name]
for row in sheet.iter_rows(values_only=True):
palavra = row[column_index]
if palavra: # Verifica se a célula não está vazia
palavras.append(palavra)
return palavras
def procurar_palavras(texto, palavras):
resultados = {}
for palavra in palavras:
if palavra.lower() in texto.lower():
indices = [i for i in range(len(texto)) if texto.lower().find(palavra.lower(), i) == i]
resultados[palavra] = indices
return resultados
def main():
pdf_path = 'seu_arquivo.pdf'
excel_path = 'sua_planilha.xlsx'
sheet_name = 'Sheet1' # Nome da planilha no Excel
column_index = 0 # Índice da coluna que contém as palavras
texto_pdf = extrair_texto(pdf_path)
palavras = carregar_palavras_excel(excel_path, sheet_name, column_index)
resultados = procurar_palavras(texto_pdf, palavras)
for palavra, indices in resultados.items():
print(f"A palavra '{palavra}' foi encontrada nos seguintes índices:")
print(indices)
if __name__ == "__main__":
main()
Deixe um comentário