PythonでPDFファイルからメタデータ(文書情報)を取得する方法について – How to get meta data of PDF files with Python?

PythonでPDFファイルからメタデータ(文書情報)を取得する方法について – How to get meta data of PDF files with Python?

PyPDF2を使用してPDFファイルからメタデータ(文書情報)を取得する方法について説明します。メタデータには、タイトル、著者、作成日時、キーワードなどの情報が含まれます。以下は、PyPDF2を使用してメタデータを取得する基本的な手順です。

必要なモジュールをインポート

import PyPDF2

PDFファイルを読み込む

対象となるPDFファイルを読み込みます。

pdf_file = open('example.pdf', 'rb')
pdf_reader = PyPDF2.PdfFileReader(pdf_file)

メタデータの取得

PDFファイルのメタデータは、getDocumentInfo()メソッドを使用して取得できます。

metadata = pdf_reader.getDocumentInfo()

# タイトル
title = metadata.get('/Title', "N/A")

# 著者
author = metadata.get('/Author', "N/A")

# 主題キーワード
keywords = metadata.get('/Keywords', "N/A")

# 作成日時
creation_date = metadata.get('/CreationDate', "N/A")

# 更新日時
modification_date = metadata.get('/ModDate', "N/A")

print(f"Title: {title}")
print(f"Author: {author}")
print(f"Keywords: {keywords}")
print(f"Creation Date: {creation_date}")
print(f"Modification Date: {modification_date}")

ファイルを閉じる

操作が完了したら、ファイルを適切に閉じてリソースを解放します。

pdf_file.close()

これで、PyPDF2を使用してPDFファイルからメタデータを取得できます。取得したメタデータを使用して、PDF文書に関する詳細情報を表示したり、必要に応じて処理を行ったりすることができます。

にほんブログ村 教育ブログへ
にほんブログ村
インターネット・コンピュータランキング
インターネット・コンピュータランキング
ブログ王ランキングに参加中!
PC関連ランキング
くる天 人気ブログランキング

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です