PythonでPDFファイルからメタデータ(文書情報)を取得する方法について – How to get meta data of PDF files with Python?
PyPDF2を使用してPDFファイルからメタデータ(文書情報)を取得する方法について説明します。メタデータには、タイトル、著者、作成日時、キーワードなどの情報が含まれます。以下は、PyPDF2を使用してメタデータを取得する基本的な手順です。
必要なモジュールをインポート
import PyPDF2
PDFファイルを読み込む
対象となるPDFファイルを読み込みます。
pdf_file = open('example.pdf', 'rb')
pdf_reader = PyPDF2.PdfFileReader(pdf_file)
メタデータの取得
PDFファイルのメタデータは、getDocumentInfo()メソッドを使用して取得できます。
metadata = pdf_reader.getDocumentInfo()
# タイトル
title = metadata.get('/Title', "N/A")
# 著者
author = metadata.get('/Author', "N/A")
# 主題キーワード
keywords = metadata.get('/Keywords', "N/A")
# 作成日時
creation_date = metadata.get('/CreationDate', "N/A")
# 更新日時
modification_date = metadata.get('/ModDate', "N/A")
print(f"Title: {title}")
print(f"Author: {author}")
print(f"Keywords: {keywords}")
print(f"Creation Date: {creation_date}")
print(f"Modification Date: {modification_date}")
ファイルを閉じる
操作が完了したら、ファイルを適切に閉じてリソースを解放します。
pdf_file.close()
これで、PyPDF2を使用してPDFファイルからメタデータを取得できます。取得したメタデータを使用して、PDF文書に関する詳細情報を表示したり、必要に応じて処理を行ったりすることができます。
- PythonでPDF内のテキストを取得・操作する
- PythonでPDFのページを抽出・追加・削除・回転するには
- PythonでPDFファイルを結合(結合)する方法について
- Pythonでパスワード保護されたPDFファイルの処理するには
- PythonでPDFファイルのページのサイズ、回転、アノテーション、リンクの情報を取得
- PythonでPDFファイルからページの画像を抽出する方法
- PythonでPDFファイルを暗号化(パスワードで保護)するには
にほんブログ村
インターネット・コンピュータランキング
ブログ王ランキングに参加中!
PC関連ランキング