PythonでPDFファイルのページのサイズ、回転、アノテーション、リンクの情報を取得するには How to Retrieve Page Size, Rotation, Annotations, and Link Information of a PDF File in Python?
PyPDF2を使用してPDFファイルからページの情報を取得する方法について説明します。ページのサイズ、回転、アノテーション、リンクなどの情報を取得できます。
モジュールをインポート
import PyPDF2
PDFファイルを読み込む
対象となるPDFファイルを読み込みます。
pdf_file = open('example.pdf', 'rb')
pdf_reader = PyPDF2.PdfFileReader(pdf_file)
ページ情報の取得
特定のページに関する情報を取得します。以下は、ページのサイズ、回転、アノテーション、リンクの情報を取得する例です。
ページのサイズ
page = pdf_reader.getPage(0)
page_width = page.mediaBox.getWidth()
page_height = page.mediaBox.getHeight()
print(f"Page size (width x height): {page_width} x {page_height} points")
ページの回転
rotation = page.get('/Rotate', 0) # ページの回転情報を取得(デフォルトは0度)
print(f"Page rotation: {rotation} degrees")
アノテーションの取得
annotations = page.get('/Annots', [])
if annotations:
print("Annotations found on the page:")
for annotation in annotations:
annotation_info = annotation.getObject()
print(f"Annotation type: {annotation_info.get('/Subtype')}")
ページ内のリンク情報の取得
links = page.get('/Annots', [])
if links:
print("Links found on the page:")
for link in links:
link_info = link.getObject()
if link_info.get('/Subtype') == '/Link':
link_destination = link_info.get('/A').get('/D')
print(f"Link destination: {link_destination}")
ファイルを閉じる
操作が完了したら、ファイルを適切に閉じてリソースを解放します。
pdf_file.close()
以上の手順を使用して、PyPDF2を介してPDFファイルからページの情報を取得できます。必要に応じてページ情報を使用してカスタマイズした処理を実行できます。
- PythonでPDF内のテキストを取得・操作する
- PythonでPDFのページを抽出・追加・削除・回転するには
- PythonでPDFファイルを結合(結合)する方法について
- Pythonでパスワード保護されたPDFファイルの処理するには
- PythonでPDFファイルからメタデータ(文書情報)を取得する方法
- PythonでPDFファイルからページの画像を抽出する方法
- PythonでPDFファイルを暗号化(パスワードで保護)するには
にほんブログ村
インターネット・コンピュータランキング
ブログ王ランキングに参加中!
PC関連ランキング