PythonでPDFファイルのページのサイズ、回転、アノテーション、リンクの情報を取得するには How to Retrieve Page Size, Rotation, Annotations, and Link Information of a PDF File in Python?

2023年11月5日 hiroshi

業界最安値のプログラミングスクール｜SkillHacks(スキルハックス)(PR)

データ入力代行の業者探しは【簡単・無料・厳選優良業者】のEMEAO!(PR)

PyPDF2を使用してPDFファイルからページの情報を取得する方法について説明します。ページのサイズ、回転、アノテーション、リンクなどの情報を取得できます。

モジュールをインポート

import PyPDF2

PDFファイルを読み込む

対象となるPDFファイルを読み込みます。

pdf_file = open('example.pdf', 'rb')
pdf_reader = PyPDF2.PdfFileReader(pdf_file)

ページ情報の取得

特定のページに関する情報を取得します。以下は、ページのサイズ、回転、アノテーション、リンクの情報を取得する例です。

ページのサイズ

page = pdf_reader.getPage(0)
page_width = page.mediaBox.getWidth()
page_height = page.mediaBox.getHeight()
print(f"Page size (width x height): {page_width} x {page_height} points")

ページの回転

rotation = page.get('/Rotate', 0)  # ページの回転情報を取得（デフォルトは0度）
print(f"Page rotation: {rotation} degrees")

アノテーションの取得

annotations = page.get('/Annots', [])
if annotations:
    print("Annotations found on the page:")
    for annotation in annotations:
        annotation_info = annotation.getObject()
        print(f"Annotation type: {annotation_info.get('/Subtype')}")

ページ内のリンク情報の取得

links = page.get('/Annots', [])
if links:
    print("Links found on the page:")
    for link in links:
        link_info = link.getObject()
        if link_info.get('/Subtype') == '/Link':
            link_destination = link_info.get('/A').get('/D')
            print(f"Link destination: {link_destination}")

ファイルを閉じる

操作が完了したら、ファイルを適切に閉じてリソースを解放します。

pdf_file.close()

以上の手順を使用して、PyPDF2を介してPDFファイルからページの情報を取得できます。必要に応じてページ情報を使用してカスタマイズした処理を実行できます。

にほんブログ村

勉強お助け猫の庭

講義レビューや教科書レビュー、自動メール作成、Rによるプログラミングについての記事を提供します。