PythonでPDFファイルからページの画像を抽出する方法について – How to use images in PDF files with Python?

2023年11月5日 hiroshi

PyPDF2を使用してPDFファイルからページの画像を抽出する方法について説明します。PDFファイルから画像を抽出するには、次のステップを実行します。

必要なモジュールをインポート

import PyPDF2

PDFファイルを読み込む

抽出したいPDFファイルを読み込みます。

pdf_file = open('example.pdf', 'rb')
pdf_reader = PyPDF2.PdfFileReader(pdf_file)

ページから画像を抽出

指定したページから画像を抽出します。以下は、指定したページの画像を抽出する例です。

page_number = 0  # 例: 0番目のページ
page = pdf_reader.getPage(page_number)

# ページから画像を抽出
xObject = page['/Resources']['/XObject'].get_object()
images = []
for obj in xObject:
    if xObject[obj]['/Subtype'] == '/Image':
        images.append(xObject[obj])

# 画像をファイルに保存
for i, image in enumerate(images):
    x = image['/Width']
    y = image['/Height']
    data = image.get_data()
    image_file = open(f'image_{i}.jpg', 'wb')
    image_file.write(data)
    image_file.close()

ファイルを閉じる

操作が完了したら、ファイルを適切に閉じてリソースを解放します。

pdf_file.close()

これで、PyPDF2を使用してPDFファイルから指定したページの画像を抽出できます。抽出した画像は、指定したファイル名で保存されます。必要に応じて、抽出した画像を別の形式や場所に保存することも可能です。

にほんブログ村

amazonでPython関連の本を探す

勉強お助け猫の庭

講義レビューや教科書レビュー、自動メール作成、Rによるプログラミングについての記事を提供します。