본문 바로가기
728x90
반응형

Python/PDF2

[PDF] Merge PDF PyMuPDF 1.22.5 (from pip) PyMuPDF를 이용하여, 여러 PDF를 그냥 합쳐주는 간단한 프로그램을 만들어 봤다. (문서 합쳐서 제출하는 일이 잦았나보다. 예제 생각하다가 이게 떠오르다니... --;;) 대부분의 PDF를 다루는 패키들과 마찬가지로, 새로운 pdf 파일에 대한 객체를 empty로 먼저 만든 후, 각 pdf들을 읽어드령 이들을 page로 추가해주면 되는 방식이다. 추가적으로 argparse에 대한 예제로 쓸만할 거 같다. 예제코드 코드는 다음과 같다. import argparse import os import fitz def set_argparse (): parser = argparse.ArgumentParser( description = "This program can.. 2023. 6. 28.
[PDF] Text 추출하기: PyPDF2 vs. PyMuPDF version : PyPDF 2.11.1 (from Mamba), PyMuPDF 1.22.5 (from pip) 여러 pdf처리 library가 있지만, 그나마 제일 많이 써본 터라 PyPDF2를 선호한다. 추출 정확도는 PyMuPDF보다 좀 떨어지는 거 같지만, 익숙함이 주는 편의성을 무시 못한다. 현재 최신 version은 3.11.1 이지만, 내가 사용하는 mamba에서는 2.11.1로 설치가 이루어짐. 우선 다음과 같은 2개의 페이지를 가진 pdf에서 텍스트를 추출해봤다. 위 그림은 90도로 font들이 돌아가있는 첫번째 페이지이고, 위 그림은 일반적인 orientation으로 기재된 두번째 페이지를 보여줌. 이를 다음과 같이 각 페이지 별로 orientation에 맞게 추출을 해봤다. 사용된 c.. 2023. 6. 28.
728x90
반응형