728x90 반응형 Python/PDF3 ReportLab-Python에서 PDF문서 만들기: ReportLab 은 Python에서 PDF 문서를 프로그래밍 방식으로 생성할 수 있는 BSD 라이선스 하에 배포되는 오픈소스 Python 라이브러리임.Canvas(저수준)와 Platypus(고수준) 두 가지 API를 제공해서간단한 보고서부터 복잡한 차트와 표가 포함된 전문적인 문서까지 모두 만들 수 있음.단, 처음부터 PDF문서를 만들 때 유용: 기존의 PDF를 합치거나 변경 또는 text추출은 PyMuPDF등이 보다 나은 선택임.단, PyMuPDF는 오픈소스 프로젝트에서만 무료이지 상업용은 라이선스가 필요함.BSD 라이선스는 상업적 패키지에서도 사용할 수 있는 매우 자유로운 라이선스임. 더보기2025.09.19 - [CE] - Open Source Licenses Open Source Licenses.. 2025. 9. 19. [PDF] Merge PDF PyMuPDF 1.22.5 (from pip) PyMuPDF를 이용하여, 여러 PDF를 그냥 합쳐주는 간단한 프로그램을 만들어 봤다.(문서 합쳐서 제출하는 일이 잦았나보다. 예제 생각하다가 이게 떠오르다니... --;;) 참고로, fitz가 PyMuPDF 패키지의 import alias임 — PDF 페이지를 열고, 병합하고, 저장하는 등의 작업을 수행 대부분의 PDF를 다루는 패키들과 마찬가지로, 새로운 pdf 파일에 대한 객체를 empty로 먼저 만든 후, 각 pdf들을 읽어들여 이들을 page로 추가해주면 되는 방식이다. 추가적으로 argparse에 대한 예제로 쓸만할 거 같다. 예제코드코드는 다음과 같다.import argparseimport osimport fitz # PyMuPDF 모듈: PD.. 2023. 6. 28. [PDF] Text 추출하기: PyPDF2 vs. PyMuPDF version : PyPDF 2.11.1 (from Mamba), PyMuPDF 1.22.5 (from pip) 여러 pdf처리 library가 있지만, 그나마 제일 많이 써본 터라 PyPDF2를 선호한다. 추출 정확도는 PyMuPDF보다 좀 떨어지는 거 같지만, 익숙함이 주는 편의성을 무시 못한다. 현재 최신 version은 3.11.1 이지만, 내가 사용하는 mamba에서는 2.11.1로 설치가 이루어짐. 우선 다음과 같은 2개의 페이지를 가진 pdf에서 텍스트를 추출해봤다. 위 그림은 90도로 font들이 돌아가있는 첫번째 페이지이고, 위 그림은 일반적인 orientation으로 기재된 두번째 페이지를 보여줌. 이를 다음과 같이 각 페이지 별로 orientation에 맞게 추출을 해봤다. 사용된 c.. 2023. 6. 28. 이전 1 다음 728x90 반응형