728x90 반응형 pypdf21 [PDF] Text 추출하기: PyPDF2 vs. PyMuPDF version : PyPDF 2.11.1 (from Mamba), PyMuPDF 1.22.5 (from pip) 여러 pdf처리 library가 있지만, 그나마 제일 많이 써본 터라 PyPDF2를 선호한다. 추출 정확도는 PyMuPDF보다 좀 떨어지는 거 같지만, 익숙함이 주는 편의성을 무시 못한다. 현재 최신 version은 3.11.1 이지만, 내가 사용하는 mamba에서는 2.11.1로 설치가 이루어짐. 우선 다음과 같은 2개의 페이지를 가진 pdf에서 텍스트를 추출해봤다. 위 그림은 90도로 font들이 돌아가있는 첫번째 페이지이고, 위 그림은 일반적인 orientation으로 기재된 두번째 페이지를 보여줌. 이를 다음과 같이 각 페이지 별로 orientation에 맞게 추출을 해봤다. 사용된 c.. 2023. 6. 28. 이전 1 다음 728x90 반응형