728x90 반응형 Python306 [Python] file: open and close Python 에서 file을 처리하기 위해선 다른 프로그래밍 언어와 마찬가지로 file에 대한 접근이 가능한 object를 얻어와야함.이같은 object는 file object, file handler, file descriptor 등의 여러 이름으로 불리며,Python의 경우로 한정하면 File Object가 더 많이 사용됨.file descriptor는 OS에서 열려진 file에 대해 할당하는 일종의 int형 id임.이를 얻어오는 작업을 가르켜 open이라고 지칭하는게 일반적임.때문에 file을 처리하기 위해 가장 먼저 수행되는 작업을 file을 연다(open) 라고 표현함.file에 대한 작업이 완료되고 나면, file object를 통한 close를 수행한다.file open과 file close.. 2023. 7. 4. [Python] Regular Expression: 표현식 기초 및 요약 Regular Expression : 정규표현식 요약Regular Expression (re) 의 기본적인 operator는 다음과 같음.Basic operatorDescription.Any character except `\n` (newline)aThe character a itselfabThe string ab itselfx|yx or y\yEscapes a special character y, such as ^+{}$()[]|\-?.*backslash 는 escape sequence로 동작을 의미함 :즉, 뒤에 오는 문자와 결합하여 newline이나 tab등을 의미하게 됨.반대로 특수한 의미를 가지는 문자들(^+{}$()[]|\-?.*)이 backslash 뒤에 오면, 자신의 특수한 의미를 잃고 .. 2023. 7. 3. [Python] venv : Python Virtual Environment Python 3의 경우, standard library로 venv를 virtual environment를 위해 제공하고 있음: 3.3에 기본 내장.이를 통해 프로젝트마다 적절한 package들을 사용할 수 있게 됨. 2025.03.02 - [개발환경] - [Tool] conda 사용법 - Anaconda and Miniconda [Tool] conda 사용법 - Anaconda and Miniconda1. Conda란?프로그래밍 언어(특히 Python)의 패키지, 종속성을 관리하기 위한 오픈 소스 패키지 관리 시스템(or Package Manager)과이들이 설치되어 구성되는 (가상)환경을 관리하는 환경관리시스템(packageds31x.tistory.com Create a virtual environme.. 2023. 6. 30. [Python] pip 사용법 이 문서는 pip (Pip Install Python or Installer for Python)의 사용법을 간략히 정리해둔 것임.pip란?https://dsaint31.tistory.com/534 [Python] pip 란 (Package Management System)정의pip는 Pip Installs Python를 줄인 말로, Python에서 기본적으로 사용되는 Python package management system임.pip와 같이, 줄임말이 원래 문장에 다시 들어가 있는 경우를 recursive acronym (or recursice initialism)이dsaint31.tistory.comInstallationpip는 python을 설치할 때 같이 설치되는 경우가 대다수라 따로 설치할 경우.. 2023. 6. 30. [PDF] Merge PDF PyMuPDF 1.22.5 (from pip) PyMuPDF를 이용하여, 여러 PDF를 그냥 합쳐주는 간단한 프로그램을 만들어 봤다.(문서 합쳐서 제출하는 일이 잦았나보다. 예제 생각하다가 이게 떠오르다니... --;;) 참고로, fitz가 PyMuPDF 패키지의 import alias임 — PDF 페이지를 열고, 병합하고, 저장하는 등의 작업을 수행 대부분의 PDF를 다루는 패키들과 마찬가지로, 새로운 pdf 파일에 대한 객체를 empty로 먼저 만든 후, 각 pdf들을 읽어들여 이들을 page로 추가해주면 되는 방식이다. 추가적으로 argparse에 대한 예제로 쓸만할 거 같다. 예제코드코드는 다음과 같다.import argparseimport osimport fitz # PyMuPDF 모듈: PD.. 2023. 6. 28. [PDF] Text 추출하기: PyPDF2 vs. PyMuPDF version : PyPDF 2.11.1 (from Mamba), PyMuPDF 1.22.5 (from pip) 여러 pdf처리 library가 있지만, 그나마 제일 많이 써본 터라 PyPDF2를 선호한다. 추출 정확도는 PyMuPDF보다 좀 떨어지는 거 같지만, 익숙함이 주는 편의성을 무시 못한다. 현재 최신 version은 3.11.1 이지만, 내가 사용하는 mamba에서는 2.11.1로 설치가 이루어짐. 우선 다음과 같은 2개의 페이지를 가진 pdf에서 텍스트를 추출해봤다. 위 그림은 90도로 font들이 돌아가있는 첫번째 페이지이고, 위 그림은 일반적인 orientation으로 기재된 두번째 페이지를 보여줌. 이를 다음과 같이 각 페이지 별로 orientation에 맞게 추출을 해봤다. 사용된 c.. 2023. 6. 28. 이전 1 ··· 48 49 50 51 다음 728x90 반응형