개발을 하다 보면 두 개의 코드를 비교해야 하는 경우가 생긴다.이런 상황에서 보다 쉽게 코드를 비교할 수 있도록 도와주는 사이트가 있다. 1. Diff Checker원본을 왼쪽 빈칸에 넣고, 수정본을 오른쪽 빈칸에 넣는다.하단의 초록색 Find difference 버튼을 누르면 코드를 비교할 수 있다. 코드 비교 결과는 위의 이미지에서 보이는 것처럼 원본의 어떤 내용이 삭제되고 추가되었는지 표시된다.Highlight Change의 Word 버전은 단어 단위로 변경된 부분을 블록으로 표시하며, Character 버전은 스펠링 하나하나를 비교하여 변화를 나타낸다.Syntax Highlighting을 통해 각 언어별 코드를 더 명확히 확인할 수 있다.기타 Tool 기능으로는 공백을 제거하는 등의 간단한 작업을..

Colab에서 데이터를 다루다 보면 공유 받은 구글 드라이브 링크를 통해 데이터를 다운 받을 때가 있다. 로컬에 다운 받아 Colab에 추가할 수 있지만 코드 몇 줄로 손쉽게 다운 받는 방법이 있다. 여기서는 gdown과 gdrive dataset 방법을 소개하려고 한다. 1. gdown gdown은 Colab에 설치되어 있어 별도의 설치가 필요없다. 파일을 저장할 폴더가 생성되어 있어야 한다. 구글 드라이브의 open.zip 파일 링크를 공유 받았다면 file_id를 추출한다. https://drive.google.com/file/d/16YZxhGfwnvlSLDsfDcaM_Z7nTouqzRaW/view 주어진 링크에서 file_id는 초록색 강조 부분인 16YZxhGfwnvlSLDsfDcaM_Z7nTo..

압축 폴더를 푸는 방법에는 unzip, shutil, zipfile 3가지 방법이 있다. 3가지 방법 모두 output 폴더가 없다면 자동으로 생성해 주며, Colab에서 별도 설치 없이 실행 가능하다. 1. unzip unzip은 Linux에서 사용하는 명령어이다. Colab에서 unzip을 사용하는 방법은 두 가지이며 os 모듈을 통한 방법이 훨씬 빠르다. Command Line unzip [파일명] -d [저장위치] !unzip dataset.zip -d ./dataset/dataset os 모듈 Command Line 명령어를 그대로 os.system 함수 안에 입력하면 된다. import os file_name = "dataset.zip" output_dir = "dataset/dataset" ..
앞선 글에서 아래한글(hwp) 문서를 읽는 방법을 살펴보았다. [Python] Colab에서 아래한글(hwp) 문서 읽기 Colab을 사용해 아래한글 문서를 받아 엑셀로 정리하는 작업을 하려고 한다. 윈도우에서 한글 문서를 다루는 패키지로 pyhwp가 있지만, Colab에서는 리눅스 OS를 사용하기 때문에 pyhwp로 아래한글 문 code-angie.tistory.com 이번에는 학술대회 참가신청서를 예시로 한글 문서를 읽고, 데이터를 뽑아내 엑셀화 하는 작업을 하려고 한다. text를 split을 통해 나누고 replace를 통해 정제하는 정도만 알고 있어도 쉽게 할 수 있는 작업이다. 1. 패키지 불러오기 # 별도 설치가 필요한 패키지는 설치를 해준다. !pip install olefile impor..

Colab을 사용해 아래한글 문서를 받아 엑셀로 정리하는 작업을 하려고 한다. 윈도우에서 한글 문서를 다루는 패키지로 pyhwp가 있지만, Colab에서는 리눅스 OS를 사용하기 때문에 pyhwp로 아래한글 문서를 읽기가 쉽지 않았다. (exe 파일을 사용해서 그렇다고 본 것 같다.) 다행히 olefile 패키지를 사용하여 아래한글 문서를 바로 txt 문서로 변환하여 읽어 올 수 있는 방법을 찾았다. 1. olefile 패키지 설치 pip install olefile 2. 아래한글 문서 열기 import olefile path = "/content/file_name.hwp" f = olefile.OleFileIO(path) 3. 아래한글 문서 디코딩하기 기본적인 틀은 openstream 함수로 문서의 내..

사무 보조 알바를 하다보니 반복되는 작업이 많아 자동화를 시도해보게 되었다. word 문서는 python-docx 패키지를 통해 쉽게 다룰 수 있다. 간단하게 문서 내 글을 읽고, 쓰는 방법을 정리해 보았다. 1. python-docx 설치 word 문서를 다루기 위해 python-docx 패키지를 설치한다. 이 패키지는 Colab에서도 잘 돌아간다. pip install python-docx 2. word 문서 불러오기 from docx import Document path = "/content/file_name.docx" doc = Document(path) 3. Paragraphs 3.1. 문단 읽기 paragraphs 함수를 통해 word 문서 내 모든 문단을 확인할 수 있다. 하지만 표는 확인이..

백준 문제를 풀다 보면 종종 리스트 안의 행과 열을 바꿔야 하는 경우가 생긴다. 하지만 코딩테스트에서는 보통 numpy를 사용할 수 없다. 간단한 내장함수를 사용하여 전치행렬을 구현하는 방법을 알아보자. 1. zip for문을 실행할 때 zip 함수로 열의 요소들을 묶어줄 수 있다. arr = [list(temp) for temp in zip(*arr)] 2. map과 zip map 함수를 사용하면 for문을 거치는 것보다 더 빠르게 전치행렬을 만들 수 있다. arr = list(map(list,zip(*arr)))