본문 바로가기
컴퓨터/Python

CSV 파일 로드할 때 한글이 깨질 경우

by 로봇과학자 2019. 11. 13.

Python 라이브러리인 pandas를 활용하여 데이터 분석을 해보려고 했습니다. 
데이터는 공공데이터(data.go.kr)에서 도로교통공단_교통사고 정보를 다운로드하였습니다.
(https://www.data.go.kr/search/index.do)

받은 데이터는 csv 파일 형식입니다. 
pd.read_csv() 함수를 사용하여 파일을 읽으려고 했더니 
아래 그림과 같이 에러가 발생하네요. 

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbb in position 0: invalid start byte

아무래도 csv에 들어 있는 한글 때문에 생긴 에러 같습니다. 
한글 때문에 생긴 에러의 경우, 쉽게는 한글 내용을 지워버리면 해결이 됩니다. 

하지만 이래저래 검색하고 시도하여 한글을 읽을 수 있는 방법을 찾았습니다. 
방법은 다음과 같습니다. 

pd.read_csv(‘csv_file’, encoding='CP949')

뒤에  encoding='CP949’를 추가해줬더니  csv파일 안의 한글을 읽어왔습니다. 

 

위의 그림처럼 안에 있는 한글을 잘 읽어온 것을 확인할 수 있습니다.