Python 라이브러리인 pandas를 활용하여 데이터 분석을 해보려고 했습니다.
데이터는 공공데이터(data.go.kr)에서 도로교통공단_교통사고 정보를 다운로드하였습니다.
(https://www.data.go.kr/search/index.do)
받은 데이터는 csv 파일 형식입니다.
pd.read_csv() 함수를 사용하여 파일을 읽으려고 했더니
아래 그림과 같이 에러가 발생하네요.
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbb in position 0: invalid start byte
아무래도 csv에 들어 있는 한글 때문에 생긴 에러 같습니다.
한글 때문에 생긴 에러의 경우, 쉽게는 한글 내용을 지워버리면 해결이 됩니다.
하지만 이래저래 검색하고 시도하여 한글을 읽을 수 있는 방법을 찾았습니다.
방법은 다음과 같습니다.
pd.read_csv(‘csv_file’, encoding='CP949')
뒤에 encoding='CP949’를 추가해줬더니 csv파일 안의 한글을 읽어왔습니다.
위의 그림처럼 안에 있는 한글을 잘 읽어온 것을 확인할 수 있습니다.
'컴퓨터 > Python' 카테고리의 다른 글
Pandas를 활용한 공공데이터 분석 (0) | 2019.11.19 |
---|---|
꺾은선 그래프의 라인 스타일 변경하기 (0) | 2019.11.17 |
월드콘 가격을 꺾은선 그래프로 그려보기 (0) | 2019.11.15 |
Python package 설치하기 in PyCharm (0) | 2019.11.11 |
새 프로젝트 만들기 in PyCharm (0) | 2019.11.09 |