본문 바로가기

Theory/DataScience

서울시 인구현황이라는 데이터 시각화해보기

최근 데이터사이언스 카테고리에 아주 쉬운 난이도의 글을 올리고 있습니다. 입문하시는 분들에게 작은 도움이 되었으면 좋겠다고 생각했거든요. 이번에는 서울시 인구현황이라는 통계자료가 있는데요. 그걸 한 번 다뤄보도록 하겠습니다.

서울시 열린데이터에서 구할 수 있는 자료입니다. 2020년 4월 29일에 업데이트 되었네요.

데이터는 휠을 조금 내리면 내려받기를 선택할 수 있습니다. 혹시 시간이 지나서 글을 읽는 분들을 위해 데이터도 같이 올려둡니다.

report (3).txt

이제 간단히 시작해보겠습니다.~

그냥 한 번 읽어봤습니다. 다운로드받는 웹페이지의 안내대로 탭(\t)으로 구분해서 읽어봤습니다.

그러나 대략 3번째 줄부터 읽으면 좋을것 같네요. 그래서 header는 2로 설정했습니다. 하나더, 콤마(,)들이 숫자 세자리마다 위치해 있는데요. 저 콤마때문에 숫자로 인식하지 못하고 문자로 인식할 수 있습니다. 그래서 숫자 세자리마다 찍혀있는 콤마는 무시해달라는, 그러니까 천단위 구분자가 있다고 알려주는 thousands옵션에 콤마를 지정합니다.

그리고 나서 간단하게 관심있는 컬럼만 선택했구요~

컬럼 이름도 살짝 바꾸었습니다~

전체 합계를 의미하는 첫 행도 제거 했구요~

외국인과 고령자는 해당 구의 전체 인구대비 비율도 계산했습니다.

이제 인구가 많은 구를 보면~ 송파, 강서, 강남, 노원, 관악 순으로 가네요.

외국인ㅣ율이 높은 구는 영등포구네요~

고령자비율이 높은 구는 강북구입니다.

다시 matplotlib에서 한글 사용을 위해 기본 폰트를 변경하구요. 윈도우 유저들은 f_path라는 변수의 내용을 윈도우 경로에 맞추시면 됩니다.

이번에는 그림을 좀 쉽게 그리기 위해 구라는 이름의 컬럼을 인덱스로 지정합니다.

짠~인구 현황을 수평바(barh) 그래프로 그려보았습니다. 흠. 송파구부터 중구까지 인구 현황이 한 눈에 보이네요

이번에는 고령자의 숫자입니다. 송파구가 제일 많은 것으로 보이지만, 이는 송파구의 인구가 많아서일 뿐입니다.

고령자비율로 다시 그리면 강북구가 높고 송파구는 제일 낮죠

이번에는 외국인 비율입니다. 영등포구와 중구, 금천, 구로구가 엄청 높네요. 위 내용은 동영상으로도 강의되고 있습니다.


반응형