일반적인 Python에서 가장 많이 사용하는 그래픽 도구는 당연히 matplotlib입니다. 오늘 소개할 아이도 matplotlib를 기본으로 합니다. 그런데.. 데이터를 다루는 초반 학습에서 아주~~~ 편리한 다양한 시각화 기능을 가지고 있습니다. 그런 다양한 몇몇 기능을 소개할까 합니다.~~~ 이름은 Seaborn^^흠 바다에서 태어났다는 뭐 그런 뜻인가요??? 아무튼~~~ Seaborn은 matplotlib를 기반으로 하는 Python visualization 라이브러리이며, attractive한 통계적 그래프를 보여줍니다.^^ (라고 첫 페이지에 써있습니다.^^) seaborn의 공식홈페이지를 방문하시면 아~~주 친절한 설명을 들을 수 있습니다.
일단 딱~ 봐도 이쁘죠^^
특히 seaborn은 실습용 데이터를 내장하고 있어서 연습할떄 꽤 좋습니다. 저런 영수증에 관련된 데이터를 기반으로~~
boxplot을 그려볼 수 있습니다. 우와... 단지 준비된 데이터를 이용해서 요일별, 흡연여부를 따로 구분하여 전체 영수금액의 차이를 저렇게 간단하게 표현하다니~~하고 감탄하시면 안됩니다. 감탄할 일이 많이 남았거든요^^
주어진 데이터를 이용해서 점심과 저녁으로 나누고, 흡연 여부로 나누고~~~ 성별까지 구분지으면서도 저렇게~~ 간단히 표현할 수 있네요^^
implot을 이용해서 마치 scatter로 그린듯 하지만... 하나가 더 있습니다. 바로 linear regression이 표현되어 있습니다. 저 명령과 옵션 한 줄로 비흡연자가 전체 사용금액 대비 높은 팁을 준다는 것도 알 수 있네요...
헐.. 이건 또 뭔가요.... 성별, 시간대별로 구분해서 표현을 해주는군요^^
연도와 월별 비행기 승객의 숫자를 데이터로 가져왔습니다^^
pandas의 pivot기능을 사용해서 index에 월별로.. column에 연도를 두도록 했네요^^ 저게 또 단 한줄의 명령으로 해결된다는 것이 Python의 pandas의 매력입니다^^
아무튼.. 그걸로 heatmap을 그렸네요^^
요딴~ 표현도 가능합니다.^^
그 유명한 iris 데이터이네요^^
이번에는 pairplot이라는 기능으로 각 변수(variable)별로 각각의 상관관계를 표현할 수 있네요^^
이 기능은 참 유용해보입니다. 이걸 일일이 그릴 생각을 해보세요^^
주대각선 성분에 히스토그램이 아니라 kde 그래프를 넣어둘수 있습니다.
ㅎㅎ linear regression도 함께 표현해 볼 수 있네요^^ 누구 말처럼~ seaborn이 진리인가 봅니다.^^
'Theory > DataScience' 카테고리의 다른 글
Python을 이용해서 구글에서 주식 정보 가져오기 (20) | 2016.12.09 |
---|---|
Python pandas에서 excel 엑셀 파일 바로 읽어 오기 (12) | 2016.11.23 |
Python pandas에서 text 혹은 csv 파일 읽기 (26) | 2016.11.17 |
구글의 지도(google maps) 데이터를 사용할 준비를 하자 (14) | 2016.11.06 |
데이터 과학을 위한 재미난 데이터를 찾을 수 있는 kaggle (2) | 2016.11.06 |
연습용 데이터를 획득하기 좋은 공공 데이터 포럼 (2) | 2016.11.06 |
Jupyter 잘 써보기~~~ (4) | 2016.10.30 |