본문 바로가기

Theory/DataScience

데이터 과학에서 필수 아이템 seaborn

일반적인 Python에서 가장 많이 사용하는 그래픽 도구는 당연히 matplotlib입니다. 오늘 소개할 아이도 matplotlib를 기본으로 합니다. 그런데.. 데이터를 다루는 초반 학습에서 아주~~~ 편리한 다양한 시각화 기능을 가지고 있습니다. 그런 다양한 몇몇 기능을 소개할까 합니다.~~~ 이름은 Seaborn^^흠 바다에서 태어났다는 뭐 그런 뜻인가요??? 아무튼~~~ Seaborn은 matplotlib를 기반으로 하는 Python visualization 라이브러리이며, attractive한 통계적 그래프를 보여줍니다.^^ (라고 첫 페이지에 써있습니다.^^) seaborn의 공식홈페이지를 방문하시면 아~~주 친절한 설명을 들을 수 있습니다.

일단 딱~ 봐도 이쁘죠^^

특히 seaborn은 실습용 데이터를 내장하고 있어서 연습할떄 꽤 좋습니다. 저런 영수증에 관련된 데이터를 기반으로~~

boxplot을 그려볼 수 있습니다. 우와... 단지 준비된 데이터를 이용해서 요일별, 흡연여부를 따로 구분하여 전체 영수금액의 차이를 저렇게 간단하게 표현하다니~~하고 감탄하시면 안됩니다. 감탄할 일이 많이 남았거든요^^

주어진 데이터를 이용해서 점심과 저녁으로 나누고, 흡연 여부로 나누고~~~ 성별까지 구분지으면서도 저렇게~~ 간단히 표현할 수 있네요^^

implot을 이용해서 마치 scatter로 그린듯 하지만... 하나가 더 있습니다. 바로 linear regression이 표현되어 있습니다. 저 명령과 옵션 한 줄로 비흡연자가 전체 사용금액 대비 높은 팁을 준다는 것도 알 수 있네요...

헐.. 이건 또 뭔가요.... 성별, 시간대별로 구분해서 표현을 해주는군요^^

연도와 월별 비행기 승객의 숫자를 데이터로 가져왔습니다^^

pandas의 pivot기능을 사용해서 index에 월별로.. column에 연도를 두도록 했네요^^ 저게 또 단 한줄의 명령으로 해결된다는 것이 Python의 pandas의 매력입니다^^

아무튼.. 그걸로 heatmap을 그렸네요^^

요딴~ 표현도 가능합니다.^^

그 유명한 iris 데이터이네요^^

이번에는 pairplot이라는 기능으로 각 변수(variable)별로 각각의 상관관계를 표현할 수 있네요^^

이 기능은 참 유용해보입니다. 이걸 일일이 그릴 생각을 해보세요^^

주대각선 성분에 히스토그램이 아니라 kde 그래프를 넣어둘수 있습니다.

ㅎㅎ linear regression도 함께 표현해 볼 수 있네요^^ 누구 말처럼~ seaborn이 진리인가 봅니다.^^

반응형