본문 바로가기

Education

패스트캠퍼스 DS 스쿨 14기 쏘카 보험사기 데이터 프로젝트 소개

얼마전에 실화탐사대라는 TV 프로를 보다가 "가피공모"라는 주제를 다룬 것을 보았습니다. 가피공모, 일명 뒷쿵은 보험 사기의 한 수법으로 가해자와 피해자가 공모하여 일부러 사고를 내고, 보험금을 타는 방식의 범죄입니다.

이런 데이터를 다룬 프로젝트가 있어서 오늘은 이 팀을 소개하려고 합니다.^^. 아시는 분은 아시지만, 저는 패스트캠퍼스에서 데이터 사이언스 분야에서 분석파트의 수업을 진행하고 있습니다. 관련해서 한 번 수강생들의 프로젝트를 소개한 적이 있었죠. 이번에는 패스트캠퍼스 데이터사이언스 스쿨 14기 분들 중 한 팀입니다. 차차 다른 팀의 업적(^^)들도 소개하도록 하겠습니다.

아무튼, 때는 2009년 여름까지 가네요. 저는 단지 한 작은 지방대에서 졸업 후 월급을 받는 회사에 취업하는 것이 목표였던 대학원생이었고, 이 때 만난 어떤 분들은 죽어라 창업이 목표인 분들이었던 것으로 기억합니다.

그러던 중 위 그림처럼 당시 2009년의 블로거들이 하던 릴레이 글적기 놀이를 하고 있었는데요. 그때 저에게 글 주제를 던져 주신 분이 있으셨죠. 그 후 잊고 있었는데요. 그 후 이 글에서 이야기 한 데로 정말 멋지게 비지니스를 하고 계시더군요. 바로 "쏘카"였습니다.

그 때의 인연(말도 안되는 작디 작은 인연의 끈)으로 조르고 졸라서~^^, 회사가 그렇게도 바쁜데 데이터를 공유해주시고, 또 사용을 허락해준 쏘카와 김상우 그룹장님께 다시 한 번 감사를 드립니다. 아무튼, 그렇게 해서 저희는 쏘카로부터 처음 이야기한 가피공모 보험 사기 데이터를 받았습니다.^^

이 프로젝트는 데이터 사이언스 스쿨 14기 분들 중 세 분이 한 팀을 이뤄 진행했고~, 저는 언제나 그렇듯 뒤에서 팔짱끼고 구경만했죠. ^^.

이 분들의 프로젝트를 이렇게 소개하는 것 만으로도 저는 참 기쁩니다^^

아무튼 이런 Fraud 데이터류~들이 참 힘든게 너~무 데이터의 불균형이 심해요. 전체 16,000건의 사고데이터 중에서 0.26%, 41건만 범죄 데이터입니다. 이걸~ 예측해야하는거죠.ㅠㅠ.

우리 프로젝트팀은 정말 열심히 데이터를 들여다 봤습니다. 어떤 컬럼은 원핫인코딩하고~

또 이상치에 대해서도 꼼꼼히 고민하고~

샘플링에 대해서도 꼼꼼히 고민해죠^^

우리가 어차피 수업을 하는 것이고, 가지고 있는 데이터에 한계가 있어서 결과 수치는 뭐가 좋고 나쁘다는 것을 판정하기 어렵습니다. 제가 주안점을 둔것은 어떻게 하면 많은 공부를 하게 된 것인가? 인거죠. 스스로들 고민하고, 또 고민하고, 어떨때는 acc가 100%가 나와서 슬퍼하고(아시는분은 아시겠죠^^), 또 높아진 recall과는 비교할 수 없을 정도로 형편없는 acc를 보여 슬퍼하기도 했죠. 아무튼 41개의 Fraud 데이터에서 또 7개는 테스트데이터로 빼고, 나머지로 열심히 학습하고, 7개중 5개를 맞추는 성과도 가지고, 그 와중에 팍팍 내려가는 나머지 성능들에 대해서도 고민하는 그런 과정이었습니다. 우리 인생이 취업이 목표일 수는 없겠지만, 그래도 저 위의 세명의 팀원중, (아직 수업 과정이 끝나지 않았음에도 불구하고) 한 분이 취업에 성공했는데, 인터뷰때 쏘카의 데이터를 다뤄본 경험에 담당 회사에서 엄청 관심을 표했다고 하면서 취업에 도움이 되었다고 하니, 참 뿌듯하고 또 감사할 따름입니다.~^^ 코로나 시국~ 다들 열심히 버텨보도록 하시죠~^^

반응형