본문 바로가기

Theory/DataScience

(51)
Selenium 처음 시작해 보기 오랜만에 Data Science 카테고리에 글을 올리네요. 예전에 웹에서 데이터를 가지고 오는 간단한 방법을 이야기했던 적이 있습니다. 오늘은 그 글에서 이어지는 내용입니다. 웹상에서 어떤 입력폼에 글자를 입력한다든지, 접근해야할 상세 웹 주소가 보이지 않는다든지 등의 상황에서 유용하게 사용할 수 있는 도구가 selenium입니다. 위 그림에 나타나있듯이 selenium은 사용하는 브라우저에 맞춰 드라이버를 실행합니다. 그러면 해당 드라이버가 웹페이지를 읽을 브라우저를 실행해서 나의 코드에 의해 제어되도록 되는 것입니다. 설치는 pip 명령으로 먼저 진행하구요. 아래 그림처럼 자신의 크롬 버전을 확인합니다. 우측 상단 점 세개를 클릭한 다음 도움말의 크롬 버전을 확인하시면 됩니다. 크롬드라이버 다운로드 ..
Jupyter Notebook을 원격으로 접속하기 저는 어떤 숭고한(^^) 목적으로 RTX3090을 확보했습니다. 음... 지금은 가격이 더 올랐네요^^. 아무튼, 이 아이를 구매하고 PC가 조립되는 과정은 매우 많은 분들이 도와주셨지요. 오모로봇의 대표님과 연구소장님입니다. ㅋㅋ 이 글을 빌어 감사의 마음을 전합니다. ㅋㅋ^^ 아무튼 그렇게 세팅한 저 데스크탑은 리눅스를 세팅하고 원격으로 사용할 건데요. Jupyter notebook을 데스트탑에서 기동하고, 제 노트북에서 원격으로 접속하려고 합니다^^ 저런 구성을 하고 싶은거죠^^ 일단, 데스크탑의 ip를 알아서 ssh로 접근합니다. ip를 알아내는 방법은 한번 모니터, 키보드, 마우스를 연결하고 ifconfig명령을 이용해서 ip를 확인하면 됩니다. 이제 ssh로 원격으로 데스크탑에 접근을 완료합니..
Python scikit learn의 Label Encoder와 MinMax, Standard, Robust Scaler 이해하기 얼핏 관계가 없어 보일 수도 있으나, 이번에는 scikit learn의 Label Encoder와 MinMax, Standard, Robust Scaler를 이야기 해보려고 합니다. 이 아이들 모두 데이터를 만지작 거리다 보면 자주 만나게 되는 아이들입니다. Label Encoder 먼저 연습용 데이터를 즉석에서 만들어 보죠. 그냥 A 컬럼은 문자로, B 컬럼은 흔히 보는 숫자로 되어 있습니다. 네 위와 같이 만들어 지죠. 만약 A컬럼의 문자 a, b, c를 각각 번호 0, 1, 2를 매겨서 변환하고 싶다면 LabelEncoder를 사용하면 됩니다. 먼저 LabelEncoder를 불러와서 A컬럼을 기준으로 fit을 시키면, 어떤 아이를 0이라고 할지, 또 어떤아이를 1이라고 할지를 정합니다. 그 내용이 ..
Box Plot의 기초 요즘 수업하면서 box plot의 기초에 대해 궁금해 하시는 분들이 많아서 이 부분만 다시 이야기하려고 블로그에 정리합니다. 데이터의 분포를 관찰하는 좋은 도구 중에 하나가 Box Plot입니다. 간단히 예를 보도록 하죠. 임의로 데이터를 만들어 두겠습니다. 그리고 그림을 그리기 위한 y값도 1로만 채워두겠습니다. 그려보면 위 그림처럼 되죠. 100 근처의 값들이 생뚱(^^)맞게 크게 잡혀있네요. 이제 numpy의 median 명령으로 중간값을 찾아보겠습니다. 45라는 값이 딱 중간 값인가 봅니다. numpy의 percentile 명령을 이용하면 4분의1 (25%), 4분의3 (75%) 지점의 값들을 찾아보면 16과 48이라고 합니다. 그 값을 각각 q1, q3라고 하고 가운데 값은 q2라고 하겠습니다...
Colab에서 KoNLPy와 WordCloud 설정하기 Colab은 무료에 GPU등을 사용할 수 있어서 아마 많이들 사용하실 텐데요. Colab의 사용에서 자연어, 특히 한글 자연어 처리를 해보려는 분들이 처음에 겪는 문제는 아마도 그래프에서 한글 표현과 KoNLPy와 WordCloud의 설치일 겁니다. 오늘은 그것을 다뤄 보도록 하겠습니다.먼저 Colab을 시작합니다. 구글 드라이브에서 새로만들기 후에 Google Colaboratory를 선택합니다.일단, matplotlib에서 그림을 그릴때 한글을 적용해봅니다.그러면 에러가 납니다. matplotlib의 기본 폰트가 한글을 지원하지 않기 때문입니다. jupyter notebook에서 matplotlib의 한글문제를 해결하는 방법을 다루기도 했었구요. 또 Colab에서 한글 문제를 다루는 법도 이야기를 했..
한글 형태소 분석기 KoNLPy 사용을 위한 환경 설정 해보기 아주 예전에 Lucy Park님의 KoNLPy를 소개했던 적이 있습니다. 이번에는 시간도 많이 흘러고 하니, KoNLPy를 사용하기 위한 작업도 설명할 겸, 이참에 anaconda 설치와 conda 환경설정, JDK의 설치 등도 모두 이야기를 해보겠습니다. 아나콘다 설치 이미 많은 분들이 이미 알고 계시고 사용하고 계시겠지만 Python을 이용한 데이터 사이언스에서 가장 인기있는 Python 개발 환경이라면 아마도 아나콘다(anaconda)일 겁니다. 아나콘다는 손쉽게 구글에서 바로 찾을 수 있습니다. 아나콘다를 검색하고 들어간 사이트에서 Products에서 Individual Edition을 선택합니다. 그리고 Download를 선택합니다. 자신의 OS에 맞춰 다운로드를 하면 됩니다. 그리고 설치하면 ..
네이버 검색 결과를 API를 이용해서 쉽게 받아보자 이번에는 네이버에서 데이터를 얻는 방법 중에서 네이버가 제공하는 API를 사용하는 방법을 정리해두려고 합니다. 데이터를 웹페이지에서 직접 얻을 수도 있지만, 만약 해당 사이트가 API 등의 도구로 필요한 데이터를 배포하고 있다면 크게 어렵지 않게 접근할 수 있습니다~먼저 전국민이 아는 Naver의 홈페이지에서~네이버 개발자 센터를 검색합니다.~이렇게 뜨는데요. 일단 로그인을 하고Products에서 서비스 API를 선택하고 어떤 메뉴든 상관없지만, 검색을 선택해서 들어갑니다~그리고 나타는 글의 하단에 있는 오픈 API 이용신청을 눌러줍니다~이제 사용 API를 선택하고 서비스 환경을 지정하면 되는데, 서비스 환경은 우리가 아직 서비스가 없으니 아무거나~^^그리고 내 어플리케이션에서 아까 지정한 이름을 찾아보..
웹에 있는 데이터를 가져와보자 데이터 사이언스 관련된 연재를 올리다가 제가 너무 바쁜 관계로 잠시 쉬었네요. 이제 다시 시작해야죠. 데이터를 다루는 것을 공부하다보면 어디서 데이터를 얻을 것인지에 대한 고민이 당연히 생깁니다. 대부분의 회사에서야 자기들만의 방법으로 데이터를 얻게 되죠. 그러나 웹에서 데이터를 얻는 방법을 알아두면 정말 재미있는 일을 많이 해볼수 있답니다.일단, jupyter notebook에서 pip install bs4를 수행해서 Beautiful Soup이라는 것을 설치합니다. 이미 설치되어 있는 분들도 있겠지만, 우리가 처음 환경을 설치하던 글에서 시작하신 분들은 설치되어 있지 않을 겁니다.그리고 세상에서 가장 간단한 사이트중 하나인 beans-r-us라는 사이트를 찾아 보겠습니다. 사실 이 사이트는 몇 개 이..

반응형