본문 바로가기

Theory/DataScience

한글 형태소 분석기 KoNLPy 사용을 위한 환경 설정 해보기

아주 예전에 Lucy Park님의 KoNLPy를 소개했던 적이 있습니다. 이번에는 시간도 많이 흘러고 하니, KoNLPy를 사용하기 위한 작업도 설명할 겸, 이참에 anaconda 설치와 conda 환경설정, JDK의 설치 등도 모두 이야기를 해보겠습니다.

아나콘다 설치

이미 많은 분들이 이미 알고 계시고 사용하고 계시겠지만 Python을 이용한 데이터 사이언스에서 가장 인기있는 Python 개발 환경이라면 아마도 아나콘다(anaconda)일 겁니다. 아나콘다는 손쉽게 구글에서 바로 찾을 수 있습니다.

아나콘다를 검색하고 들어간 사이트에서 Products에서 Individual Edition을 선택합니다.

그리고 Download를 선택합니다.

자신의 OS에 맞춰 다운로드를 하면 됩니다.

그리고 설치하면 됩니다.

그냥 다 다음(next)을 눌러주면 되겠습니다.^^

 

JAVA JDK 설치

KoNLPy를 사용하기 위해서는 JAVA JDK를 설치해야 합니다. JDK 다운로드 사이트를 갑니다.

JDK 다운로드를 선택합니다.

자신의 OS에 맞는 아이를 받습니다.

뭔가를 동의(^^)하고 나면 다운로드가 됩니다.

설치는 그냥 역시 다음다음~ 입니다.

한가지 다음을 위해 JDK가 설치된 경로를 미리 탐색기로 찾아 놓는 것이 좋습니다.

일단 해당 경로를 알아놔 두고~

윈도우의 시작 버튼에서 오른쪽 버튼을 누르고 시스템으로 들어갑니다.

거기서 고급 시스템 설정을 선택합니다.

아까 찾아둔 JDK의 설치 경로를 복사해둡니다.

환경변수에 들어가서 Path를 선택합니다.

복사해둔 주소를 붙여넣습니다.

bin 폴더 주소도 추가해 둡니다.

또 새로 만들기를 선택해서 JAVA_HOME을 이름으로 하고 다시 또 JDK의 주소를 넣어 줍니다.

이제 재부팅을 합니다. 참고로 맥 유저는 환경변수를 등록하는 위 과정이 export 명령하나로 끝납니다.

export JAVA_HOME $(/Library/Java/JavaVirtualMachines/)

위 명령은 맥 유저만 입력하면 됩니다. 아무튼, 윈도우 유저는 이 상태에서 재부팅을 하면 됩니다.

 

conda 환경 만들기

여러가지 이유가 있지만, 모듈의 버전을 다양하게 사용하거나, 설치상 오류로 아나콘다 자체를 망치지 않도록 보통 conda 환경이라는 것을 만들어서 많이들 사용합니다. 윈도우 시작 버튼을 누르고 

위 그림처럼 Anaconda Prompt를 실행합니다. 앞으로는 콘다 환경을 만들어서 실행하는 경우는 Anaconda Prompt를 직접 실행하는 것이 편할겁니다. 일단 콘다 환경을 만드는 명령은 conda create 명령입니다. 여기에 -n 옵션으로 환경의 이름을 지정합니다. 여기서는 nltk로 하겠습니다. 그리고 python 버전도 지정할 수 있는데, 여기선 3.7로 해두겠습니다.

이제 nltk라는 또다른 환경이 만들어 졌습니다. conda 환경을 설정하는 이야기를 지난번에도 했었는데 한 번 참고삼아 읽어보시기 바랍니다. 그리고 conda라는 명령을 업데이트 해줍니다.

이제 방금 내가 만든 nltk라는 환경으로 들어가기 위해 윈도우유저는 conda activate 명령을, 맥 유저는 source activate 명령을 사용하면 됩니다.

그리고, pip 명령을 upgrade를 먼저 시행해 둡니다. pip나 conda 모두 python의 모듈 관리 기능을 가지고 있으므로 항상 최신버전으로 유지해둘 필요가 있습니다.

이제 nltk 환경 안에서, pip 명령으로 아래 그림에 표시된 모듈들을 설치할 것입니다. 기본적으로 많이 사용하는 모듈들입니다.

그리고 KoNLPy를 사용하기 위한 JPype1과 konlpy도 pip로 설치합니다.

또 wordcloud도 설치합니다. (재미있게 가지고 놀 수 있습니다.^^)

이번에는 nltk를 설치해야하는데, nltk는 버전간 dependency가 예민(?)해서 conda install 명령으로 conda-forge 채널을 지정해서 설치하도록 하겠습니다.

이제 python을 실행합니다.

여기서 import nltk를 실행해 봅니다.

그런데 nltk를 import할때 numpy라는 글자와 RuntimeError 어쩌고가 뜨는 경우가 있을 수 있습니다. 

일단 exit() 명령으로 python에서 빠져나와서 numpy를 pip uninstall로 제거합니다.

그리고 numpy를 conda 명령으로 conda-forge 채널에서 설치를 합니다.

다시 python을 실행해서 import numpy나 import nltk를 실행해보면 무사히 넘어가는 것을 알 수 있습니다.

그러면 nltk.downloda()를 입력합니다.

새 창이 하나 나타날 겁니다. 거기서 위쪽 탭에서 All package를 선택한 다음 

punkt를 찾아서 더블클릭해줍니다.

그리고 stopwords를 찾아서 또 더블클릭으로 설치해줍니다.

이제 exit()로 python에서 빠져나옵니다.

이제 jupyter notebook을 실행합니다.

그러면 웹브라우저에서 jupyter가 실행되는 것을 볼 수 있습니다. 이제 원하는 작업 폴더로 이동합니다.

그리고 new를 누르고 Python3을 선택해서 새로운 파일을 만듭니다.

이제 아래 두 줄을 입력합니다. 보다 상세한 이야기는 다시 할 수 있을 것입니다.

그리고 아래와 같이 입력해보면, 문장 분석이 수행되었습니다. 이제부터 konlpy와 nltk를 이용해서 매우 재미있는 한글 형태소 분석을 할 수 있을 겁니다.^^.

지금까지의 내용은 동영상으로도 준비를 했습니다. 도움이 되면 좋겠네요~

반응형