• RcppMeCab 0.0.1.2 Release on CRAN

    RcppMeCab 0.0.1.2 is released on CRAN. You can install the package via install.packages in Windows/Mac OS X/Linux (Solaris is not supported). In this version:

    Read on →

  • RcppMeCab 0.0.1.1 Release

    RcppMeCab 0.0.1.1 is released in Github. This version supports:

    Read on →

  • Introduction to RcppMeCab 0.0.1.0

    There are several part-of-speech morphological analyzers in Asian languages. Contrary to English, East Asian language needs morphological analyzer for natural language processing, since the same character could have several meanings based on its position of the sentence and there are some languages which are not segmented.

    Read on →

  • Grad CAM으로 딥 러닝 모형 해석 (R version)

    여러 곳에서 딥 러닝을 활용하고 있는 상황이지만, 개인적으로는 집중해서 매달리지는 않는 편입니다. 가장 큰 이유는 제가 관심 있는 것이 분석 결과가 아니라 해석이기 때문일 텐데요. 학문적 관심으로 접근하는 입장에서 딥러닝이 내는 좋은 결과도 해석하지 못하면 저에게는 크게 다가오지 않는 것 같습니다. 다행인 것은, 최근 머신 러닝 모형 해석을 위한 여러 가지 방법들이 제시되고 있다는 것이죠.

    Read on →

  • 한국 가요 50년사, 가사 분석

    멜론 시대별 차트는 미국 빌보드처럼 공식 가요 순위 기록이 없는 한국 가요를 여러 출처를 통해 정리한 좋은 자료입니다. 물론 음원 공급을 하는 특정 회사의 저작물이라는 한계가 있을 수 있으나, 2010년 이후부터는 멜론 차트가 한국 가요 순위를 말하는 데에 있어서 중요한 지표가 된 것도 사실이니까요. 시대별 차트는 1964 ~ 2016년도의 가요 차트를 보여줍니다. 64 ~ 83년도는 순위 없이 해당 연도의 인기곡을, 84 ~ 04년도는 무가지 뮤직박스 차트를, 05년도 이후는 멜론 차트를 제공하고 있습니다. 이번 포스트는 전체 차트와 각 곡의 가사를 scraping한 자료를 토대로 명멸해간 스타들, 그리고 가사를 중심으로 한 분석 기법들의 소개를 이어가려 합니다. 이번에는 순위 자료를 바탕으로 한 graph와 가사의 word cloud, tf-idf 기반 분석을 소개하고, 다음 포스트에서 word vector, stm (structural topic modeling)을 다뤄보고자 합니다.

    Read on →