한글 형태소 분석기인 은전한닢 프로젝트 mecab-ko의 R wrapper를 만들었습니다. 한달동안 틈틈히 C++ 프로그래밍 기본부터 익히기 시작해서 패키지 완성까지 진행하면서 어려움이 많았지만, 올려놓고 나니 시원섭섭하네요. 천천히 수정, 보완해 나갈 예정입니다.

RmecabKo 에서 확인하실 수 있어요.

장점은,

  1. 빠르다. (C++에서 바로 구동하므로 Java 기반의 다른 형태소 분석기보다 빠릅니다.)
  2. 띄어쓰기를 크게 타지 않는다. (mecab은 일본어 형태소 분석기입니다. 일본어는 띄어쓰기가 없기 때문에, 형태소 분석기의 분석 방식도 차이가 있습니다. mecab-ko는 이것을 한국어에 맞도록 수정한 것으로, 띄어쓰기가 틀려도 잘 분석해냅니다. 인터넷에서 수집한 텍스트는 띄어쓰기에 문제가 있는 경우가 많은데, 이런 자료로 잘 분석할 수 있다는 장점이 있습니다.)

단점은,

  1. 이제 시작입니다. 고칠게 너무 많아요.
  2. 제가 맥 밖에 없어서, 다른 운영체계에서 실행해보지 못했습니다. 도와주실 분들이 필요해요.

의견 주시면 바로바로 반영해서 판올림할게요. 어찌됐건 작동하니 일단 0.1이라고 판 번호를 붙여 보았습니다.

즐거운 한글 분석 되시길 기원하며!