-
R에서 해보는 한국 일제강점기 시의 단어 분석
- 본 포스트는 Single World Analysis of Early 19th Century Poetry Using tidytext의 내용을 수정, 발전시킨 것입니다. 분석 방법은 기본적으로 모두 원 블로그에서 따온 것임을 밝힙니다.
- 전희원님의 KoNLP는 정말 멋진 패키지이지만, 본문에서는 적용하지 않았습니다. 다음번 포스팅에는 독자분들이 좀 더 쉽게 접근하실 수 있도록 KoNLP를 통한 분석도 싣도록 하겠습니다.
- 여기에서는 코모란 3.0을 적용했습니다. 아쉽게도 R 포팅은 없기 때문에, rJava interface를 통해 Komoran 3.0 Java Archive를 직접 불러와 태깅했습니다.
- 본문에서 사용한 감정사전은 두 종류입니다. 하나는 NRC Emoticon Lexicon이며, 다른 하나는 Bing Opinion Lexicon입니다. 전자는 Saif Mohammad에게 이메일을 통해 사용 허가를 받았으며, 후자는 자료가 공개 형태로 올라와 있어 특별히 허가를 받지는 않았습니다.