본문 바로가기

텍스트마이닝2

텍스트마이닝 - R을 활용한 웹 크롤링 및 단어 연관 분석 (KoNLP) :: Data 쿡북 2017.1.9 춥고 흐림. 수정사항 : 2017-08-18, 인코딩 관련 소스라인 추가 2017-09-11, 텍스트 마이닝 python korea 2017 에서 발표된 명사 추출 관련 자료 link , 데이터 기반의 명사 추출 기법 https://www.slideshare.net/kimhyunjoonglovit/pycon2017-koreannlp, | 들어가며 오늘은 R을 이용해서 웹 데이터를 크롤링하고, 수집된 텍스트를 기반으로 연관 분석을 하는 과정을 공유할까 한다. 참고로 웹 크롤링은 웹 사이트가 빈번하기 바뀌기 때문에 작성하는 현 시점기준의 스크립트임을 밝힌다. 혹 크롤링 대상 사이트에 변경이 있을 경우 해당 부분의 수정은 필요하다| R을 활용한 웹 크롤링오늘 해 볼 것은 1. DAUM 의 영화.. 2017. 1. 8.
텍스트마이닝 - R을 활용한 Facebook 워드 클라우드 분석 방법(wordcloud) :: Data 쿡북 2017년 1월 5일 날씨 맑음 | 들어가며지난 한해도 정리할 겸 Facebook에 작성했던 글을 한번 뽑아 보고 싶어졌다.사실 예전에 R로 워드 클라우드 그렸던 거라 기억이 가물가물해 과거에 작성했던 교육내용하고 최근 KoNLP가 0.80으로 업데이트 되었다는 소식에 전희원님의 글을 참고해 다시 뽑아봤다. ▶ KoNLP v.0.80.0 릴리즈 소식 : http://freesearch.pe.kr/archives/4520 참고로 0.80의 개선 포인트로 성능개선은 말할것도 없고, 버그 수정, 형태소 사전 추가 적용, 텍스트 전처리 플러그인 등이 추가되었다고 한다. 추후 RNN 을 연결하는 것을 생각하신다고 하니 R을 기반으로 텍스트 마이닝을 하시는 분들에게는 좋은 소식이지 않을까? | 패키지 설치와 Fac.. 2017. 1. 5.