온라인 도구 활용법기초과정 1주차 - 워드 클라우드
페이지 정보
작성자 Trudy 작성일24-07-09 06:02 조회118회 댓글0건관련링크
본문
워드 워드클라우드 클라우드(WordCloud) : 텍스트 형태소 분석 및 시각화, 키워드 추출하는 방법에 대한 포스팅입니다.✔️ 멀티잇 금융&마케팅 데이터분석2월 하반기에 수업을 시작하고, 드디어 자연어 처리에 입문하였습니다.형태소 분석1) 대한민국 헌법 텍스트 데이터 불러오기가지고 있는 대한민국헌법 파일(constitution.txt)의 파일 경로를 불러왔습니다.text 출력 결과2) MeCab 형태소 분석기 사용여기서 추출된 명사 3609개는 단어의 중복을 포함한 총 누적 개수입니다.형태소에 대한 설명참고로, Okt로도 가능하나 결과가 워드클라우드 조금 다르게 나오며 시간이 좀 더 걸리는데요.실무에서는 거의 MeCab으로 사용한다고 합니다.Mecab으로는 3609개, Okt로는 3882개로 형태소 분석이 되었습니다.형태소 빈도수 구하기이제, 분석된 형태소의 빈도수를 시각화해보겠습니다.1) '명사'형태소의 빈도수 분석 Counter(nouns)Counter(nouns) 함수는 주어진 텍스트에서 명사(nouns)를 추출하여 각 명사의 출현 빈도를 계산하는 함수입니다. 이 함수는 파이썬의 collections 모듈에 있는 Counter 클래스를 사용합니다.key, value 쌍의 딕셔너리 형태로 빈도수가 나타납니다.전체 문서에서 워드클라우드 '조'가 136개, '법률'이 121개 나타났다는 의미입니다.2) 부을 용어 제거한글에서 조사, 관사, 접속사 등 의미를 전달하지 않는 불용어는 제거해 줍니다.불용어에 대한 설명위에서 만들어 놓은 nouns=mecab.nouns(text) 변수에 저장된 값 중에글자의 길이가 1글자를 넘어가는 (2글자 이상) 글자만 비어있는 result라는 리스트에 넣어줍니다. 3) 명사 형태소 빈도수 분석다시 counter( ) 함수를 통해 명사로만 이루어진 각각의 값의 빈도수를 구해줍니다. wordcloud 워드클라우드 시각화WordCloud는 텍스트 데이터에서 가장 빈번하게 등장하는 단어들을 시각화하여 보여주는 도구나 기법입니다. 이를 통해 텍스트 데이터의 중요한 주제나 특징적인 내용을 한눈에 파악할 수 있습니다.보통 WordCloud는 단어의 빈도수를 기준으로 생성됩니다. 빈도수가 높은 단어일수록 크고 눈에 잘 띄게 표시되며, 빈도수가 낮은 단어일수록 작고 가려지거나 희미하게 표시됩니다.1) wordcloud 설치wordcloud 라이브러리를 설치합니다.git hub에서 wordcloud에서 제공하는 함수 등을 검색2) 라이브러리 워드클라우드 importwordcloud를 통해 형태소들을 시각화하고, 이미지로 바로 저장할 수 있습니다.그러나 모니터상에 출력은 되지 않는데요, 만약 결과물을 바로 확인하고 싶은 경우 matplotlib.pyplot 을 가져와야 합니다.git hub에서 WordCloud 함수 import 하는 방법3) 한글 폰트 설치위 코드는 나눔 바른 고딕체 폰트입니다.폰트를 설치하고, 설치된 경로를 file_path라는 변수에 저장해 주세요.4) 형태소 시각화 : wordcloud( )이 외에도 여러 파라미터 있습니다.random_state를 지정하지 워드클라우드 않으면 실행할 때마다, 글씨의 위치가 바뀝니다.이렇게 이미지를 생성하고 저장은 했으나, 모니터 상에서는 출력 기능이 없다고 했죠?그래서 이때 plt.imshow( )라는 함수를 통해 모니터에 출력을 할 건데요.이 상태로 바로 출력을 하면 아래처럼 이미지에 축이 같이 보입니다.그래서 plt.axis('off')를 같이 설정해서 출력을 해주시면,깔끔하게 이미지만 출력해서 확인이 가능합니다.워드 클라우드 폰트 색상은 아래 링크에서 확인해서 수정하실 수 있습니다.#워드클라우드폰트색상 #워드클라우드글씨색상 color 워드클라우드 mab 확인Choosing Colormaps in Matplotlib — Matplotlib 3.8.3 documentationUsing Matplotlib Colors Choosing Colormaps in Matplotlib Choosing Colormaps in Matplotlib Matplotlib has a number of built-in colormaps accessible via matplotlib.colormaps . There are also external libraries that have many extra colormaps, which can be viewed in the Third-party colormaps section of ...matplotlib.org 5) 보충 : 워드클라우드 wordcloud.generate( )이 외에, 가지고 있는 text 파일을 바로 시각화할 수도 있기는 합니다.지금까지 워드 클라우드(WordCloud) : 텍스트 형태소 분석 및 시각화, 키워드 추출하는 방법에 대한 포스팅이었습니다.✔️ 본 포스팅은 멀티캠퍼스의 멀티잇(금융&마케팅 데이터분석)을 수강하며 작성하는 포스팅입니다.#워드클라우드 #위드클라우드#내일배움카드 #부트캠프 #국비지원교육 #코딩학원 #국민취업지원제도 #워드클라우드방법 #텍스트시각화 #태그시각화 #키워드추출 #키워드시각화 #wordcloud #형태소분석 #데이터시각화 #데이터분석 #자연어처리 #인포그래픽 #텍스트분석 #키워드분석
댓글목록
등록된 댓글이 없습니다.