CWN(CHANGE WITH NEWS) - 텍스트 마이닝으로 A+ 레포트 만들자!

  • 흐림동두천-14.4℃
  • 흐림흑산도-0.6℃
  • 맑음고흥-6.1℃
  • 흐림부안-6.8℃
  • 맑음청주-10.7℃
  • 흐림장흥-5.3℃
  • 맑음양산시-4.9℃
  • 눈서귀포0.9℃
  • 맑음거창-9.5℃
  • 흐림정읍-7.9℃
  • 흐림강진군-4.8℃
  • 흐림인제-13.9℃
  • 흐림장수-10.5℃
  • 맑음함양군-7.5℃
  • 흐림진도군-2.2℃
  • 맑음영천-8.1℃
  • 맑음순천-8.1℃
  • 흐림완도-3.5℃
  • 맑음추풍령-10.2℃
  • 맑음김해시-6.8℃
  • 맑음의령군-11.6℃
  • 구름조금대전-10.1℃
  • 맑음강화-12.1℃
  • 흐림백령도-8.2℃
  • 맑음대구-7.3℃
  • 맑음거제-4.9℃
  • 맑음양평-11.5℃
  • 맑음북춘천-15.9℃
  • 맑음부여-7.9℃
  • 맑음천안-11.4℃
  • 구름많음보성군-5.4℃
  • 흐림성산-0.3℃
  • 맑음남원-8.8℃
  • 맑음수원-12.1℃
  • 맑음경주시-7.8℃
  • 맑음서울-12.0℃
  • 맑음남해-5.6℃
  • 흐림원주-12.9℃
  • 맑음북부산-6.0℃
  • 맑음북창원-6.1℃
  • 맑음문경-11.0℃
  • 맑음서청주-12.3℃
  • 맑음춘천-14.7℃
  • 맑음인천-11.6℃
  • 맑음밀양-6.9℃
  • 맑음충주-12.1℃
  • 맑음창원-5.9℃
  • 맑음의성-8.7℃
  • 맑음여수-5.9℃
  • 맑음영덕-7.9℃
  • 맑음군산-8.1℃
  • 맑음보은-10.7℃
  • 맑음북강릉-9.8℃
  • 맑음강릉-8.8℃
  • 흐림서산-7.8℃
  • 맑음영월-12.3℃
  • 맑음임실-8.9℃
  • 맑음포항-6.9℃
  • 흐림태백-13.0℃
  • 맑음산청-7.7℃
  • 맑음세종-10.2℃
  • 맑음광주-7.0℃
  • 눈울릉도-4.1℃
  • 구름많음보령-7.5℃
  • 맑음울진-7.9℃
  • 흐림고창-7.5℃
  • 맑음상주-9.4℃
  • 흐림대관령-17.6℃
  • 맑음안동-10.2℃
  • 맑음부산-5.9℃
  • 맑음순창군-7.4℃
  • 맑음구미-8.3℃
  • 맑음합천-6.6℃
  • 맑음동해-7.0℃
  • 흐림이천-12.3℃
  • 맑음울산-6.8℃
  • 맑음제천-12.8℃
  • 흐림고창군-7.6℃
  • 흐림해남-4.2℃
  • 흐림영광군-7.5℃
  • 흐림고산0.9℃
  • 맑음파주-16.4℃
  • 맑음금산-9.2℃
  • 눈제주1.0℃
  • 눈목포-3.5℃
  • 맑음통영-5.4℃
  • 흐림철원-16.1℃
  • 흐림정선군-13.0℃
  • 맑음영주-11.1℃
  • 맑음봉화-12.0℃
  • 맑음전주-8.3℃
  • 맑음진주-6.6℃
  • 맑음속초-8.5℃
  • 구름많음홍성-9.5℃
  • 맑음광양시-6.2℃
  • 맑음청송군-10.6℃
  • 흐림홍천-12.5℃
  • 2026.01.22 (목)

텍스트 마이닝으로 A+ 레포트 만들자!

장다연 / 기사승인 : 2021-01-24 23:05:46
  • -
  • +
  • 인쇄

대학생이라면 매 학기 레포트에 시달릴지도 모른다. 과제로 레포트를 쓰다 보면, 수많은 자료들을 다뤄야 하는 경우가 있다. 텍스트 마이닝은 이 자료들을 일일이 읽어보지 않고도 키워드 추출이나 문서 재해석, 설문지 조사 요약 등을 가능하게 해준다. 그렇다면 텍스트 마이닝은 무엇일까?

텍스트 마이닝(Text Mining)을 직역하면 ‘문서 채굴’이다. 텍스트 마이닝은 텍스트 형태인 비정형 데이터들을 가지고 새로운 정보를 도출하는 과정을 말한다. 이때, 비정형 데이터를 가공한다는 점에서 데이터 마이닝과 차이가 있다.

데이터 마이닝(Data Mining)은 관계형의 정형화된 데이터로부터 정보를 얻는 것이다. 이외에도 텍스트 마이닝과 데이터 마이닝의 특징을 비교하자면, 텍스트 마이닝은 말 그대로 텍스트를 대상으로 삼는다. 그러나 데이터 마이닝은 수치나 범주화된 데이터를 대상으로 삼는다.

또한, 텍스트 마이닝의 목적은 획득한 정보의 의미를 정제하고 범주화하지만, 데이터 마이닝은 데이터 분석을 통해 미래 상황을 예측하는 데 목적을 둔다. 게다가 데이터 마이닝은 기계학습을 통해 데이터를 분석하지만, 텍스트 마이닝은 기계학습 외에도 언어처리, 인덱싱, 온톨로지 등의 방법을 거친다.

텍스트 마이닝은 데이터 마이닝과 달리 자연어 처리 기술과 문서 처리 기술이 필요하다. 이런 기법들을 사용하는 텍스트 마이닝은 어떤 과정을 거칠까?

텍스트 마이닝 결과를 워드 클라우드로 시각화
[https://juem.tistory.com/10]

먼저 데이터들을 준비하는 방법으로는 웹 크롤링, API 호출, 오프라인 수집 등이 있다. 다음으로 데이터 전처리 과정을 거친다. 데이터 전처리 과정에는 다른 표현의 단어이지만 의미가 같으면 통합하는 데이터 정규화 과정과 일정 특성에 따라 분류할 경우에는 데이터 분리 과정이 있다.

그다음으로 형태소를 분석해주는 토큰화 과정을 거치고, 이름은 특정 개체로 인식해주는 개체명 인식 과정을 거친다. 원형 복원 과정도 거쳐야 한다. 예를 들면, 같은 의미인 여러 표현을 모두 원형으로 바꿔준다. 이때 조사나 접미사 등 불용어는 제거해준다.

마지막으로 제거할 단어들을 모두 제거했는지, 필요한 단어들은 올바르게 추출했는지도 확인한다. 이렇게 데이터 전처리 과정이 끝났다면, 본격적으로 데이터 분석을 한다.

데이터 분석에는 문서 요약, 텍스트 생성, 키워드 추출, 군집화, 감성 분석, 단어 임베딩 등이 있다. 데이터 분석을 마치면 분석 결과를 한눈에 볼 수 있도록 시각화하는데, 시각화에는 히스토그램, 테이블, 워드 클라우드, 히트맵, 네트워크 다이어그램, 덴드로그램 등이 있다. 이 모든 과정을 마치면 마지막으로 분석한 결과를 비교 및 해석한다.

텍스트 마이닝에서 주의할 점은 무엇일까? 텍스트 마이닝 과정 중, 자연어 처리에서 감성 분석, 음성 인식 등에서 문제가 있을 수 있다. 텍스트 마이닝의 또 다른 문제점은 분석 결과 자체만으로는 어떤 성과가 나오지 않는다는 점이다.

텍스트 마이닝을 유용하게 활용하려면 이 텍스트 자료들을 통해 무엇을 얻고 싶은지를 미리 생각하고, 분류 및 군집화한 자료들에 대한 적합한 시각화는 무엇인지 등을 생각할 필요가 있다.

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue