CWN(CHANGE WITH NEWS) - 말뭉치(corpus) 연구의 활용

  • 흐림남해24.9℃
  • 흐림홍천23.6℃
  • 흐림태백20.6℃
  • 흐림대구26.3℃
  • 흐림영덕23.6℃
  • 흐림경주시25.2℃
  • 흐림함양군24.3℃
  • 흐림의성25.9℃
  • 흐림부여25.5℃
  • 구름조금제주32.8℃
  • 흐림고창26.4℃
  • 흐림진도군27.9℃
  • 흐림서울25.7℃
  • 흐림합천25.8℃
  • 흐림해남28.9℃
  • 흐림추풍령23.0℃
  • 흐림북창원27.0℃
  • 흐림금산25.2℃
  • 흐림원주24.0℃
  • 흐림밀양28.4℃
  • 흐림영천25.7℃
  • 흐림상주24.2℃
  • 구름많음철원26.0℃
  • 구름많음동두천26.6℃
  • 구름많음인제25.3℃
  • 흐림광주25.6℃
  • 흐림장흥27.6℃
  • 흐림여수24.8℃
  • 흐림완도27.8℃
  • 흐림임실25.7℃
  • 흐림정선군25.0℃
  • 흐림군산24.5℃
  • 흐림보령25.8℃
  • 흐림북강릉25.5℃
  • 흐림전주26.7℃
  • 흐림파주26.2℃
  • 흐림진주25.1℃
  • 구름많음춘천24.6℃
  • 흐림울산25.2℃
  • 흐림제천23.6℃
  • 구름많음고산30.2℃
  • 흐림광양시25.7℃
  • 구름많음거제27.7℃
  • 흐림서청주23.8℃
  • 흐림대관령20.9℃
  • 흐림울릉도24.6℃
  • 흐림순창군25.4℃
  • 흐림김해시27.6℃
  • 흐림울진25.7℃
  • 흐림천안23.9℃
  • 흐림부안24.7℃
  • 흐림영주25.4℃
  • 흐림거창25.9℃
  • 흐림정읍26.8℃
  • 흐림문경24.5℃
  • 흐림보은24.9℃
  • 흐림구미25.2℃
  • 흐림장수24.8℃
  • 흐림산청23.6℃
  • 흐림고흥27.7℃
  • 흐림포항24.5℃
  • 흐림의령군24.8℃
  • 흐림통영27.3℃
  • 흐림창원26.8℃
  • 흐림홍성25.0℃
  • 흐림청주25.7℃
  • 흐림남원25.0℃
  • 구름많음북춘천25.3℃
  • 흐림서산25.1℃
  • 구름많음강진군27.4℃
  • 흐림봉화24.8℃
  • 구름많음서귀포30.4℃
  • 흐림양산시28.6℃
  • 흐림인천25.6℃
  • 흐림영월25.2℃
  • 흐림양평24.4℃
  • 흐림고창군25.4℃
  • 흐림청송군23.9℃
  • 구름많음성산30.7℃
  • 흐림동해26.5℃
  • 흐림강화25.7℃
  • 흐림충주25.0℃
  • 구름많음속초26.7℃
  • 구름많음강릉27.3℃
  • 흐림수원24.6℃
  • 흐림대전26.0℃
  • 흐림안동25.3℃
  • 구름많음백령도25.0℃
  • 흐림목포26.3℃
  • 흐림흑산도25.5℃
  • 구름많음부산28.1℃
  • 흐림보성군27.4℃
  • 흐림영광군26.1℃
  • 흐림북부산27.8℃
  • 흐림세종25.6℃
  • 흐림순천25.2℃
  • 흐림이천23.3℃
  • 2025.09.12 (금)

말뭉치(corpus) 연구의 활용

이수린 / 기사승인 : 2021-03-20 20:32:34
  • -
  • +
  • 인쇄

인공지능 변호사 로스(Ross), 챗봇 엘리자(ELIZA), 구글 번역기. 모두 우리가 모두 한 번 쯤 들어보거나 사용해본 인공지능(AI)이다. 모두 ‘말뭉치 언어학’을 활용한다는 공통점이 있다.

말뭉치란 사람들이 실제로 사용하는 언어 사례를 모아 놓은 자료를 말한다. 말뭉치를 분석하여 언어가 실제로 어떤 양상으로 사용되는지, 사람들의 인식 속에 언어가 어떻게 저장되어 있는지 탐구할 수 있다. 말뭉치 언어학이 AI 개발에도 활용되면서 말뭉치 언어학에 대한 관심이 높아지고 있다.

대표적으로 말뭉치 언어학을 활용하여 만드는 AI 챗봇은 사람들과 대화를 하면 할수록 그 대화 속의 패턴을 찾아내어 해당 패턴에는 어떤 대답을 내놓을지 결정한다. 대화를 많이 하면 할수록 대화 패턴에 대한 정보가 많아지고, 챗봇은 더 다양한 대답을 내놓을 수 있게 된다.

[ELIZA가 패턴을 찾아내는 코드의 예시]

말뭉치 언어학은 일반 언어 데이터와는 달리 사람이 실제로 사용하는 언어를 분석한다는 점에서 일상에서 사람들과 대화하는 AI 연구에 적합하다.

예를 들어, ‘몇 시?’라는 한국어 문장은 주어와 목적어 등 문장을 이루는 구조가 다 생략되어 있고 대화 상황에 따라 단순 물음/불쾌감 표시 등 의미가 달라질 수 있다. 단순히 문법적인 언어만 모아둔 데이터에는 없지만, 말뭉치 데이터는 문법적 언어와 상황 분석 데이터를 지니고 있다. 따라서 AI는 말이 사용되는 상황도 함께 학습할 수 있게 도와준다.

특히, 말뭉치 언어학은 사투리가 심하거나 어순이 자유로운 언어일수록 빛을 발한다. 이렇듯 앞으로 말뭉치 언어학이 AI 개발 분야에서 얼마나 큰 역할을 하게 될지 관심이 쏠리고 있다.

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue