CWN(CHANGE WITH NEWS) - 말뭉치(corpus) 연구의 활용

  • 맑음대전-5.3℃
  • 구름많음강화-0.5℃
  • 맑음고창군-5.3℃
  • 구름많음서울-0.7℃
  • 흐림남원-7.7℃
  • 맑음강릉4.0℃
  • 맑음부안-3.5℃
  • 맑음성산4.1℃
  • 맑음강진군-6.0℃
  • 맑음양산시-1.0℃
  • 구름많음인천0.8℃
  • 맑음북부산-6.1℃
  • 흐림의성-9.6℃
  • 맑음울진0.5℃
  • 맑음보은-8.1℃
  • 흐림대관령-2.4℃
  • 맑음포항0.2℃
  • 맑음장흥-7.9℃
  • 맑음남해-1.4℃
  • 맑음금산-7.9℃
  • 맑음거제-2.2℃
  • 맑음고창-6.3℃
  • 맑음안동-8.3℃
  • 구름조금제주5.3℃
  • 맑음추풍령-7.9℃
  • 구름조금북춘천-6.3℃
  • 맑음완도-2.1℃
  • 흐림영월-7.5℃
  • 맑음태백-5.8℃
  • 맑음부산0.9℃
  • 맑음밀양-6.8℃
  • 흐림거창-10.2℃
  • 비백령도8.6℃
  • 맑음충주-7.1℃
  • 흐림원주-5.0℃
  • 맑음영천-7.0℃
  • 맑음영덕0.2℃
  • 맑음통영-0.4℃
  • 맑음청송군-11.1℃
  • 맑음장수-9.5℃
  • 맑음창원-1.3℃
  • 맑음세종-5.2℃
  • 흐림천안-5.9℃
  • 맑음보성군-4.7℃
  • 맑음구미-6.3℃
  • 맑음전주-3.9℃
  • 구름많음목포-1.5℃
  • 맑음경주시-5.4℃
  • 흐림서산2.8℃
  • 맑음인제-5.5℃
  • 흐림홍천-4.5℃
  • 맑음속초5.9℃
  • 맑음울산-0.8℃
  • 흐림양평-3.5℃
  • 맑음해남-7.0℃
  • 맑음북창원-2.2℃
  • 맑음영주-8.6℃
  • 맑음상주-4.0℃
  • 흐림함양군-9.1℃
  • 맑음동해1.4℃
  • 흐림임실-8.1℃
  • 흐림의령군-9.3℃
  • 맑음순천-8.5℃
  • 맑음고산6.0℃
  • 맑음광양시-2.6℃
  • 맑음울릉도4.1℃
  • 흐림이천-6.0℃
  • 맑음정읍-5.3℃
  • 맑음영광군-5.5℃
  • 맑음순창군-7.2℃
  • 흐림서청주-6.0℃
  • 구름많음청주-3.5℃
  • 맑음북강릉1.7℃
  • 맑음산청-8.2℃
  • 구름많음흑산도4.8℃
  • 구름많음파주-5.0℃
  • 흐림동두천-3.3℃
  • 흐림제천-6.8℃
  • 맑음진주-7.3℃
  • 맑음대구-4.1℃
  • 흐림군산-4.0℃
  • 흐림홍성0.2℃
  • 맑음김해시-2.0℃
  • 흐림정선군-10.1℃
  • 맑음서귀포5.6℃
  • 맑음춘천-5.1℃
  • 맑음광주-3.0℃
  • 맑음고흥-7.6℃
  • 맑음진도군-3.5℃
  • 맑음문경-6.1℃
  • 흐림부여-5.0℃
  • 구름많음보령3.1℃
  • 맑음철원-8.0℃
  • 구름많음수원-2.8℃
  • 맑음여수-0.2℃
  • 맑음합천-7.4℃
  • 맑음봉화-11.3℃
  • 2025.12.06 (토)

말뭉치(corpus) 연구의 활용

이수린 / 기사승인 : 2021-03-20 20:32:34
  • -
  • +
  • 인쇄

인공지능 변호사 로스(Ross), 챗봇 엘리자(ELIZA), 구글 번역기. 모두 우리가 모두 한 번 쯤 들어보거나 사용해본 인공지능(AI)이다. 모두 ‘말뭉치 언어학’을 활용한다는 공통점이 있다.

말뭉치란 사람들이 실제로 사용하는 언어 사례를 모아 놓은 자료를 말한다. 말뭉치를 분석하여 언어가 실제로 어떤 양상으로 사용되는지, 사람들의 인식 속에 언어가 어떻게 저장되어 있는지 탐구할 수 있다. 말뭉치 언어학이 AI 개발에도 활용되면서 말뭉치 언어학에 대한 관심이 높아지고 있다.

대표적으로 말뭉치 언어학을 활용하여 만드는 AI 챗봇은 사람들과 대화를 하면 할수록 그 대화 속의 패턴을 찾아내어 해당 패턴에는 어떤 대답을 내놓을지 결정한다. 대화를 많이 하면 할수록 대화 패턴에 대한 정보가 많아지고, 챗봇은 더 다양한 대답을 내놓을 수 있게 된다.

[ELIZA가 패턴을 찾아내는 코드의 예시]

말뭉치 언어학은 일반 언어 데이터와는 달리 사람이 실제로 사용하는 언어를 분석한다는 점에서 일상에서 사람들과 대화하는 AI 연구에 적합하다.

예를 들어, ‘몇 시?’라는 한국어 문장은 주어와 목적어 등 문장을 이루는 구조가 다 생략되어 있고 대화 상황에 따라 단순 물음/불쾌감 표시 등 의미가 달라질 수 있다. 단순히 문법적인 언어만 모아둔 데이터에는 없지만, 말뭉치 데이터는 문법적 언어와 상황 분석 데이터를 지니고 있다. 따라서 AI는 말이 사용되는 상황도 함께 학습할 수 있게 도와준다.

특히, 말뭉치 언어학은 사투리가 심하거나 어순이 자유로운 언어일수록 빛을 발한다. 이렇듯 앞으로 말뭉치 언어학이 AI 개발 분야에서 얼마나 큰 역할을 하게 될지 관심이 쏠리고 있다.

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue