CWN(CHANGE WITH NEWS) - 한국어 정보 처리의 어려움...한글은 왜 맨날 깨지나요?

  • 구름많음순창군20.0℃
  • 맑음고창군19.8℃
  • 구름조금고흥21.5℃
  • 맑음군산19.7℃
  • 흐림영월16.9℃
  • 구름많음청송군18.8℃
  • 맑음강진군21.7℃
  • 구름조금정선군14.6℃
  • 구름많음부산23.1℃
  • 맑음수원18.6℃
  • 구름조금충주18.6℃
  • 비서귀포25.3℃
  • 비포항20.3℃
  • 흐림진도군21.3℃
  • 흐림보은19.4℃
  • 흐림안동19.1℃
  • 맑음서산18.7℃
  • 맑음북춘천15.5℃
  • 흐림추풍령18.6℃
  • 흐림남원20.0℃
  • 맑음부여20.0℃
  • 맑음세종20.2℃
  • 구름많음고산23.7℃
  • 흐림제주25.0℃
  • 흐림울진19.9℃
  • 맑음대관령9.8℃
  • 흐림거창19.2℃
  • 흐림대구20.1℃
  • 맑음인천20.0℃
  • 구름많음장흥21.9℃
  • 맑음백령도20.7℃
  • 구름많음금산20.1℃
  • 흐림광주20.4℃
  • 구름조금흑산도23.4℃
  • 흐림영주18.8℃
  • 구름많음여수21.7℃
  • 구름많음의령군19.7℃
  • 흐림청주20.2℃
  • 맑음서울18.5℃
  • 구름조금보성군21.9℃
  • 흐림영천19.7℃
  • 구름많음통영21.5℃
  • 흐림태백16.2℃
  • 흐림경주시20.3℃
  • 흐림함양군19.6℃
  • 흐림목포21.0℃
  • 흐림문경19.4℃
  • 맑음파주16.2℃
  • 흐림동해22.0℃
  • 비울릉도19.1℃
  • 맑음강화17.8℃
  • 흐림산청19.4℃
  • 구름많음김해시21.1℃
  • 구름많음양산시22.8℃
  • 구름조금밀양21.4℃
  • 맑음북강릉20.6℃
  • 구름많음광양시21.2℃
  • 맑음영광군20.4℃
  • 구름조금보령19.8℃
  • 박무홍성18.8℃
  • 흐림북부산22.2℃
  • 흐림서청주19.0℃
  • 흐림순천
  • 구름많음남해21.0℃
  • 맑음춘천15.8℃
  • 구름많음합천20.6℃
  • 구름조금제천16.0℃
  • 구름조금완도22.2℃
  • 흐림영덕19.2℃
  • 맑음인제11.9℃
  • 구름조금부안19.4℃
  • 맑음동두천16.0℃
  • 맑음속초18.6℃
  • 구름많음북창원21.9℃
  • 맑음이천18.1℃
  • 구름조금강릉20.3℃
  • 구름많음의성19.6℃
  • 흐림창원21.3℃
  • 맑음전주20.0℃
  • 구름많음거제21.7℃
  • 구름많음구미19.8℃
  • 맑음홍천16.0℃
  • 흐림성산24.2℃
  • 맑음정읍19.9℃
  • 맑음천안17.3℃
  • 맑음양평18.8℃
  • 흐림봉화17.7℃
  • 흐림임실19.7℃
  • 맑음철원14.3℃
  • 구름조금진주20.7℃
  • 맑음해남21.2℃
  • 흐림장수18.5℃
  • 맑음원주17.9℃
  • 박무울산20.3℃
  • 흐림상주19.2℃
  • 맑음고창20.2℃
  • 구름많음대전20.8℃
  • 2025.09.10 (수)

한국어 정보 처리의 어려움...한글은 왜 맨날 깨지나요?

이수린 / 기사승인 : 2021-04-04 15:54:23
  • -
  • +
  • 인쇄

언어 데이터를 이용하여 각종 분야의 인공지능(AI)과 알고리즘을 개발하는 일이 늘어나 자연어 처리 기술이 중요한 문제로 인식되기 시작한 지는 꽤 오래된 이야기다. 그런데 한국어 데이터를 한번이라도 다뤄본 사람이라면 프로그램 상에서 한글이 ‘깨져서’ 보이는 사례를 많이 보았을 것이다. 왜 한국어는 영어와 달리 컴퓨터 언어로 다루기 어려운 것일까?

한번쯤은 '한글이 자음과 모음의 조화로 이루어져 자판으로 구성하기 쉽다', '디지털 환경에 최적화된 글자이다', 라는 말을 들어봤을 것이다. 그런데 아이러니하게도 이러한 점 때문에 한국어 정보 처리가 어려워진다. 한국어는 영어와 달리 한 글자로 인식하는 음절마다 정보의 길이가 다르다.

가령 영어 화자는 알파벳 한 개를 모두 동일하게 ‘한 글자’로 인식하지만, 한국어 화자는 자음 한 개와 모음 한 개로 이루어진 ‘가’나 자음 두 개와 모음 한 개로 이루어진 ‘황’이나 모두 한 글자로 인식해야 한다. 그래서 글자 당 일정한 바이트(byte)를 할당하기 어려운 문제가 있다.

이 때문에 처음에 한글 코드를 구현할 때 N 바이트 방식, 3 바이트 방식, 2 바이트 조합형 방식, 2 바이트 완성형 방식 등 다양한 코드 구현 방식이 시도되었고 아직까지도 하나의 방식으로 완전히 통일되지 않은 상태이다. 이런 이유로 작업 환경이 달라지면 한글이 자주 깨지는 현상이 발생하는 것이다.

[https://m.blog.naver.com/bada744/221811726757 <네이버 블로그>]
한글 깨짐 현상 예시

한국어 정보 처리의 어려움은 한글이라는 표기 방식에만 기인한 것은 아니다. 한국어 문장은 형태소 단위 구별이 매우 어렵다. ‘살다’, ‘산다’, ‘살았다’ 등 실질적인 의미를 나타내는 부분과 문법적인 의미를 나타내는 부분이 무한한 가능성으로 결합할 수 있고 그 구분도 명확하지 않다. 심지어 문법적인 역할을 하는 ‘조사’는 재량대로 생략될 수 있어, 단어의 역할을 알기 위해 문장 전체 혹은 상황 전체를 분석해야 하는 때도 많다.

이 외에도 인사말이 ‘Hi’’와 ‘Bye’로 명확히 구분되는 영어와 달리 한국어의 ‘안녕’은 표기 정보 외의 여러 가지 정보를 종합해야 의미를 파악할 수 있는 등 다양한 어려움이 존재한다. 이러한 이유로 인해 한국어 정보 처리에 대한 연구가 지속적으로 이루어지는 중이다.

국내에서 이루어지고 있는 연구 중에는 학술 대회 형식이 많은데, 대표적으로 언어공학연구회에서 주최하는 ‘한글 및 한국어 정보처리 학술대회(HCLT)’ 가 있다. 이 대회는 다양한 분야의 사람들이 한국어 정보 처리를 연구하여 논문을 발표하는 형식으로 진행된다. 이 외에도 2018-2019년에 진행된 “네이버, 창원대가 함께하는 NLP 챌린지(NLP Challenge)” 등 모두에게 열려 있는 한국어 정보 처리 학술 대회가 꾸준히 개최하며 한국어 정보 처리 연구가 활발히 진행 중이다.

[언어공학연구회 <한글 및 한국어 정보처리 학술대회>]

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue