CWN(CHANGE WITH NEWS) - 한국어 정보 처리의 어려움...한글은 왜 맨날 깨지나요?

  • 구름많음청주27.8℃
  • 구름많음금산24.0℃
  • 맑음울진23.4℃
  • 맑음철원23.0℃
  • 구름많음함양군22.1℃
  • 맑음영월22.5℃
  • 구름많음서산24.9℃
  • 구름많음진주23.8℃
  • 구름많음홍성24.0℃
  • 구름많음전주26.5℃
  • 흐림제주27.0℃
  • 구름많음상주23.8℃
  • 구름많음수원25.0℃
  • 구름조금북부산25.0℃
  • 구름많음진도군23.6℃
  • 구름많음광주26.1℃
  • 맑음충주22.7℃
  • 구름많음고흥25.7℃
  • 구름많음대전25.8℃
  • 구름많음광양시25.5℃
  • 구름많음구미25.2℃
  • 구름조금영덕21.7℃
  • 구름많음서울27.5℃
  • 구름조금문경20.5℃
  • 구름많음추풍령23.3℃
  • 맑음북춘천25.6℃
  • 구름조금북강릉23.4℃
  • 구름많음파주21.2℃
  • 구름많음해남24.1℃
  • 구름많음창원25.4℃
  • 구름많음서청주25.2℃
  • 구름많음보성군25.0℃
  • 맑음정선군20.1℃
  • 구름많음완도24.2℃
  • 구름많음강진군25.3℃
  • 구름많음거창23.0℃
  • 구름많음보은22.2℃
  • 맑음태백18.9℃
  • 구름조금강화21.7℃
  • 구름조금양산시25.0℃
  • 구름많음목포26.3℃
  • 구름조금밀양25.2℃
  • 구름많음북창원25.2℃
  • 구름많음의성22.0℃
  • 구름많음순천22.1℃
  • 구름많음남해24.9℃
  • 구름많음부안26.7℃
  • 구름많음인천27.3℃
  • 구름많음산청22.8℃
  • 구름조금김해시24.1℃
  • 맑음대관령17.7℃
  • 구름많음남원24.8℃
  • 맑음인제20.4℃
  • 구름조금안동24.3℃
  • 구름많음통영25.4℃
  • 구름많음대구23.3℃
  • 구름조금봉화18.8℃
  • 구름조금양평23.9℃
  • 구름조금춘천24.2℃
  • 맑음제천19.9℃
  • 흐림영광군25.7℃
  • 맑음동해24.0℃
  • 구름조금영주18.6℃
  • 구름많음정읍25.9℃
  • 구름많음서귀포27.2℃
  • 구름조금강릉24.6℃
  • 구름많음고산26.8℃
  • 구름많음경주시23.5℃
  • 맑음이천22.7℃
  • 흐림성산27.5℃
  • 구름많음고창군26.7℃
  • 구름많음군산27.1℃
  • 맑음속초22.7℃
  • 구름많음거제25.1℃
  • 맑음울릉도23.2℃
  • 구름많음임실24.6℃
  • 구름조금청송군21.8℃
  • 구름많음부여25.2℃
  • 구름조금울산23.4℃
  • 구름조금홍천24.1℃
  • 구름많음장흥24.1℃
  • 구름많음순창군25.4℃
  • 구름많음세종24.4℃
  • 맑음원주25.9℃
  • 구름많음백령도21.5℃
  • 구름많음의령군22.0℃
  • 구름많음여수26.4℃
  • 구름조금천안23.0℃
  • 구름조금포항24.2℃
  • 구름많음동두천23.0℃
  • 구름조금부산25.1℃
  • 흐림흑산도24.4℃
  • 흐림고창25.3℃
  • 구름많음합천22.3℃
  • 구름많음보령25.0℃
  • 구름많음장수22.1℃
  • 구름많음영천21.7℃
  • 2025.09.11 (목)

한국어 정보 처리의 어려움...한글은 왜 맨날 깨지나요?

이수린 / 기사승인 : 2021-04-04 15:54:23
  • -
  • +
  • 인쇄

언어 데이터를 이용하여 각종 분야의 인공지능(AI)과 알고리즘을 개발하는 일이 늘어나 자연어 처리 기술이 중요한 문제로 인식되기 시작한 지는 꽤 오래된 이야기다. 그런데 한국어 데이터를 한번이라도 다뤄본 사람이라면 프로그램 상에서 한글이 ‘깨져서’ 보이는 사례를 많이 보았을 것이다. 왜 한국어는 영어와 달리 컴퓨터 언어로 다루기 어려운 것일까?

한번쯤은 '한글이 자음과 모음의 조화로 이루어져 자판으로 구성하기 쉽다', '디지털 환경에 최적화된 글자이다', 라는 말을 들어봤을 것이다. 그런데 아이러니하게도 이러한 점 때문에 한국어 정보 처리가 어려워진다. 한국어는 영어와 달리 한 글자로 인식하는 음절마다 정보의 길이가 다르다.

가령 영어 화자는 알파벳 한 개를 모두 동일하게 ‘한 글자’로 인식하지만, 한국어 화자는 자음 한 개와 모음 한 개로 이루어진 ‘가’나 자음 두 개와 모음 한 개로 이루어진 ‘황’이나 모두 한 글자로 인식해야 한다. 그래서 글자 당 일정한 바이트(byte)를 할당하기 어려운 문제가 있다.

이 때문에 처음에 한글 코드를 구현할 때 N 바이트 방식, 3 바이트 방식, 2 바이트 조합형 방식, 2 바이트 완성형 방식 등 다양한 코드 구현 방식이 시도되었고 아직까지도 하나의 방식으로 완전히 통일되지 않은 상태이다. 이런 이유로 작업 환경이 달라지면 한글이 자주 깨지는 현상이 발생하는 것이다.

[https://m.blog.naver.com/bada744/221811726757 <네이버 블로그>]
한글 깨짐 현상 예시

한국어 정보 처리의 어려움은 한글이라는 표기 방식에만 기인한 것은 아니다. 한국어 문장은 형태소 단위 구별이 매우 어렵다. ‘살다’, ‘산다’, ‘살았다’ 등 실질적인 의미를 나타내는 부분과 문법적인 의미를 나타내는 부분이 무한한 가능성으로 결합할 수 있고 그 구분도 명확하지 않다. 심지어 문법적인 역할을 하는 ‘조사’는 재량대로 생략될 수 있어, 단어의 역할을 알기 위해 문장 전체 혹은 상황 전체를 분석해야 하는 때도 많다.

이 외에도 인사말이 ‘Hi’’와 ‘Bye’로 명확히 구분되는 영어와 달리 한국어의 ‘안녕’은 표기 정보 외의 여러 가지 정보를 종합해야 의미를 파악할 수 있는 등 다양한 어려움이 존재한다. 이러한 이유로 인해 한국어 정보 처리에 대한 연구가 지속적으로 이루어지는 중이다.

국내에서 이루어지고 있는 연구 중에는 학술 대회 형식이 많은데, 대표적으로 언어공학연구회에서 주최하는 ‘한글 및 한국어 정보처리 학술대회(HCLT)’ 가 있다. 이 대회는 다양한 분야의 사람들이 한국어 정보 처리를 연구하여 논문을 발표하는 형식으로 진행된다. 이 외에도 2018-2019년에 진행된 “네이버, 창원대가 함께하는 NLP 챌린지(NLP Challenge)” 등 모두에게 열려 있는 한국어 정보 처리 학술 대회가 꾸준히 개최하며 한국어 정보 처리 연구가 활발히 진행 중이다.

[언어공학연구회 <한글 및 한국어 정보처리 학술대회>]

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue