CWN(CHANGE WITH NEWS) - 빅데이터를 이해하기 위해 알아야 할 3가지 정보

  • 구름조금천안2.8℃
  • 구름조금양평1.7℃
  • 맑음합천3.6℃
  • 맑음강진군6.4℃
  • 흐림인제0.4℃
  • 흐림인천3.7℃
  • 구름많음보령8.7℃
  • 맑음부안6.9℃
  • 맑음울산6.3℃
  • 맑음대전4.4℃
  • 맑음문경2.0℃
  • 맑음구미2.2℃
  • 맑음보은0.3℃
  • 맑음경주시7.3℃
  • 구름많음태백1.8℃
  • 맑음영광군5.4℃
  • 맑음창원5.8℃
  • 맑음동해8.3℃
  • 맑음광양시5.4℃
  • 맑음북창원5.6℃
  • 맑음목포6.9℃
  • 흐림동두천2.7℃
  • 구름조금원주0.2℃
  • 맑음제주12.4℃
  • 맑음충주0.8℃
  • 맑음추풍령4.8℃
  • 흐림철원1.6℃
  • 맑음산청0.9℃
  • 맑음장흥6.1℃
  • 맑음남해3.6℃
  • 맑음봉화0.8℃
  • 맑음포항6.3℃
  • 맑음서귀포12.7℃
  • 맑음상주4.1℃
  • 구름조금홍천0.4℃
  • 맑음영천4.2℃
  • 맑음청주3.6℃
  • 맑음통영7.6℃
  • 구름많음백령도10.1℃
  • 맑음완도8.1℃
  • 맑음남원1.2℃
  • 구름조금이천1.2℃
  • 맑음고흥7.4℃
  • 맑음의성3.5℃
  • 맑음서청주2.6℃
  • 구름많음서산6.7℃
  • 맑음거창0.9℃
  • 구름조금정선군0.1℃
  • 맑음안동1.0℃
  • 맑음함양군1.4℃
  • 맑음김해시4.5℃
  • 맑음성산11.4℃
  • 구름많음대관령0.8℃
  • 맑음영덕5.9℃
  • 맑음보성군6.2℃
  • 맑음밀양3.1℃
  • 맑음대구4.8℃
  • 맑음임실3.2℃
  • 맑음양산시4.9℃
  • 구름많음북춘천0.4℃
  • 맑음북강릉8.1℃
  • 맑음정읍6.9℃
  • 흐림서울2.5℃
  • 흐림수원2.7℃
  • 맑음부산7.0℃
  • 흐림강화3.5℃
  • 맑음제천0.3℃
  • 맑음울릉도9.6℃
  • 맑음거제6.3℃
  • 맑음고창6.9℃
  • 맑음장수1.7℃
  • 맑음부여2.8℃
  • 맑음고산12.3℃
  • 맑음울진9.5℃
  • 맑음전주7.5℃
  • 맑음강릉8.3℃
  • 맑음영주-0.1℃
  • 맑음진도군7.6℃
  • 흐림파주1.0℃
  • 구름조금춘천0.7℃
  • 맑음북부산6.5℃
  • 구름조금흑산도12.5℃
  • 맑음진주3.6℃
  • 맑음고창군7.4℃
  • 맑음군산5.5℃
  • 맑음금산3.0℃
  • 맑음순천6.4℃
  • 맑음광주4.1℃
  • 구름많음홍성5.6℃
  • 맑음여수5.8℃
  • 구름조금속초9.0℃
  • 맑음의령군1.3℃
  • 맑음순창군0.7℃
  • 맑음세종2.9℃
  • 맑음해남8.5℃
  • 맑음청송군3.4℃
  • 맑음영월-0.2℃
  • 2025.12.06 (토)

빅데이터를 이해하기 위해 알아야 할 3가지 정보

김수연 / 기사승인 : 2021-02-19 15:11:49
  • -
  • +
  • 인쇄

3가지 정보로 빅데이터 이해하기
- 3요소 : 빅데이터와 관련된 3가지 정보들에 대해 소개하고자 합니다.

빅데이터의 속성?
요즘에는 빅데이터의 중요성이 커짐에 따라 그만큼 이제는 대중적으로 많이 알려진 개념이기도 한 빅데이터! 오늘은 빅데이터의 속성을 설명하려고 합니다.

빅데이터란 아시다시피, 데이터의 생성 양·주기·형식 등이 기존 데이터보다 너무 크기 때문에, 종래의 방법으로는 수집·저장·검색·분석이 어려운 방대한 데이터를 말합니다.

위키피디아에서는 “기존 데이터베이스 관리 도구의 데이터 수집, 저장, 관리, 분석의 역량을 넘어서는 대량의 정형 또는 비정형 데이터 세트 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술”로 정의하고 있어요.

이런 빅데이터의 특징, 혹은 속성으로 불리는 대표적인 3V로는 초대용량의 데이터양(volume), 다양한 형태(variety), 빠른 생성 속도(velocity)라는 뜻을 가지고 있으며, 네 번째 특징으로 가치(value)를 더해 4V라고 정의하기도 합니다.

빅데이터에서 가치가 중요 특징으로 등장한 것은 엄청난 규모뿐만 아니라 빅데이터의 대부분이 비정형적인 텍스트와 이미지 등으로 이루어져 있고, 이러한 데이터들은 시간이 지나면서 매우 빠르게 전파하며 변하기 때문인데요. 전체를 파악하고 일정한 패턴을 발견하기가 어렵게 되면서, 가치 창출의 중요성이 강조되고 있습니다.

더 나아가 정확성(veracity)이 추가돼, 5V로 표현하기도 하는데요, 빅데이터의 무궁무진함이 다양한 정의를 만들어내는 것 같습니다.

이러한 빅데이터의 종류를 분류한다면?

사람마다 빅데이터를 분류하는 기준은 다 다를 수 있겠지만 빅데이터를 구성하는 데이터의 형태에 따라서 정형, 비정형, 반정형데이터로 분류할 수 있습니다.

- 정형데이터(Structured data/formal data)
즉시 통계적 분석에 사용될 수 있을 만한 형태로 정리되고 가공된 데이터

고정된 필드에 저장된 데이터(관계형 데이터베이스, 스프레드시트 등)

정형 데이터는 보통 데이터베이스의 정해진 규칙에 맞게 데이터를 들어간 데이터 중에 수치 만으로 의미 파악이 쉬운 데이터들을 말합니다. 표를 그려 넣고 채워 넣는 형식의 데이터로 이름, 나이, 주민등록번호, 카드번호 등 주로 숫자와 짧은 단어로 구성된 데이터입니다.

- 반정형데이터(semi-structured data)
파일 형태, 메타데이터(데이터 내부에 정형 데이터의 스키마)

반정형 데이터의 반은 Semi를 의미하는 것인데요. 즉, 완전한 정형이 아니라 약한 정형 데이터라는 뜻을 담고 있습니다. 그렇기 때문에, 고정된 양식은 없으나 어느 정도 구조가 정해져 있는 데이터로, 반정형 데이터의 종류로는 로그 데이터, HTML, XML 등이 있습니다.

- 비정형데이터(Unstructured data)
데이터 세트가 아닌 하나의 데이터가 수집 데이터로 객체화

언어 분석이 가능한 텍스트 데이터, 멀티미디어 데이터 - 동영상, 이미지, 텍스트 등

비정형 데이터는 정형 데이터와 반대되는 단어로, 정해진 규칙이 없어서 값의 의미를 쉽게 파악하기 힘든 경우 비정형 데이터로 불립니다. 통제가 힘들거나 불가능한 데이터이기도 하며, 비정형 데이터는 글이나 이미지, 동영상, 음성과 같이 멀티미디어 데이터가 대표적입니다.

최근 이러한 비정형 데이터인 스마트폰과 CCTV, 블랙박스, 드론, 인공위성, 디지털카메라 등에서 수집되는 영상 데이터의 양이 엄청나게 증가했습니다.

그리고 이러한 빅데이터의 85%가량은 형태가 정해지지 않은 비정형 데이터라고 합니다. 또한 최근에는 비정형 데이터의 수가 훨씬 많아지고 있습니다.

빅데이터와 관련된 기술은?

빅데이터의 저장기술
기존의 데이터의 범위를 넘어서는 다양하고 많은 양의 빅데이터를 저장하고 관리하는 기술은 필수적인데요. 이러한 저장기술에는 대표적으로 하둡(Hadoop)과 NoSQL(Not Only SQL)이 있습니다. 특히, 두 기술은 비정형 데이터를 관리하는 데 뛰어난 평가를 받고 있다는 공통점이 있습니다.

하둡은 대용량 데이터를 분산 처리할 수 있는 자바 기반의 오픈 소스 프레임워크이며, NoSQL은 기존 관계 데이터베이스의 일관성이라는 특징보다는 가용성과 확장성에 중점을 둔 데이터베이스 시스템입니다.

비정형 데이터의 저장을 위해 유연한 데이터 모델 지원과 더 저렴한 비용으로 분산 처리와 병렬 처리가 가능하다는 특징을 갖고 있습니다.

빅데이터의 분석기술
비정형 데이터, 반정형 데이터가 정형 데이터보다 상대적으로 많이 증가하고 있는 추세이므로 이를 정확하게 분석하기 위한 기술이 크게 주목받고 있습니다. 통계학, 전산학 분야에서 쓰이는텍스트 마이닝(text mining), 기계 학습, 패턴 인식, 자연어 처리 등의 기술이 빅데이터의 분석기술에 해당합니다.

분석기술의 3가지만 간단히 소개해 드리자면 텍스트 마이닝과 오피니언 마이닝(opinion mining), 소셜 네트워크 분석(social network analysis)이 있는데요.

텍스트 마이닝은 반정형 또는 비정형 텍스트에서 자연어 처리 기술을 기반해 가치 있는 정보를 추출하고 가공하는 기술이며, 오피니언 마이닝은 SNS, 블로그 게시글 등에 기록되어있는 사용자들의 의견을 수집하여 제품이나 서비스에 대한 감성(긍정, 부정, 중립 등)을 파악하거나 유용한 정보로 재가공하는 기술입니다.

소셜 네트워크 분석은 소셜 네트워크상에서의 영향력인 사람이나 데이터 등 객체 간의 관계나 관계의 특성을 분석하고 시각화하는 측정 기법입니다. 빅데이터 이외에도 범죄 수사나, 조직 분석, 제약 연구 등 여러 분야에서 응용되는 기술이라고 해요.

이렇게 빅데이터의 3요소, 3종류, 관련 기술 3가지를 알아보았습니다. 빅데이터를 이해하는 데 조금이나마 도움이 되셨길 바라면서 이상 빅데이터의 정보와 소개를 마치겠습니다.

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue