CWN(CHANGE WITH NEWS) - 데이터 과학 분야에서 이루어지는 질문과 답변 5종...어떤 알고리즘 사용할까?

  • 구름많음흑산도-0.5℃
  • 구름많음파주-11.7℃
  • 흐림고산1.8℃
  • 구름조금서울-10.1℃
  • 구름조금울진1.2℃
  • 구름많음밀양-2.1℃
  • 구름많음고창군-6.0℃
  • 구름많음보성군-1.9℃
  • 구름조금창원-1.4℃
  • 구름많음청주-7.5℃
  • 구름많음북강릉-2.9℃
  • 구름많음태백-5.0℃
  • 흐림진주0.0℃
  • 구름많음대전-6.9℃
  • 구름많음경주시-2.6℃
  • 구름많음양산시0.6℃
  • 구름많음김해시-1.6℃
  • 맑음홍천-9.9℃
  • 구름많음완도-2.0℃
  • 구름많음정읍-6.5℃
  • 맑음인천-10.7℃
  • 구름많음장수-7.1℃
  • 맑음대관령-9.9℃
  • 구름많음구미-4.4℃
  • 구름많음봉화-6.5℃
  • 구름많음영월-6.4℃
  • 구름많음영주-5.1℃
  • 구름많음제천-8.1℃
  • 흐림장흥-3.5℃
  • 구름많음함양군-1.2℃
  • 눈백령도-8.3℃
  • 구름많음순창군-5.9℃
  • 구름많음임실-5.8℃
  • 구름많음영천-3.3℃
  • 구름많음서산-7.1℃
  • 흐림철원-13.4℃
  • 흐림제주2.4℃
  • 구름많음순천-4.2℃
  • 구름많음서청주-8.0℃
  • 구름많음세종-7.3℃
  • 구름많음부산-1.3℃
  • 구름많음부여-6.5℃
  • 구름조금동해-0.7℃
  • 구름많음천안-7.8℃
  • 구름많음강화-10.3℃
  • 구름많음금산-7.2℃
  • 구름많음보령-6.8℃
  • 구름많음북부산0.6℃
  • 구름많음문경-6.7℃
  • 흐림인제-11.4℃
  • 구름많음전주-6.7℃
  • 구름많음통영-0.3℃
  • 구름많음거제-1.1℃
  • 맑음양평-8.1℃
  • 구름조금합천-1.9℃
  • 구름많음춘천-8.9℃
  • 맑음이천-7.3℃
  • 흐림추풍령-8.5℃
  • 구름많음광양시-1.4℃
  • 구름많음보은-6.8℃
  • 흐림서귀포7.9℃
  • 구름조금영광군-5.5℃
  • 구름많음홍성-6.8℃
  • 구름많음산청-2.7℃
  • 구름많음남원-6.0℃
  • 흐림성산2.1℃
  • 흐림강진군-3.8℃
  • 구름많음여수0.1℃
  • 구름조금목포-4.0℃
  • 구름많음청송군-5.4℃
  • 구름많음고창-5.2℃
  • 구름많음충주-8.2℃
  • 구름조금수원-9.0℃
  • 구름많음고흥-1.0℃
  • 구름조금대구-3.8℃
  • 구름조금속초-2.8℃
  • 구름많음북창원-1.6℃
  • 구름많음진도군-2.4℃
  • 흐림동두천-11.6℃
  • 구름많음의령군-2.6℃
  • 구름많음안동-6.3℃
  • 흐림상주-7.0℃
  • 구름조금북춘천-10.7℃
  • 맑음거창-1.6℃
  • 눈울릉도-2.6℃
  • 흐림해남-3.8℃
  • 구름많음영덕-1.0℃
  • 구름많음정선군-7.6℃
  • 구름조금강릉-1.3℃
  • 구름많음부안-5.0℃
  • 흐림의성-5.2℃
  • 구름많음군산-5.9℃
  • 구름조금광주-3.3℃
  • 구름조금포항-0.6℃
  • 구름많음남해0.8℃
  • 구름많음울산-2.6℃
  • 맑음원주-7.7℃
  • 2026.01.20 (화)

데이터 과학 분야에서 이루어지는 질문과 답변 5종...어떤 알고리즘 사용할까?

박정영 / 기사승인 : 2021-06-10 18:57:14
  • -
  • +
  • 인쇄

데이터 과학은 숫자와 이름, 범주 또는 레이블을 사용하여 질문에 대한 답변을 예측한다. 데이터 과학으로 답변할 수 있는 질문은 단 5가지이다. 데이터 과학이 어렵게 느껴질 수 있으므로 여기서는 방정식이나 컴퓨터 프로그래밍 특수 용어를 사용하지 않고, 기본 개념을 소개하겠다.

1. 이것은 A인가 B인가?
2. 이것은 이상한가?
3. 양 또는 개수는 얼마인가?
4. 어떻게 구성되어 있나?
5. 다음에는 어떻게 해야 하나?

위의 질문 모두 알고리즘이라고 하는 머신러닝 방식에 따라 답변된다. 알고리즘을 레시피로, 데이터를 재료로 생각하면 도움이 된다. 알고리즘은 답변을 얻기 위해 데이터를 조합하고 혼합하는 방법을 설명한다. 컴퓨터는 알고리즘의 어려운 작업 대부분을 빠르게 처리한다.

첫 번째 질문에서는 분류 알고리즘을 사용한다. 이를 2클래스 분류라고 한다. 이는 두 가지 가능한 답변이 있는 질문에 유용하다. 질문에 3개 이상의 옵션을 포함하도록 해, “이것은 A인가? B인가? C인가? D인가?” 등과 같이 응용할 수 있다. 이것을 다중 클래스 분류라고 하며 이 분류 방식은 몇 개 또는 몇 천 개의 가능한 답변이 있을 때 유용하다. 다중 클래스 분류는 가능성이 가장 높은 하나를 선택한다.

두 번째 질문에서는 변칙 감지 알고리즘을 사용한다. 일상 속 대표적인 사례로 신용 카드를 사용하면서 변칙 감지를 통한 혜택을 보는 것을 언급할 수 있다. 신용 카드 회사는 구매 패턴을 분석하므로 발생 위험성이 있는 사기 행위를 여러분에게 경고할 수 있다.

세 번째 질문에서는 회귀 알고리즘을 사용한다. 회귀 알고리즘은 수치를 예측한다. 다음주 화요일의 기온, 회사의 분기별 매출 등 수치를 요구하는 질문에 답변하는 데 도움이 된다.

네 번째 질문에서는 클러스터링 알고리즘을 사용한다. 데이터 집합의 구조를 이해하고 싶을 때 이러한 알고리즘을 사용할 수 있다. 데이터 구조를 조작할 수 있는 방법 중 한 가지 방법은 클러스터링이다. 이 방식은 보다 쉬운 해석을 위해 데이터를 적절한 '그룹'으로 분리한다. 클러스터링을 통해 얻는 결과에는 정해진 정답은 없다.

마지막 질문에서는 강화학습 알고리즘을 사용한다. 강화학습은 결과를 통해 학습하고 다음 동작을 결정한다. 일반적으로 강화습은 사람의 지시 없이 수많은 사소한 결정을 내려야 하는 자동화 시스템에 적합하다.

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue