CWN(CHANGE WITH NEWS) - 데이터 과학자, 경쟁력 강화하려면 이 5가지 능력은 필수

  • 구름많음통영19.0℃
  • 흐림창원20.2℃
  • 흐림고창군17.7℃
  • 흐림홍성17.6℃
  • 흐림양산시18.3℃
  • 구름많음춘천15.9℃
  • 흐림여수20.4℃
  • 흐림양평16.4℃
  • 구름많음대관령12.1℃
  • 흐림김해시18.7℃
  • 흐림충주16.2℃
  • 구름많음함양군15.5℃
  • 흐림세종16.8℃
  • 흐림부안18.9℃
  • 흐림인천18.6℃
  • 흐림서울18.2℃
  • 흐림거창14.5℃
  • 흐림산청15.8℃
  • 흐림고창17.4℃
  • 흐림순천15.3℃
  • 흐림의성15.0℃
  • 흐림서산17.1℃
  • 구름많음제주20.9℃
  • 구름많음동두천16.0℃
  • 흐림문경15.9℃
  • 구름많음북춘천15.2℃
  • 흐림강화14.6℃
  • 구름많음철원15.3℃
  • 흐림흑산도20.7℃
  • 흐림장수14.1℃
  • 흐림북부산17.5℃
  • 흐림울진16.9℃
  • 구름많음남해19.0℃
  • 흐림원주16.9℃
  • 흐림백령도18.9℃
  • 구름조금울산17.3℃
  • 흐림서청주16.2℃
  • 흐림강진군17.3℃
  • 흐림청송군13.4℃
  • 구름많음울릉도20.5℃
  • 흐림군산17.8℃
  • 흐림보은15.2℃
  • 구름많음고흥16.3℃
  • 흐림금산15.9℃
  • 흐림북창원19.4℃
  • 구름많음북강릉17.7℃
  • 흐림합천16.2℃
  • 구름많음거제17.8℃
  • 구름많음대구17.3℃
  • 흐림진도군17.3℃
  • 흐림보성군17.9℃
  • 흐림이천16.4℃
  • 흐림청주19.5℃
  • 구름많음성산19.8℃
  • 흐림광주19.3℃
  • 흐림대전17.7℃
  • 흐림해남16.5℃
  • 흐림태백12.5℃
  • 구름많음영천14.8℃
  • 흐림수원16.3℃
  • 흐림정읍17.8℃
  • 흐림추풍령14.4℃
  • 구름많음보령18.6℃
  • 구름많음속초20.1℃
  • 흐림진주15.8℃
  • 흐림영주15.1℃
  • 흐림정선군13.7℃
  • 구름많음서귀포22.8℃
  • 구름많음영덕19.1℃
  • 흐림상주16.5℃
  • 흐림목포20.4℃
  • 구름많음경주시14.9℃
  • 흐림광양시19.1℃
  • 흐림남원16.4℃
  • 구름많음완도19.4℃
  • 구름많음파주15.8℃
  • 흐림천안16.2℃
  • 흐림안동15.8℃
  • 구름많음포항19.6℃
  • 흐림제천14.5℃
  • 흐림부여16.5℃
  • 구름많음강릉20.2℃
  • 흐림장흥16.8℃
  • 흐림봉화13.3℃
  • 구름많음동해19.2℃
  • 구름많음부산21.3℃
  • 흐림영월14.7℃
  • 흐림의령군14.6℃
  • 흐림임실15.7℃
  • 흐림영광군17.6℃
  • 흐림전주18.3℃
  • 흐림홍천16.5℃
  • 구름많음밀양16.9℃
  • 구름조금고산22.1℃
  • 구름조금인제15.0℃
  • 흐림순창군16.5℃
  • 흐림구미16.7℃
  • 2025.10.02 (목)

데이터 과학자, 경쟁력 강화하려면 이 5가지 능력은 필수

최정인 / 기사승인 : 2022-05-16 22:17:45
  • -
  • +
  • 인쇄

디지털화를 중심으로 한 산업 변화에 따라 데이터 과학이라는 학문의 중요성이 부각되었다. 그와 동시에 데이터 과학 분야를 학습하면서 데이터 과학자로 취업하려는 이들도 증가했다. 데이터 과학자가 되려면, 어떤 능력을 길러야 할까? 인도 IT 전문 잡지 애널리틱스가 전문 데이터 과학자에게 필요한 5가지 역량을 아래와 같이 설명했다.

1. 수학
기본적으로 데이터 과학자는 통계와 확장성, 선형대수, 다변수 미적분학 이론을 숙지해야 한다. 주요 개념으로는 평균값, 중앙값, 최빈값, 최대 가능도 방법, 표준 편차, 분산 등이 있다. 또한 베이즈 정리, 확률분포함수, 중심극한정리, 기댓값, 표준 오차, 확률 변수, 독립 시행 등의 이론도 알고 있으면 좋다.

2. 프로그래밍
데이터 과학 분야에서 자주 활용하는 언어는 파이썬이다. 다목적 객체 지향 언어인 파이썬은 앱과 웹사이트에 간단하게 활용하기 좋아, 데이터 과학계에서 선호하는 언어이다. 데이터 과학자 상당수가 매일 파이썬을 사용한다. 현재 파이썬은 데이터 과학 분야에서 R을 능가하고 최고의 인기 언어로 자리매김했다.

3. 분석툴
SQL, 스파크(Spark), 후프(Hoop), 하이브(Hive), 피그(Pig) 모두 데이터에서 귀중한 분석 결과를 추출하고, 빅데이터 처리 과정에 효과적인 프레임워크를 제공하는 분석 기술이다.

데이터베이스 관리 시스템과의 관계를 보자면, SQL은 데이터 보관과 쿼리, 변경 역할을 한다. 스파크는 구조화되지 않은 다량의 정보와 함께 실행하는 처리 엔진이며, 하둡(Hadoop)과 연계된다. 하둡은 아파치 소프트웨어 재단(Apache Software Foundation)이 제공하는 오픈소스 프레임워크로, 여러 대의 컴퓨터에서 다량의 데이터 처리 과정을 분산한다.

4. 머신러닝
기업이 관리하는 데이터가 많을수록 머신러닝을 운영 과정에 일상적으로 활용할 확률이 높다. 데이터 과학자에게 딥러닝이나 데이터 엔지니어링 학습, 자연어 처리 과정 이해 등은 필수가 아니다. 하지만 다량의 데이터를 다루고자 한다면, 관련 용어를 자주 접하게 되므로 이를 이해하는 것이 좋다.

5. 데이터 랭글링
여러 자원을 통해 데이터를 수집했다면, 정리가 필요한 형태의 데이터도 일부 포함되었을 것이다. 데이터 랭글링은 코딩 언어를 바탕으로 하면서 누락된 정보와 문자열 형식화, 데이터 형식화 등 데이터 결점 정리를 위한 작업이다.

데이터 과학자라면, 지금까지 설명한 5가지 분야의 기초를 터득해야 한다. 특히, 데이터 과학자 취업 경쟁이 치열해지는 상황에서 경쟁에서 살아남기 위해 기술적 능력과 기술 이외의 협업 능력과 같은 역량 모두 놓쳐서는 안 된다.

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue