CWN(CHANGE WITH NEWS) - 데이터 과학자, 경쟁력 강화하려면 이 5가지 능력은 필수

  • 맑음춘천5.4℃
  • 구름많음추풍령4.9℃
  • 구름많음남원5.1℃
  • 흐림산청5.1℃
  • 맑음양평6.9℃
  • 흐림구미6.3℃
  • 구름많음청송군3.0℃
  • 구름많음여수10.6℃
  • 맑음홍천3.6℃
  • 맑음강화9.4℃
  • 흐림창원10.0℃
  • 맑음천안4.4℃
  • 구름조금서귀포14.4℃
  • 구름많음봉화0.5℃
  • 구름조금고산17.1℃
  • 구름많음강릉10.8℃
  • 맑음철원6.7℃
  • 연무북강릉11.5℃
  • 안개백령도11.0℃
  • 구름많음태백5.6℃
  • 맑음서청주3.4℃
  • 구름많음속초10.0℃
  • 흐림영덕8.7℃
  • 맑음충주5.3℃
  • 구름많음원주5.7℃
  • 맑음군산9.0℃
  • 흐림거제9.9℃
  • 구름많음함양군4.8℃
  • 구름조금영주2.8℃
  • 흐림울진11.7℃
  • 구름많음남해9.1℃
  • 박무홍성8.4℃
  • 흐림부산11.6℃
  • 흐림보성군7.0℃
  • 흐림의령군4.5℃
  • 박무청주7.6℃
  • 맑음보령12.2℃
  • 흐림영천5.4℃
  • 구름많음보은3.1℃
  • 맑음고창10.7℃
  • 구름조금전주8.9℃
  • 흐림해남8.0℃
  • 흐림김해시8.7℃
  • 구름많음영월4.4℃
  • 맑음장수3.4℃
  • 구름많음순창군4.6℃
  • 흐림광양시9.6℃
  • 구름많음금산5.1℃
  • 맑음이천6.0℃
  • 구름많음상주5.3℃
  • 연무서울11.1℃
  • 박무대전7.4℃
  • 흐림완도9.8℃
  • 구름많음진도군9.8℃
  • 맑음동두천10.0℃
  • 흐림거창4.3℃
  • 흐림강진군7.7℃
  • 맑음세종7.2℃
  • 맑음고창군9.3℃
  • 흐림동해10.7℃
  • 구름많음정읍10.8℃
  • 박무수원8.3℃
  • 흐림부여5.2℃
  • 맑음서산9.3℃
  • 구름많음문경4.2℃
  • 흐림북창원8.9℃
  • 구름조금대관령4.0℃
  • 흐림울산8.3℃
  • 맑음인제4.5℃
  • 흐림안동5.9℃
  • 흐림합천6.7℃
  • 구름많음제천5.4℃
  • 흐림대구6.9℃
  • 흐림순천4.7℃
  • 흐림통영10.4℃
  • 구름많음부안8.9℃
  • 흐림고흥6.9℃
  • 맑음정선군4.3℃
  • 구름조금광주8.0℃
  • 흐림진주5.8℃
  • 흐림포항10.3℃
  • 구름많음성산10.2℃
  • 구름많음목포10.6℃
  • 맑음임실3.9℃
  • 흐림장흥6.9℃
  • 구름많음울릉도12.8℃
  • 흐림의성4.8℃
  • 맑음영광군10.0℃
  • 흐림밀양6.2℃
  • 맑음파주7.9℃
  • 박무인천10.4℃
  • 맑음흑산도12.7℃
  • 흐림경주시6.6℃
  • 흐림양산시9.2℃
  • 박무북부산7.7℃
  • 구름많음제주15.5℃
  • 박무북춘천5.3℃
  • 2025.11.24 (월)

데이터 과학자, 경쟁력 강화하려면 이 5가지 능력은 필수

최정인 / 기사승인 : 2022-05-16 22:17:45
  • -
  • +
  • 인쇄

디지털화를 중심으로 한 산업 변화에 따라 데이터 과학이라는 학문의 중요성이 부각되었다. 그와 동시에 데이터 과학 분야를 학습하면서 데이터 과학자로 취업하려는 이들도 증가했다. 데이터 과학자가 되려면, 어떤 능력을 길러야 할까? 인도 IT 전문 잡지 애널리틱스가 전문 데이터 과학자에게 필요한 5가지 역량을 아래와 같이 설명했다.

1. 수학
기본적으로 데이터 과학자는 통계와 확장성, 선형대수, 다변수 미적분학 이론을 숙지해야 한다. 주요 개념으로는 평균값, 중앙값, 최빈값, 최대 가능도 방법, 표준 편차, 분산 등이 있다. 또한 베이즈 정리, 확률분포함수, 중심극한정리, 기댓값, 표준 오차, 확률 변수, 독립 시행 등의 이론도 알고 있으면 좋다.

2. 프로그래밍
데이터 과학 분야에서 자주 활용하는 언어는 파이썬이다. 다목적 객체 지향 언어인 파이썬은 앱과 웹사이트에 간단하게 활용하기 좋아, 데이터 과학계에서 선호하는 언어이다. 데이터 과학자 상당수가 매일 파이썬을 사용한다. 현재 파이썬은 데이터 과학 분야에서 R을 능가하고 최고의 인기 언어로 자리매김했다.

3. 분석툴
SQL, 스파크(Spark), 후프(Hoop), 하이브(Hive), 피그(Pig) 모두 데이터에서 귀중한 분석 결과를 추출하고, 빅데이터 처리 과정에 효과적인 프레임워크를 제공하는 분석 기술이다.

데이터베이스 관리 시스템과의 관계를 보자면, SQL은 데이터 보관과 쿼리, 변경 역할을 한다. 스파크는 구조화되지 않은 다량의 정보와 함께 실행하는 처리 엔진이며, 하둡(Hadoop)과 연계된다. 하둡은 아파치 소프트웨어 재단(Apache Software Foundation)이 제공하는 오픈소스 프레임워크로, 여러 대의 컴퓨터에서 다량의 데이터 처리 과정을 분산한다.

4. 머신러닝
기업이 관리하는 데이터가 많을수록 머신러닝을 운영 과정에 일상적으로 활용할 확률이 높다. 데이터 과학자에게 딥러닝이나 데이터 엔지니어링 학습, 자연어 처리 과정 이해 등은 필수가 아니다. 하지만 다량의 데이터를 다루고자 한다면, 관련 용어를 자주 접하게 되므로 이를 이해하는 것이 좋다.

5. 데이터 랭글링
여러 자원을 통해 데이터를 수집했다면, 정리가 필요한 형태의 데이터도 일부 포함되었을 것이다. 데이터 랭글링은 코딩 언어를 바탕으로 하면서 누락된 정보와 문자열 형식화, 데이터 형식화 등 데이터 결점 정리를 위한 작업이다.

데이터 과학자라면, 지금까지 설명한 5가지 분야의 기초를 터득해야 한다. 특히, 데이터 과학자 취업 경쟁이 치열해지는 상황에서 경쟁에서 살아남기 위해 기술적 능력과 기술 이외의 협업 능력과 같은 역량 모두 놓쳐서는 안 된다.

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue