[데이터과학][빅데이터] 빅데이터 커리어 가이드북 정리하기

저자의 말

빅데이터 등장 이후 객관적 데이터 분석 후 도출된 인사이트를 근거로 의사결정하는 세상이 됨
- 컴퓨터사이언스, 산업공학, 통계학 전공자 > 데이터 리서처, 데이터 사이언티스트, 데이터 엔지니어가 되어야 함
- 다른 분야의 전문가 > 데이터 애널리스트, 데이터 기획자, 시티즌 데이터사이언티스트

책의 내용
- 머신러닝, 인공지능, 빅데이터 분야 연구를 하거나 교육을 하면서 만난 많은 분들이 수행하는 일, 업무 수행에 필요한 지식, 현업의 목소리가 담김

데이터 업무
1. 문제의 본질을 알아야만 데이터를 제대로 분석할 수 있음
2. 데이터를 준비하는 전처리 작업이 전체 분석 시간의 80~90% 를 차지 함

데이터 엔지니어
- 분석에 필요한 데이터를 찾거나 모으는 일을 담당
- 센서 어떤 방식으로, 어디에 저장할 것인지 결정

데이터 애널리스트
- 데이터 정리 및 분석

데이터 기획자
- 데이터 - 인사이트 - 밸류를 찾는 기획자

시티즌 데이터사이언티스트
- 기업 내 바텀업으로 데이터 기반의 의사결정이 정착되도록 하는 데 결정적인 역할을 수행

서문

- 빅데이터 전문가 직무 세분화
- 직업세계의 변화에 대해 기록

책의 구성

1장 빅데이터 세상

- 빅데이터 정의, 빅데이터 직업의 변화 및 직업의 탄생

- 빈번하게 등장하는 업무와 특징을 기준으로 빅데이터 전문가 여섯 직무로 나눔

- 직무가 서로 현업의 다른 부서와 유기적으로 작동하는 과정을 보여 주기 위해 실제 회사에서 진행한 프로젝트를 바탕으로 케이스 스터디를 실었음

2장 빅데이터 직무

- 각 직업의 구체적인 업무를 상세히 설명

- 다양한 환경에서 근무하는 빅데이터 전문가의 인터뷰

3장 빅데이터 지식

- 빅데이터 직무 별로 반드시 갖춰야 할 핵심적인 지식 및 기술적 역량

- 선형대수학, 통계기법 및 딥러닝도 포함

4장 빅데이터 취업

- 빅데이터 관련 취업 준비 과정

- 다른 분야와 어떻게 다른지, 현재 취업 시장에서 어떤 지식과 기술 및 태도를 요구하는지

대상 독자

- 빅데이터에 관심있는 학생 및 직무로의 취업을 희망하는 취업준비생
- 기업 인사담당자, 경영진, 빅데이터 전문가 및 빅데이터로 세상을 바꾸고 싶은 예비 창업자
- 빅데이터 전문가와 프로젝트를 진행하는 팀을 제대로 이해하고 협업하려는 진취적인 모든 전문가
- 빅데이터 시대 새로운 진로를 찾고 있는 학생 및 부모님

북 맵

1장 빅데이터 세상

1. 빅데이터의 등장

01. 쌓이는 데이터
02. 연산 기술의 발전
03. 데이터 개방과 융합

2. 기업의 변화

01. 기존 기업의 전환

02. 새로운 기업의 출현
03. 미래 기업의 모습

3. 빅데이터 직무를 정의하는 이유

01. 직무 공고 현황
02. 직무 정의

1) 데이터 엔지니어
2) 데이터 애널리스트
3) 데이터 사이언티스트
4) 데이터 리서처
5) 데이터 기획자
6) 시티즌 데이터 사이언티스트

4. 직무별 개관

01. 직무별 한 줄 설명

1) 데이터 엔지니어

- 데이터 자체와 데이터를 둘러싼 시스템을 책임지는 사람, 데이터 관리 뿐 아니라 수집/보관/처리시스템의 개발/구조 설계/유지보수 를 담당
- 사내 데이터 분석 도구 및 시각화 도구를 직접 개발
- 대용량 데이터의 품질과 직결된 업무를 담당하기 때문에 필수적인 존재임
- 보통 개발자가 데이터 엔지니어로 변모하는 경우가 잦음

2) 데이터 애널리스트

- 데이터에서 기업의 현재 상태와 관련된 인사이트를 도출해 경영진에게 효율적으로 전달하는 업무를 담당
- 주로 간단한 데이터 분석 도구나 대시보드 등과 같은 다양한 시각화 도구를 활용해 데이터에서 인사이트를 발견하는 일을 함

3) 데이터 사이언티스트

- 넓은 의미로는 데이터 산업 전반에 종사하는 사람
- 좁은 의미로는, 아래와 같음
- 통계 방법론, 머신러닝 그리고 데이터 마이닝 지식을 바탕으로 정량적이고 과학적인 데이터 분석을 통해 데이터에서 인사이트를 발굴하는 일을 담당
- 깊이 있는 분석 기법을 적용함으로써 현재 상황을 묘사하고 분석할 뿐 아니라 미래 상황을 예측하거나 미래에 발생할 수도 있는 문제를 예방
- 새로운 알고리즘을 습득할 수 있는 이론적인 이해도 및 분석하고자 하는 업종에 대한 전반적 지식, 가치 창출과 인사이트 발굴 능력 등을 골고루 갖춰야 함

4) 데이터 리서처

- 데이터를 분석하기 위한 새로운 알고리즘과 방법론을 연구, 개발하는 일을 담당
- 연구개발 (R&D) 부서에 소속 되어, 최신 연구 동향을 파악하기 위해 학회에 참석하거나 혁신적인 발견을 이뤄낼 경우 논문을 발표하기도 함
- 대학에 근무하는 관련 학과의 교수, 연구원 및 대학원생 등이 데이터 리서처에 포함 됨

5) 데이터 기획자 (데이터 프로젝트 매니저)

- 빅데이터 비즈니스 사이클의 계획 및 원활한 운영을 책임 지는 사람
- 확실한 목표를 설계, 목표 실행을 위한 데이터, 시스템, 인력을 효율적으로 운영해야 할 책임이 있음
- 간단한 데이터 시각화 및 분석을 통해 프로젝트 방향을 정하고 데이터 기술의 동향을 파악해 적절한 기술이 프로젝트에 적용되고 있는지 살펴야 함

6) 시티즌 데이터 사이언티스트

- ㅁㅁ

02. 직무별 직무기술서

5. 케이스 스터디

01. 빅데이터팀 구성
02. 데이터베이스 구축과 시각화 도구 도입
03. 분석 환경 설계 및 구축
04. 고객 이탈 예측 모델 개발

2장 빅데이터 직무

1. 데이터 엔지니어 - 조직 내 데이터의 운용을 담당

01. 데이터 엔지니어의 업무

1) 요구사항 분석
2) 파이프라인 구축, 관리 및 유지/보수

- 데이터 파이프라인 (데이터 플로) : 데이터가 흐르는 과정을 위와 같이 표현할 수 있음

- 데이터 레이크 : 다양한 형태와 경로에서 생성된 데이터를 한 곳에 가공 없이 그대로 저장하는 것
ex) 아마존 'S3'

- 데이터 웨어하우스 : 데이터레이크 로부터 Data Ingestion 과정을 거친 데이터가 저장되는 곳
ex) 아마존 'Redshift', 구글 'BigQuery', IBM 'DB2'

- 데이터 마트 : 데이터 웨어하우스의 하위 부분으로, 데이터를 실제로 사용하는 부서의 레벨이나 관련 주제 위주로 접근할 수 있도록 가공한 시스템

- 데이터 가져오기 (Data Ingestion) : 데이터 레이크 → 데이터 웨어하우스, 즉, 대용량 데이터 저장소 내의 데이터를 활용할 수 있는 형태로 저장하는 과정
ex) 데이터 엔지니어가 S3 에 저장된 데이터를 활용하기 위해 데이터 웨어하우스에 저장하는 과정을 데이터 가져오기 라고 함

- ETL 파이프라인 : 여러 데이터를 공통된 형식으로 변환해 저장 하는데, 이 때 데이터 웨어하우스에 저장하기까지의 과정을 ETL 파이프 라인 이라고 함, ,다양한 경로를 거쳐 생성되어 제각각이기 때문에 공통된 형식으로 가공해야 함

- ETL : 추출 Extraction, 가공 Transformation, 적재 Loading, ETL 파이프라인에서 필요한 세 가지 단계
ex) 메신저 기능을 제공하는 애플리케이션에서 데화데이터를 이름, 본문, 대화시간 등으로 구분하고, 날짜를 공통된 형식으로 변환, 저장하는 것

- 데이터 플랫폼 (Data Platform) : 데이터 파이프라인을 구성하기 위한 애플리케이션 집합으로, 각종 데이터베이스 분석과 시각화 등에 활용할 수 있도록 제공하는 환경, - 데이터 플랫폼의 다양한 애플리케이션이 서로 유기적으로 작동하도록 구성, 유지보수, 관리 하는 것이 데이터 엔지니어의 몫

ex) 데이터 플랫폼 구축 예시
= 데이터 수집 : 'Logstash', 'fluentD',
= 최적화 및 안전성 향상 : 'Kafka', 'Redis',
= 데이터 저장 및 분석 : 'RDB', 'NoSQL' 등의 데이터베이스,
= 시각화 지원 : '스팟파이어', '태블로', 키바나'

- 커넥터 (Connector) : 데이터 웨어하우스의 데이터가 각 사용처로 흘러들어가 다양한 용도로 사용될 수 있도록 데이터베이스와 각종 애플리케이션을 연결하는 과정
ex1) 상품의 재고 상태 및 관련된 데이터를 실시간으로 품절된 상품을 고객이 구매할 수 없게 표시하는 데 쓰이거나
ex2) 재고 상태에 기반을 둔 상품 추천 서비스 모델을 개발하는 팀에서 상품별 매출액을 실시간으로 확인하는 사내 대시보드에 사용 하는 것

3) 기타 도구 및 애플리케이션 개발

- 데이터 웨어하우스의 데이터를 사용하는 최종 데이터 사용자의 요구사항 중, ETL 파이프라인 플랫폼에서 제공하지 않는 기능을 개발하는 것

4) 다른 데이터 직무와의 차이점

- 데이터 아키텍트 (Data Architect) 나 데이터베이스를 설계하고 관리하는 DBA (Database Administrator) 등 데이터 엔지니어와 비슷한 직무가 있었음
- DA : 업무의 요구사항 분석, 전략 수립, 데이터팀 관리 등 업무 수행
- DBA : 데이터베이스 스키마* 설계
* 스키마 : 데이터베이스 내의 데이터가 어떤 구조와 형태로 저장돼 있는지를 정의한 것
- 벡엔드개발자 :

02. 성공 요소

1) 업무에 필요한 지식 및 스킬

- 프로그래밍 역량 : SQL, Python 필수
- 각종 데이터 수집 애플리케이션, 데이터 저장소, 관계형 데이터베이스 프로그램에 대한 지식
= 인프라 구성을 위한 여러 플랫폼의 장단점과 종류를 알고 있어야 비교, 분석이 가능함
- 컴퓨터 시스템에 대한 지식
- Google Cloud Certified Professional Data Engineer 자격증이 도움이 됨
- BI 도구 사용법 및 설정 방법 이해
- 머신러닝 개념

2) 성향 및 태도

- 데이터 파이프라인 구축, 유지보수를 위한 넓은 시야
- 전체 구성을 볼 수 있는 넓은 시야가 필요하다
- 업무가 방대하기 때문에 원활하게 협업할 수 있는 역량 필요

03. 데이터 엔지니어 인터뷰 1

03. 데이터 엔지니어 인터뷰 2

2. 데이터 애널리스트 - 경영진을 비롯한 여러 이해관계자가 데이터를 올바르게 이해하고 데이터에서 가치를 발굴하도록 도와주는 것

01. 데이터 애널리스트의 업무

1) 데이터 준비

- 이미 기업이 보유하고 있는 정형 데이터 (Structured data) 를 활용
- 정형데이터 (Structured data) : 데이터 엔지니어가 설계한 데이터베이스에 저장된 표준화 데이터를 의미
- 온라인의 데이터를 수집하기 위해 웹 크롤러를 구축하거나 API를 활용
- 다양한 경로로 수집한 데이터를 사용 목적에 맞게 가공하는 과정을 거치기도 함
= 데이터 준비 : 이런 표준화 데이터 로부터 필요한 데이터를 검색해 가져오는 것
= 웹크롤러 : 웹 크롤링이나 웹 스크래핑을 수행하는 프로그램
= 주어진 데이터를 보다 쉽게 분석할 수 있는 형태로 가공 하는 과정

2) 데이터 분석을 통한 비즈니스 인사이트 도출

- 수집한 데이터를 분석, 눈에 띄는 패턴이나 트렌드를 찾아 원인을 분석
- 엑셀 활용, 간단한 코딩 및 데이터 분석 소프트웨어 활용
- 데이터분석 ㅅ프트웨어 : 코딩 없이 데이터 분석의 모든 과정을 수행 할 수 있게하는 도구

3) 데이터 시각화

- 분석 결과를 효율적으로 전달하기 위한 데이터 시각화 진행
- 태블로, 스팟파이어, Power BI 같은 다양한 데이터 시각화 도구가 보편화
- 단순한 시각화를 넘어 찾기 어려운 인사이트를 도출하기 위해 시각화 도구의 기능을 자유자재로 사용

02. 성공 요소

1) 업무에 필요한 지식 및 스킬

- 데이터 분석 기법과 통계에 관련된 기초적인 지식
- 데이터 준비와 기초적인 분석을 위한 SQL, 엑셀, 기초 코딩 능력 및 데이터 분석 소프트웨어와 데이터 시각화 도구를 자유롭게 다룰 수 있는 능력
- 의사소통 능력 및 불필요한 오해와 마찰을 최소화 할 수 있는 소통 능력

2) 성향 및 태도

- 다양한 사람과 교류 및 소통하는 것을 즐긴다면, 중개자 역할을 하는데 많은 도움
- 기업에서 가장 중요하게 생각하는 목표나 전체적인 프로세스 등을 항상 염두에 두고 잇다면 좀 더 효과적인 인사이트 도출이 가능

03. 데이터 애널리스트 인터뷰1

04. 데이터 애널리스트 인터뷰2

3. 데이터 사이언티스트 - 방대한 양의 데이터에 다양한 분석 기법을 적용함으로써 가치 있는 인사이트를 찾아내고 제공, 회사의 현재 상황을 정량적이고 과학적인 방법으로 분석할 뿐 아니라 머신러닝 등의 기법으로 미래의 상황을 예측

01. 데이터 사이언티스트의 업무

1) 포뮬레이션

- 포뮬레이션 (Formulation) : 해결하고자 하는 비즈니스 문제를 데이터 분석 문제로 바꾸는 과정
- 비즈니스 문제에 따라 분석의 목표, 사용 기법, 필요한 데이터가 완전히 달라질 수 있음

2) 전처리/EDA

- 데이터 분석 문제를 정의 후, 분석할 데이터를 모으는 것이 필요
- 데이터 엔지니어가 구축한 파이프라인의 데이터 레이크나 데이터 웨어하우스에서 분석에 사용할 데이터를 수집

- 분석에 필요한 데이터가 부족하거나 적합하지 않다면, 조직 밖에서 데이터를 찾아 수집하기도 함
- 온라인 상의 데이터를 자동으로 수집하는 웹 크롤러를 직접 구축하거나 API 를 활용하기도 함
- 데이터 정리/정돈을 위한 '필터링' → '정제' → '전처리' 후, 'EDA' 과정을 거침
예시)
= 필터링 : 전 세계 데이터 중 '국가' 가 '대한민국' 으로 명시된 데이터만 가져오는 과정
= 정제 : 더티데이터('국가' 는 '대한민국' 인데 실제 정보는 '미국'의 어느 정보를 가지고 있는 경우) 의 정제가 필요
= 전처리 : 주어진 정보를 그대로 사용할지 구분할지 등 여러 결정과정도 전처리의 일부

- 탐색적 데이터 분석 (EDA, Exploratory data analysis) : 데이터를 탐색해 의미를 이해하는 과정
= 데이터 분석에 어떤 데이터를 사용할 것인지 결정하기 전에 데이터를 다각도로 들여다보고, 도출할 수 있는 인사이트를 고민하며, 부족한 부분을 보완
= EDA 단계에서는 이상치 데이터나 누락된 데이터 등과 같은 잘못된 데이터가 있는지, 있다면 얼마나 있는지 등을 살펴봄
= 이 과정을 통해 사용할 수 있는 데이터가 부족하다고 판단되면 데이터 수집 단계부터 다시 진행

※ 더티 데이터 : 데이터 정제 과정을 거치지 않아 각종 오류를 포함하고 있는 데이터로, 아직 깔끔하게 정리되지 않아 지저분한 상태의 데이터
※ 이상치 데이터 : 일반적인 형태가 아니거나 정상적인 범주에서 벗어난 데이터,

3) 모델링/검증

- 모델링 : 프로그래밍을 통해 분석에 적합한 모델을 만든 후 데이터에 적용해 결과를 도출하는 과정
= 다양한 모델의 작동 원리, 장단점, 특징 등을 정확하게 파악하고 있어야 함
= 모델의 형태를 결정하는 다양한 설정 값, 모델링에 필요한 데이터의 종류, 범위, 크기 등을 결정해야 하기 때문

- 검증 : 도출된 결과를 면밀히 분석하여 즉시 실무에 적용해도 무리가 없을지 판단하는 과정

02. 성공 요소

1) 업무에 필요한 지식 및 스킬

- 통계/알고리즘 이해 : 데이터 마이닝, 머신러닝, 통계 기법 등 관련 분야에 대한 풍부한 수학적, 통계학적 지식
= 모델의 작동방식 및 알고리즘 이해
- 프로그래밍 능력
= 모델링 : Python, R
= 데이터 수집 : SQL 기초
- 분산처리 및 성능 문제 해결을 위한 컴퓨터 공학 지식
- 구축된 파이프라인을 이해할 수 있는 지식

2) 성향 및 태도

- 호기심이 많은 성향
- 분석 결과에 단순히 순응하는 것이 아니라, 왜 이런 결과가 나왔는지 끊임없이 탐구하고 새로운 인사이트를 도출할 수 있는 사고력 겸비
- 발전하는 기술에 관심을 가지고 스스로 탐색해 적용하는 능력
- 새로운 모델과 기술을 따라갈 수 있는 학습 능력 및 의사소통 능력

03. 데이터 사이언티스트 인터뷰1

04. 데이터 사이언티스트 인터뷰2

4. 데이터 리서처 - 빅데이터 전문 인력 중에서 좀 더 높은 수준의 빅데이터 전문 지식을 갖춘 연구 인력

01. 데이터 사이언티스트의 업무

1) 데이터 분석 관련 알고리즘 개발
2) 최신 연구 공부 및 알고리즘 구현
3) 알고리즘 적용

02. 성공 요소

1) 업무에 필요한 지식 및 스킬
2) 성향 및 태도

03. 데이터 리서처 인터뷰1

04. 데이터 리서처 인터뷰2

5. 시티즌 데이터 사이언티스트 - 파워블로거와 비슷, 기업 내 파워 데이터 유저로서, 본래의 주업무가 있지만 빅데이터에 관심을 바탕으로 자신의 능력과 영역을 확장 시키는 인재

01. 시티즌 데이터 사이언티스트의 업무

- 본연의 업무가 있고, 빅데이터에 관련된 지식을 능동적으로 습득함으로써 기초적인 분석 능력을 갖춘 인력
- 데이터를 처리하고 분석하는 전반적인 과정을 이해
- 데이터베이스와 쿼리
- 데이터 시각화와 대시보드 제작
- 코딩을 몰라도 분석을 수행할 수 있는 자동화된 분석 소프트웨어 등 활용
= KNIME, RapidMiner, Orange, SAS

6. 데이터 기획자 - 빅데이터 프로젝트를 계획, 운영, 관리, 빅데이터를 통해 혁신적인 가치를 창출하는 프로젝트를 총괄하는 만큼, 빅데이터에 대한 기본적 지식을 갖춰야 함

3장 빅데이터 지식

1. 예비 빅데이터 전문가를 위한 지식 - 3장을 어떻게 활용하면 좋을지에 대한 내용

01. 빅데이터 지식 마당 활용법

- 숫자가 큰 순서가 중요한 것임
- 필요한 지식을 얻기 위한 방법을 안내 해주는 안내서
- 셋째마당은 지도라고 생각하면 됨
- 키워드 : 지식 습득을 위한 중추적 역할을 하는 개념

1) 처음 읽을 때,

- 북맵을 옆에 두고 각 장의 지식이 왜 필요한지 이해하려고 노력 하기
- 세세한 내용까지 알려고 하지 말고 대략적으로 어느 정도 중요한지, 나에게 필요한 지식이 다른 지식과 어떤 관련이 있는지를 이해하는 데에 중점을 두기

2) 두 번째 읽을 때,

- 각 장의 큰 그림을 이해하려고 노력 하기
- 키워드에 대한 정보가 필요하다면 대략적 의미를 이해하려고 노력하기
- 정확한 의미, 유도공식, 수학적정의, 프로그래밍 가능 여부 등은 생각하지 말기

3) 세 번째 읽을 때,

- 공부자료와 방법을 적극적으로 이용하기
- 해당 장의 지식이 내 것이 될 수 있도록 노력하기
- 소개하는 공부자료와 방법을 사용해 자신의 해당분야를 공부 하기

4) 마지막으로,

- 공부자료를 활용한 공부의 중간중간 다시 이 글로 돌아와, 함축된 문장을 이해하기

02. 공부 자료 활용법

- 공부자료는 크게 세가지로 나뉨

1) 유튜브

2) MOOC 플랫폼
- 해외 : Coursera, Udemy, edX, Khan Academy
- 국내 : KOCW, 에드위드 (Edwith), 네이버 부스트코스 (Boostcourse)

3) 기타
- 기타 홈페이지들

2. 빅데이터 프로젝트 - 여러 전문가가 모여 일하는 프로젝트가 어떻게 진행되는지 알아보기

[빅데이터 사이클]

01. 문제정의

- 문제정의 : 데이터 기획자가 업무를 주도 (없다면 데이터 사이언티스트, 없다면 아무나)
= 빅데이터를 활용해 풀어낼 문제를 잘 정의 하는 것

[문제 정의 시 점검해야 할 네 가지 는 아래와 같음]
1) 문제를 명확하게 표현 했는가?

- 문제에 더 이상 질문의 꼬리를 달 수 없다면 명확하다

2) 문제를 얼마나 잘 풀어야 하는지에 대한 목표를 설정했는가?

- 얼마나 잘 풀여야 하는지 목표를 설정 해야 한다.
- 성능이 높아질수록 성능 개선을 위한 시간과 예산이 기하급수적으로 늘어난다
- 정한 목표의 수준이 너무 낮다면 완수하더라도 효과가 미미할 수 있으므로 해당 프로젝트를 포기하는 것도 고려 해야 한다

3) 결과물을 전달받아 사용하는 사람은 누구인가?

- 프로젝트 결과물을 전달받아 사용하는 사람이 누구인지 명확해야 한다.
- 사용자마다 분석의 관점과 사용할 수 있는 결과물의 형태가 다르므로 프로젝트의 결과물도 달라져야 하기 때문이다.

4) 정의한 문제를 해결할 수 있는 자원이 있는가?

- 적절한 자원이 없다면 문제 해결이 불가능
- 문제의 수준을 낮추거나 빅데이터 컨설팅 기관 혹은 대학 연구소와 같이 프로젝트에 도움을 줄 수 잇는 상대를 찾는 등 프로젝트 진행 방향을 수정해야 하므로 문제 정의 단계에서 자원까지 검토 해야 한다.
- 프로젝트 전에 확인해야 하는 자원은 데이터, IT환경, 빅데이터 전문가 의 여부
= 데이터 : 정확하지 않더라도 문제 해결에 필요한 데이터 목록을 정리하고 해당 데이터에 접근할 수 있는지 파악, 어떤 데이터가 프로젝트에 중요한 자원인지 확인 가능
= IT 환경 : 일반 업무 때보다 높은 수준의 IT 자원 필요, 따라서 데이터의 크기, 사용량, 분석 알고리즘의 복잡도, 계산량 등을 고려해 필요한 IT 자원과 환경 조건을 예상하고 확보할 수 있는지 확인
= 빅데이터 전문가 : 프로젝트 기간 동안 함께 일할 수 있는지 확인, 전문성이 높을수록 세부 전공 분야가 있음, 프로젝트를 이용해 문제를 해결할 수 있는 전문가인지 검토하는 것이 매우 중요

02. 데이터 수집 및 이해

- 프로젝트에 활용할 데이터를 모으고 이해할 차례
- 구성원이 사용할 IT환경 조성,
- 데이터 수집 및 관리
- 데이터 이해
- 데이터 엔지니어 : IT환경 조성, 데이터 수집 및 관리 업무
- 데이터 사이언티스트, 애널리스트 : 데이터 수집 및 이해 업무
- 데이터 수집 및 이해 업무 체계화 후 관련 IT환경을 적절히 조성

03. 데이터 분석과 모델링

- 데이터 애널리스트, 데이터 사이언티스트, 데이터 리서처가 주로 활약 하여 분석과 모델링 진행

04. 배포 및 적용

- 모든 빅데이터 전문가가 활약
- 분석 및 모델링의 결과물이 직접 사용할 사람에게 유용하고 편리하게 사용할 수 있도록 결과를 재구성하여 전달하는 것
- '프로젝트 결과물 사용자' 를 중심으로 배포 및 적용 방법 고안
- 소프트웨어, 코드, 리포트 형태 로 만들어 배포
- 결과물의 사용방법, 문제해결을 위한 가정, 한계점 등을 함께 기입

[데이터 준비]

1) 데이터 수집

- 분석에 사용할 데이터를 분석 DB로 가져 오는 단계
- 내부 데이터 : DBA 에게 접근권한을 얻어 데이터를 수집
- 외부 데이터 : 권한 문의, 필요에 따라 계약 등을 통해 권한을 구매한 후 데이터를 수집
- 필수적으로 메타 데이터를 함께 수집 해야 함
※ 메타데이터 : 데이터에 대한 정보로, 데이터 정의, 기본 키 (primary key), 생성 기준, 생성 시점, 연관된 데이터 정보 등이 있음
- 메타데이터는 데이터 준비 과정을 더욱 원활히 이뤄지도록 함

2) 데이터 품질 확인

- 목표 : 수집한 데이터를 분석에 사용할 수 있는지 판단하는 단계
- 품질 확인의 4가지 관점
= 1) 정확성 : 데이터 값의 오류 여부와 데이터 형태가 정의에 맞는지, 값이 적절한 범위에 속하는지 확인
= 2) 완전성 : 기본키가 잘 정의되어 잇는지, 데이터의 기본키 등을 사용해 다른 데이터와 연계할 수 있는지 확인
= 3) 일관성 : 중복되는 컬럼이 있을 때 서로 일관적인지 확인
= 4) 유용성 : 데이터 정보가 충분한지 확인

3) 데이터 정제
- 목표 : 데이터 품질 향상을 위해 데이터를 정제하는 단계
- 방법 : 누락된 값과 오류 값을 처리해 데이터 품질을 높임
- 누락값 : 데이터가 비어 있는 부분 데이터를 제거 하거나 다른 값으로 대체

4) 데이터 변환
- 목표 : 수집한 데이터의 형태나 스케일을 변환 처리
- 데이터 방법에 적합한 형태로 데이터를 변환하면 더 나은 데이터 분석 결과를 얻을 수 있음
- 가장 널리 사용 되는 방법 : 범주화
- 범주화 : 1) 문자형 변수의 범주화 2) 연속된 숫자로 표현된 데이터를 구간별로 나누는 범주화
- 실수데이터를 정수 데이터 변환하는 다양한 형ㅌ태 변환 방법이 있음
- 정규화 : 스케일을 조정하는 변환
- 숫자 데이터를 일정한 범위 안에 속하도록 변환하는 것으로, 표준 정규화, 최소값 최대값 정규화 등의 방법이 존재함

5) 데이터 특성 추출 (Feature engineering)
- Feature engineering 이라고 부름
- 목표 : 데이터 분석에 사용할 데이터, 즉, 변수를 생성
- 주어진 데이터 보다 분석 목표에 더 직접적인 관련이 잇는 변수를 개발 한다는 것이 특징임
- 해당 분야에 대한 전문적 지식과 분석 경험을 데이터에 투영 하는 것
- 해당 분야를 고려해 좀 더 필요할 것이라 생각하는 변수를 현재 존재하는 변수들을 활용해 만들면 됨

6) 데이터 준비 과정 기록
- 1~5) 까지의 수행 작업을 문서화
- 데이터 준비에 사용한 코드, 각각의 과정을 설명하고 기록
- 데이터 분석이 한 번에 끝난다면 이 과정이 필요 없지만, 새로운 데이터를 다시 분석하고 결과를 점검하기 때문에,
- 각 단계에서 수행한 작업에 대한 설명을 잘 정리해야 함

3. 시각화 -

01. 시각화의 유형

02. 공부 자료

4. 데이터 분석 소프트웨어

01. 이렇게 공부하세요

02. 데이터 분석 소프트웨어

5. 웹 크롤링

01. 웹 크롤링 기법

0)
1) 웹크롤러
2) 웹 크롤링 시 주의사항

- 파싱
- API

02. 공부 자료

6. 프로그래밍 -

01. 이렇게 공부하세요

- POC :
- 함수 :
- 클래스 :
- 모듈 :
- 패키지 :
- 라이브러리 :
- 프레임워크 :
- 소프트웨어 :
- 도구 (Tool, 툴) :

02. 프로그래밍 언어

- 마크업 언어 :
- 데이터베이스 언어 :
- 인터프리터식 언어 :
- 컴파일식 언어 :

03. 자료 구조와 알고리즘

1) 알고리즘의 성능
2)

04. 공부 자료

7. 수학 및 통계학

01. 이렇게 공부하세요

02. 수학

1) 선형대수
2) 해석 기하
3) 최적화

03. 통계학

1) 일반 통계학
2) 회귀분석
3) 심화과목

04. 정보 이론

05. 공부 자료

8. 머신러닝

01. 이렇게 공부하세요

02. 머신러닝

03. 지도학습

1) 지도학습 개요

04. 지도학습 프로세스

시계열 데이터
- 자기상관성
- 추세
- 계절성

05. 지도학습 기법

1) 선형회귀
2) 서포트벡터머신
3) 의사결정나무
4) k-근접 이웃법
5) 인공신경망-퍼셉트론과 다층퍼셉트론
6) 인공신경망 학습
7) 인공신경망
- CNN
- RNN

06. 비지도학습

1) 비지도학습 개요

07. 비지도학습 프로세스

08. 비지도학습 기법

1) k-means
2) PCA
3) GMM
4) 오토인코더
5) GAN

09. 강화학습

1) 강화학습 개요

10. 강화학습 프로세스

1) 문제 파악하기
2) 강화학습 문제로 정의하기
3) 강화학습 기법 선택 및 에이전트 학습하기
4) 강화학습 에이전트 평가 및 배포하기

11. 강화학습 기법

12. 머신러닝 패키지

1) 사이킷런
2) 사이파이
3) 판다스
4) 캐럿
5) OpenAI 짐
6) 딥러닝 프레임워크
- 텐서플로
- 파이토치
- 케라스

13. 공부 자료

9. 데이터 파이프라인 및 클라우드

01. 데이터 파이프라인

1) 데이터 파이프라인이란?
- 데이터 파이프라인 : 데이터가 지나가는 길 (데이터 웨어하우스까지 이동한 경로를 '데이터 파이프라인' 이라고 함)
- 데이터 파이프라인 구축 업무의 중요성이 함께 높아지고 잇음
- 데이터 손실 없이 신뢰할 수 있고, 필요한 만큼 빠른 속도로 데이터가 효율적으로 흐르게 하기 위해서는 데이터 파이프라인 구축이 매우 중요
- 크기, 종류, 경로, 빈도, 쓰임새가 다양하고 복잡해져서 이동방법도 다양함
- ETL : 데이터 추출 (Extraction) 가공 (Transformation) 적재 (Load) 를 뜻하는 ETL 도 데이터 파이프라인 중 하나이다.
- 실무에서는 ETL 을 주기적으로 반복되는 데이터 처리 업무 라는 뜻으로 사용 하기도 함
- 따라서 맥락에 따라 무엇을 이야기 하는지 파악 해야 한다

2) 데이터 파이프라인과 아키텍처
- 아키텍처 : 데이터 파이프라인 설계시 어떤 데이터가 어디를 지나고 어떤 처리 과정을 거치는지를 고려해 효율적으로 설계 해야 하는데, 데이터의 특성과, 사용자의 요구사항 등을 고려해 다양한 데이터 솔루션이나 플랫폼을 조합해 만들어진 데이터 파이프 라인의 구조 또는 데이터 처리 구조를 아키텍처 라고 부름.

- 데이터 솔루션을 선택할 때 고려해야 할 사항
= 1. 데이터의 유입 방식 또는 변동 가능성 (데이터 추가 및 변경 가능성)
== 데이터 종류에는 바운디드 데이터 (Bounded data), 언바운디드 데이터 (unbounded data) 가 존재
==== 1) 바운디드 데이터 - 데이터의 수가 바뀌지 않는 데이터, 2) 언바운디드 데이터 - 추가 데이터가 유입될 가능성이 있는 데이테

= 2. 데이터 처리 방식
== 1) 배치 (batch) : 일정한 주기에 따라 데이터를 모은 후 배치 단위로 한 번에 처리
== 2) 스트리밍 (streaming) : 데이터를 연속적으로 처리
==> 실시간 데이터는 스트리밍, 그렇지 않을 때는 배치 방식으로 처리
== 람다 아키텍처는 배치와 스트리밍 방식을 모두 적용할 수 있고, 이 외에도 배치 및 스트리밍 방식을 적용하기 위한 데이터 솔루션이 많으므로 필요에 따라 원하는 솔루션 선택이 가능 함

= 3. 데이터 저장 방식
= 데이터는 여러 형태로 저장되기 때문에 데이터의 특성이나 데이터 사용자의 요구를 고려해 적합한 데이터 저장 방식을 선택 해야 함
== 1) 개념 : 데이터 레이크, 데이터 웨어하우스 중 어떤 개념을 사용할 지
== 2) 방식 : 분산 저장 한다면 어떤 분산 시스템 이요할 지,
== 3) 종류 : 데이터베이스 종류는 어떤 것을 이용할 지 등을 정해 데이터 파이프라인에 반영

- 이 세가지를 고려 해 효율적인 데이터 파이프라인을 구축 하고 데이터의 흐름을 체계화 할 수 있도록 함
- 기대효과
= 데이터 관리 비용 절감
= 데이터 업무 효율성 개선
= 데이터 파이프라인 관리를 위한 모니터링 솔루션 탑재 시, 효율성 유지 및 파이프라인 개선 기대

※ 데이터 타입
- 정형 데이터 (Structured data) : 일정한 구조가 있는 데이터, 숫자로 표현된 데이터 또는 숫자로 표현하기 좋은 데이터
- 비정형 데이터 (Unstructured data) : 일정한 구조가 없는 데이터, 텍스트 이미지 사운드 비디오데이터 등이 해당 되며 여러 비정형 데이터가 동시에 존재할 수도 있음, 비정형 데이터에서 새로운 가치를 찾기 위한 노력을 진행 중이며, 비정형 데이터를 사용하는 데 필요한 새로운 데이터 파이프라인과 아키텍처에 대한 고민이 필요함

02. 클라우드

1) 클라우드 서비스
- 클라우드 : IT자원이 필요할 때마다 인터넷을 이용해 원격으로 외부 자원을 사용할 수 있는 서비스
- 장점 : IT 자원에 대한 투자비용 및 관리비용 절감

- 온프레미스 (On-premise) : 기업이 자체적으로 IT설비를 갖추고 이용하는 것
= IT 설비 도입 비용과 관리 비용이 듬
- 온디맨드 (On-demand) or 오프프레미스 (Off-Premise) : 외부 설비를 필요할 때마다 사용하는 클라우드 방식
= 클라우드 서비스 업체가 과금하는 사용료만 지불
- 한국은 기업에 따라 내부망 외부망 분리되어 온디맨드 방식을 사용할 수 없을 때 온프레미스 방식을 취함

- 많은 기업이 온디맨드 방식 클라우드 도입을 하기 때문에, 데이터 전문가도 클라우드 상에서 데이터 처리할 능력이 필요
= 데이터 엔지니어 역할
== 1) 클라우드 상에서 데이터 파이프라인을 구현하는 것
== 2) 다양한 클라우드 서비스 업체가 데이터 처리를 위해 공통적으로 제공하는 기능 및 그렇지 않은 기능에 대한 비교 후, 다양한 기능을 제공하는 클라우드 서비스를 선택하여 공부

- 클라우드 서비스 업체는 클라우드 서비스 관련 자격증 제도 운영
== 1) 아마존 AWS : AWS 기초, 어소시에이트, 프로페셔널 등급과 전문 분야를 구분해 자격증 운영
== 2) 마이크로소프트 Azure , 구글 GCP : 자체 자격증 제도를 운영

2) 클라우드 컴퓨팅 종류

- Public cloud : 특정 사용자가 아닌 여러 사용자에게 공개된 클라우드 (AWS, Azure, GCP 등)
- Private cloud : 특정 사용자나 기업을 위한 전용 클라우드, 상대적으로 보안성이 뛰어나다는 장점 존재
- Hybrid cloud : public + private 함께 이용
- Multi cloud : 여러 클라우드 서비스를 동시에 이용하는 것 (AWS + 마이크로소프트 애저 동시 이용)

- 학습 시, 퍼블릭 클라우드를 기준으로 배우지만, 기업에서는 실무적 이점을 고려하여 기업의 특성에 맞는 클라우드를 선택하여 사용 함
= 민감한 고객 정보를 다루는 금융 기업의 경우 = 프라이빗 클라우드
= 서비스의 안정성이 중요한 스트리밍 기업의 경우 = 멀티 클라우드 를 이용하여 하나가 문제 생겨도 지속적인 서비스를 제공

- 모든 종류의 클라우드 경험하기는 너무 어렵기 때문에, 각 클라우드 특성을 이해하여 데이터 환경을 좀 더 효율적으로 구축 가능

4장 빅데이터 취업

1. 빅데이터 직업 시장

01. 빅데이터 직업 시장에 참여하기

02. 직무 정하기

03. 산업 도메인 정하기

04. 적합한 회사 찾기

1) 대기업
2) 스타트업
3) 공공 기관
4) 데이터에 지원하는 기업
5) 좋은 회사 구별하는 방법

2. 준비 활동

01. 인턴십

1) 인턴십의 장점
2) 주의 할 점

02. 연구 경험

1) 연구
2) 대학 연구실 인턴
3) 기업 연구 인턴

03. 데이터 분석 대회 (공모전)

1) 주의해야 할 점

04. 프로젝트 경험 (개인 경험)

1) 주의해야 할 점

05. 인사이트 도출 훈련

06. 링크드인과 깃허브로 온라인 프로필 관리하기

1) 링크드인
2) 깃허브

07. 헤드헌터와의 관계 관리하기

1) 믿을 만한 헤드헌터인지 확인
2) 자신의 업무를 이해하는 헤드헌터를 찾아라
3) 제안받은 사항을 자세히 확인하라
4) 헤드헌터가 자신을 어떻게 찾았는지 확인하라
5) 두 명 이상의 헤드헌터와 교류 하라
6) 결과는 자기가 책임진다는 것을 명심하라

3. 취업 절차

01. 국내 취업 절차 알아보기

1) 서류준비

사람인, 잡코리아 등 도움
인적사항, 학력, 학점, 수상내역, 자격증 등
최대한 자세하게 설명하는 것이 좋음
관련도구 숙련도 포함
- 데이터관련활동 중 자신의 역할
- 데이터 분석과정에서 어려움과 해결방안

2) 인성면접

성장환경, 성격의 장단점, 경험, 가치관, 여가활동 등 다양한 분야
책임감, 리더십과 같이 직장생활에 도움이 되는 경험을 답변 중간에 적절히 표현하면 좋은 평가를 받을수 있음

3) 직무면접

지원자가 지원한 업무와 관련있는 실무진이 진행
직무면접 중 준비활동에서 설명한 인턴십, 연구경험, 데이터분석대회 등 경력이 있다면 질문할 것
- 1차원 : 어떤 활동을 했는지/어떤 알고리즘을 활용했는지
- 어떤 상황에서 왜 그 알고리즘을 선택했고, 해당 알고리즘을 적용하는 과정에서 겪었던 애로사항과 해결방법, 그 결과와 한계 등을 논리있게 설명하면 면접관에게 더 좋은 평가를 받을수 있을것임
기초수학 및 통계학 등 관련지식에 대한 질문을 받는 경우도 많음

4) AI역량검사

5) 임원면접

02. 해외 취업 절차 알아보기

1) 채용 공고 확인하기

Glassdoor Job Search, Indeed, Linkedin
Responsibilities & Qualificiations

2) 서류준비

이력서내용과 디자인에 신경써야 함
이력서 양식
- Canva
- resume
- Overleaf
  - TeX
PDF 형식으로 제출함
글씨체
- 명조체, 고딕체
내용
- 기본사항
  - 이름, 연락처
- 학력사항
  - 최종학력, 취득예정학력
  - 학교명, 학위명, 재학기간과 학위과정 중 지원하는 직무와 관련잇는 수업 명
- 이력사항
  - 근무회사, 직책명, 근무기간
  - 직무세부사항
    - 무엇을 '했는지' 보다 무엇을 '이뤘는지' 를 강조해야 함
- 기타사항

3) 자기소개서

4) 면접

LIST

저작자표시

'Book' 카테고리의 다른 글

머신러닝 디자인패턴 (0)	2022.01.08
[요약] 위대한 나의 발견 강점혁명 Strengths Finder 2.0 (0)	2022.01.07
[요약] 생각정리스킬 (0)	2021.12.19
[방법] 한페이지 독서정리법 (0)	2021.12.19
[방법] 독서모임 발제문 작성 방법 (0)	2021.12.18

[데이터과학][빅데이터] 빅데이터 커리어 가이드북 정리하기

저자의 말

추천사

서문

책의 구성

1장 빅데이터 세상

- 빅데이터 정의, 빅데이터 직업의 변화 및 직업의 탄생

- 빈번하게 등장하는 업무와 특징을 기준으로 빅데이터 전문가 여섯 직무로 나눔

- 직무가 서로 현업의 다른 부서와 유기적으로 작동하는 과정을 보여 주기 위해 실제 회사에서 진행한 프로젝트를 바탕으로 케이스 스터디를 실었음

2장 빅데이터 직무

- 각 직업의 구체적인 업무를 상세히 설명

- 다양한 환경에서 근무하는 빅데이터 전문가의 인터뷰

3장 빅데이터 지식

- 빅데이터 직무 별로 반드시 갖춰야 할 핵심적인 지식 및 기술적 역량

- 선형대수학, 통계기법 및 딥러닝도 포함

4장 빅데이터 취업

- 빅데이터 관련 취업 준비 과정

- 다른 분야와 어떻게 다른지, 현재 취업 시장에서 어떤 지식과 기술 및 태도를 요구하는지

대상 독자

북 맵

1장 빅데이터 세상

1. 빅데이터의 등장

01. 쌓이는 데이터02. 연산 기술의 발전 03. 데이터 개방과 융합

2. 기업의 변화

01. 기존 기업의 전환

02. 새로운 기업의 출현03. 미래 기업의 모습

3. 빅데이터 직무를 정의하는 이유

01. 직무 공고 현황02. 직무 정의

4. 직무별 개관

01. 직무별 한 줄 설명

1) 데이터 엔지니어

2) 데이터 애널리스트

3) 데이터 사이언티스트

4) 데이터 리서처

5) 데이터 기획자 (데이터 프로젝트 매니저)

6) 시티즌 데이터 사이언티스트

02. 직무별 직무기술서

5. 케이스 스터디

01. 빅데이터팀 구성02. 데이터베이스 구축과 시각화 도구 도입03. 분석 환경 설계 및 구축04. 고객 이탈 예측 모델 개발

2장 빅데이터 직무

1. 데이터 엔지니어 - 조직 내 데이터의 운용을 담당

01. 데이터 엔지니어의 업무

02. 성공 요소

03. 데이터 엔지니어 인터뷰 1

03. 데이터 엔지니어 인터뷰 2

2. 데이터 애널리스트 - 경영진을 비롯한 여러 이해관계자가 데이터를 올바르게 이해하고 데이터에서 가치를 발굴하도록 도와주는 것

01. 데이터 애널리스트의 업무

02. 성공 요소

03. 데이터 애널리스트 인터뷰1

04. 데이터 애널리스트 인터뷰2

01. 데이터 사이언티스트의 업무

02. 성공 요소

03. 데이터 사이언티스트 인터뷰1

04. 데이터 사이언티스트 인터뷰2

4. 데이터 리서처 - 빅데이터 전문 인력 중에서 좀 더 높은 수준의 빅데이터 전문 지식을 갖춘 연구 인력

01. 데이터 사이언티스트의 업무

02. 성공 요소

03. 데이터 리서처 인터뷰1

04. 데이터 리서처 인터뷰2

5. 시티즌 데이터 사이언티스트 - 파워블로거와 비슷, 기업 내 파워 데이터 유저로서, 본래의 주업무가 있지만 빅데이터에 관심을 바탕으로 자신의 능력과 영역을 확장 시키는 인재

01. 시티즌 데이터 사이언티스트의 업무

6. 데이터 기획자 - 빅데이터 프로젝트를 계획, 운영, 관리, 빅데이터를 통해 혁신적인 가치를 창출하는 프로젝트를 총괄하는 만큼, 빅데이터에 대한 기본적 지식을 갖춰야 함

3장 빅데이터 지식

1. 예비 빅데이터 전문가를 위한 지식 - 3장을 어떻게 활용하면 좋을지에 대한 내용

01. 빅데이터 지식 마당 활용법

02. 공부 자료 활용법

2. 빅데이터 프로젝트 - 여러 전문가가 모여 일하는 프로젝트가 어떻게 진행되는지 알아보기

[빅데이터 사이클]

01. 문제정의

02. 데이터 수집 및 이해

03. 데이터 분석과 모델링

04. 배포 및 적용

3. 시각화 -

01. 시각화의 유형

02. 공부 자료

4. 데이터 분석 소프트웨어

01. 이렇게 공부하세요

02. 데이터 분석 소프트웨어

5. 웹 크롤링

01. 웹 크롤링 기법

01. 쌓이는 데이터
02. 연산 기술의 발전
03. 데이터 개방과 융합

02. 새로운 기업의 출현
03. 미래 기업의 모습

01. 직무 공고 현황
02. 직무 정의

01. 빅데이터팀 구성
02. 데이터베이스 구축과 시각화 도구 도입
03. 분석 환경 설계 및 구축
04. 고객 이탈 예측 모델 개발