반응형
Numpy 1 - 배열과 벡터
- Numpy ndarray : 다차원 배열 객체
- ndarray 사용
- [참고] 파이썬 리스트의 산술 연산
- ndarray 생성
- [참고] np.array 는 생성될 때 적절한 자료형을 선택 한다
- np.zeros(): 0으로 초기화된 배열 생성
- np.empty(): 초기화 되지 않은 배열 생성
- np.arange(): 파이썬 range() 함수의 배열 버전
- ndarray 의 자료형
- 타입변경 : astype() 메소드
- [참고] dtype 축약코드
- 배열과 스칼라 간의 연산
- 인덱싱 (색인) 과 슬라이싱
- 브로드캐스팅
- 배열 조각은 원본 배열의 view 를 리턴 (파이선 리스트의 슬라이싱은 복사본을 리턴)
- slicing : 사용 예
- 2차원, 3차원 배열 제어
- 슬라이스 색인
- add2d[:2, 1:]
- 불리언 색인
- !=, ~ 으로 부정
- 불리언 색인 시 항상 데이터 복사
- 팬시 색인
- 배열 전치와 축 바꾸기
- ndarray 사용
- 유니버설 함수
- 단항 유니버설 함수
- 이항 유니버설 함수
- 배열을 사용한 데이터 처리
- 벡터화
- 배열 연산으로 조건절 표현하기
- 수학 메서드와 통계 메서드
- 연산을 진행할 축을 선택 (행방향 : axis = 0, 열방향 : axis = 1) - Default : axis = 0
- 누적 연산 - cumsum(), cumprod(): 중간 계산 값을 담고 있는 배열을 반환
- 기본 배열 통계 메서드
- 불리언 배열을 위한 메서드
- 배열의 값이 0 이면 False, 그 외 나머지는 모두 True 로 취급
- 정렬
- 다차운 배열의 정렬
- 집합 함수
- np.in1d()
- 배열 집합 연산
- 배열의 파일 입/출력
- 배열을 바이너리 형식으로 디스크에 저장하기
- 텍스트 파일 불러오기와 저장하기
- 선형대수
- 난수 생성
- numpy. random 함수
- 예제 : 계단 오르내리기
Numpy 2 - tutorial
- The basics
- An example
- Array creation
- Printing Arrays
- Basic Operations
- Universal Functions
- Indexing, Slicing, and Iterating
- Shape maniplation
- Changing the shape of an array
- Stacking together different arrays
- Splitting one array into several smaller ones
- Copies and Views
- No copy at all
- View or shallow copy
- Deep copy
- Fancy indexing and index tricks
- indexing with arrays of indices
- Indexing with boolean arrays
- The ix_() function
- Linear algebra
- Simple array operations
- Tricks and tips
- Automatic reshaping
- Vector stacking
- Histogram
Pandas 1 - 자료구조 : Series, DataFrame
- Pandas 자료 구조
- Series
- NaN
- DataFrame
- DataFrame 객체 생성
- 행 선택시 사용 메소드 : index 이름 - loc(), index 위치 - iloc()
- 중첩된 사전을 이용해서 데이터 생성
- index를 직접 지정한다면 지정된 색인으로 DataFrame 생성
- DataFrame 생성자에서 사용 가능한 입력 데이터
- 색인 객체
- Pandas의 주요 Index 객체
- 인덱스 메서드
- Series
- 핵심기능
- 재색인 - reindex()
- [참고] reset_index(), set_index()
- [참고] rename() : 컬럼 이름 변경
- 시계열 같은 순차적 데이터를 재색인할 때 값을 보간하거나 채워 넣어야 할 경우
- reindex 메서드 (보간) 옵션
- 재색인 함수 인자
- 행 또는 열 삭제
- 색인하기, 선택하기, 거르기
- Series
- 라벨 이름으로 슬라이싱 하면 시작점과 끝점을 포함 한다
- DataFrame
- 열을 기준으로 선택
- 슬라이싱 이나 불리언 배열을 사용하면 행을 기준으로 선택
- loc() : index이름 , iloc() : index 위치
- 산술연산과 데이터 정렬
- Series
- DataFrame
- 산술연산 메서드에 채워 넣을 값 지정하기
- 산술연산 메서드
- 브로드캐스팅
- 함수 적용과 매핑
- Series 의 apply(), map() 차이 비교
- [비교] 문자열 합치기
- 정렬과 순위
- 중복 색인
- 재색인 - reindex()
- 기술통계 계산과 요약
- 기술통계 계산과 요약
- 축소 메서드 옵션
- 기술통계와 요약통계
- 상관관계와 공분산
- 유일 값, 도수
- 유일 값, 도수
- DataFrame 의 여러 행에 대한 히스토그램
- 기술통계 계산과 요약
- 누락된 데이터 (결측치) 처리하기
- NA 처리 메서드
- 누락된 데이터 골라내기
- 누락된 값 채우기
- fillna 함수 인자
- 계층적 색인
- MultiIndex 는 따로 생성한 다음에 재사용
- 계층 순서 바꾸고 정렬하기
- Swallevel 은 넘겨받은 2개의 계층 번호나 이름이 뒤바뀐 새로운 객체를 반환 (하지만 데이터는 변경되지 않는다)
- 단계별 요약 통계
- DataFrame 의 컬럼 사용하기
Pandas 2 - 파일입출력 : 데이터 로딩, 저장, 파일 형식
입출력방법
- 텍스트파일
- Pandas 파일 파싱 함수
- Pandas 파일 파싱 함수 옵션
- 텍스트 파일 읽기
- 계층적 색인을 지정
- 구분자로 정규표현식 사용 가능
- 결측치 문자열 정의
- read_csv / read_table 함수 인자
- 텍스트 파일 일부분만 읽기
- nrows : 처음 몇 줄만 읽기
- chunksize : 일정량의 데이터를 순회하면서 조회 가능
- 텍스트 파일에 쓰기
- na_rep : NaN(결측치) 을 원하는 값(문자열) 으로 출력
- index, header
- 컬럼 일부분만 출력, 컬럼 순서 지정
- 텍스트 파일 수동 처리 (읽기, 쓰기)
- CSV 파일 읽기
- 사용자 정의 : 다양한 규칙을 클래스로 구현 (csv.Dialect 상속)
- CSV 파일 쓰기
- 엑셀 파일
- JSON 파일
- Library : Pandas
- url 사용
- file 사용
- buffer 사용
- Library: json
- json.load()
- json.dumps()
- JSON 객체 사용 예
- 바이너리 파일
- pickle
- 데이터를 효율적으로 저장하는 가장 손쉬운 방법
- HDF5 (Hierarchical Data Format)
- pickle
- HTML, 웹 API 와 함께 사용하기
- 데이터베이스 (DBMS)
- DB : Memory 사용
- Connect to DBMS
- Create Table
- Insert Data
- Select Data
- Select Data (Pandas 사용)
- Disconnect from DBMS
- DB : File 사용
- Connect to DBMS
- Create Table
- Insert Data
- Select Data
- Disconnect from DBMS
- DB : Memory 사용
Pandas 3 - 데이터 처리
- 데이터 합치기 - merge, join, concat
- DBMS 스타일로 DataFrame 합치기
- merge() 함수
- inner join
- outer join
- [참고] 데카르트 곱 (Cartesian product)
- merge() 함수
- 색인으로 머지하기
- 다중 색인
- join () 함수 : DataFrame 2개 이상 조인 가능
- 축 따라 이어붙이기
- concat()
- 인덱스, 컬럼 명 설정 (계층적 색인 생성)
- DataFrame
- 인덱스 삭제
- 겹치는 데이터 합치기
- combine_first()
- DBMS 스타일로 DataFrame 합치기
- 재형성과 피벗
- 계층적 색인으로 재형성하기
- 누락된 데이터 처리
- 데이터 나열 형식 변경
- Pivoting "Long" to "Wide" Format
- pivot()
- [비교]
- Pivoting "Wide" to "Long" Format
- melt()
- Pivoting "Long" to "Wide" Format
- 계층적 색인으로 재형성하기
- 데이터 형성
- 중복 제거하기
- 함수나 매핑 이용해 데이터 변형하기
- map() , apply()
- 값 치환하기
- replace()
- 축 색인 이름 바꾸기
- 데이터 분류 (빈도수 세기)
- cut, qcut, value_counts
- 이상치 (Outliers) 제거
- 치환과 임의 샘플링
- 더미 변수 (One-Hot-Encoding)
- 문자열 다루기
- 문자열 객체 메서드
- 정규표현식
- Pandas 의 벡터화된 문자열
- SEries 의 각 요소에 순차적으로 적용
- Pandas 문자열의 정규표현식
Pandas 4 - 그룹 연산
- GroupBy Mechanics
- GroupBy
- Series Groupby
- DataFrame Groupby
- 그룹간 순회
- 컬럼 쪽 축으로 GroupBy
- 컬럼의 일부 선택
- 컬럼선택
- 관용적 표현
- 사전과 Series 에서 묶기
- 함수로 묶기
- 여러가지 타입 혼합해서 묶기
- 색인 단계로 묶기
- GroupBy
- 데이터 수집
- 집계함수 적용
- Groupby 매서드
- 사용자 정의 함수
- 컬럼에 여러 가지 함수 적용
- 인덱스 제거 : reset_index() 와 동일
- 집계함수 적용
- 그룹별 연산과 변형
- transform() 함수
- apply() 함수 : 분리 - 적용 - 병합
- 그룹 색인 생략
- 변위치 분석과 버킷 분석
- 예제 : 그룹별 결측치 처리
- 피벗 데이블, 교차 일람표 (Cross Table)
- 피벗 데이블
- 교차 일람표 (Cross Table)
Pandas 5 - 시계열 분석
- 날짜와 시간
- Datetime 모듈 자료형
- 문자열과 datetime 간 변환
- parser 유틸리티 이용
- Pandas 이용 : 색인객체로 생성
- 시계열 기초
- 인덱싱
- DataFrame
- 중복된 색인 (시계열)
- 인덱싱
- 날짜 다루기
- 날짜 범위 생성
- 빈도와 날짜 오프셋
- 데이터 쉬프트
- 시간대 다루기
- 지역 시간대 변환
- 지역 시간대 (Timestamp 객체)
- 다른 시간대 연산
- 기간과 기간 연산
- Period 의 빈도 변환
- 분기 빈도
- 타임스탬프와 Period 간 변환
- 배열로 PeriodIndex 생성
- 리샘플링과 빈도 변환
- Downsampling
- Open-High-Low-Close (OHLC) resampling
- Upsampling
- 기간샘플링
- Downsampling
- 참고
- Moving Window Functions
- Exponentially Weighted Functions
- Binary Moving Window Functions
- User-Defined Moving Window Functions
- Moving Window Functions
Matplotlib
- Matplotlib API
- 환경설정
- 한글 폰트 다운로드
- 시스템 폰트 찾기
- 한글 폰트 설정
- 한글 폰트 설정 확인
- Figure 와 subplot
- 여러개의 그림판 생성
- subplots() 옵션
- 여러개의 그림판 배열로 생성
- Line Chart
- Bar Chart
- Pie Chart
- Scatter Chart
- 색상, 마커, 선 스타일
- Matplotlib 스타일
- Color
- Line
- 조합
- 눈금, 라벨, 범례
- 제목 축 이름, 눈금 이름
- 범례 추가
- 주석, 그림 추가
- 주석
- 그림
- 파일로 저장
- 환경설정
- Pandas 에서 그래프 그리기
- 선 그래프
- 막대 그래프
- [참고] seaborn
- 히스토그램, 밀도 그래프
- 산포도
Scipy
scikit-learn
반응형
LIST
'Programming' 카테고리의 다른 글
[Python][문법] 기초 - 2. 변수 타입 (0) | 2022.01.02 |
---|---|
[Python][문법] 기초 - 1. 파이썬 소개 (0) | 2022.01.02 |
[Python][Library] 3. matplotlib - 1. 시각화 (0) | 2022.01.02 |
[Python][Library] 2. Pandas - 5. 시계열 (0) | 2022.01.02 |
[Python][Library] 2 Pandas - 4. 그룹 연산 (0) | 2022.01.02 |