반응형

파이썬 68

NIPA 데이터분석 첫번째 활용선택 : 05 월드컵 데이터 분석해보기

데이터 분석이란? 데이터 분석은 주어진 자료를 가공하여 원하는 정보와 결론을 얻어내는 일련의 처리 과정을 의미합니다. 데이터 분석은 보통 아래의 단계로 이루어집니다. 주제 선정 데이터 구조 파악 데이터 전처리 데이터 분석 구현 주제 선정 어떤 데이터를 선정할 지, 데이터에서 어떤 가설을 세우고 분석을 시작할 지, 어떤 결론을 원하는 지 등 데이터 분석의 목적을 세웁니다. 데이터 구조 파악 데이터를 분석하기 위해서, 데이터가 저장된 형태와 자료형, 변수 이름 등을 미리 파악해야 합니다. 또는 데이터 프레임에 통계량 함수를 적용하여, 데이터의 분포도나 성향 등을 파악할 수 있습니다. 데이터 전처리 데이터를 분석하기 전, 필요한 변수만을 추출하거나 기존의 변수로 새로운 변수를 계산하여 만들기도 합니다. 데이터..

NIPA 데이터분석 첫번째 활용선택 : 04 Matplotlib 2 - with pandas

1. 대통령 키 데이터에 대해 그래프를 그려보자 plot첫번째 인자인 x에 대해서는 order 몇 대대통령인지 y에 대해선 키를 설정. label= height도 세번째 인자로 추가. set_xlabel set_ylabel 핵심은 시리즈 데이터값을 x, y로 넣을 수 있다는 것 2. 다음은 포켓몬스터 데이터다. 타입, 이름 등등 3. 불과 물 포켓몬의 공격과 물 의 scatter그래프를 그려 분포를 확인해보고자 한다. fire = df[ () | () ] masking연산으로 타입이 맞는 애들을 골라온다. 타입 하나가 불이기만 하면 불로본다 물도 마찬가지. scatter에선 x로 attack를 y로는 defense를 설정한다. fire과 water각각으로 그려야 한다. from elice_utils im..

NIPA 데이터분석 첫번째 활용선택 : 04 Matplotlib 1 - line plot 옵션과 scatter bar hist

활용선택 4번째 시간 Matplotlib다 1. 넘파이 판다스 같은 라이브러리와 함께 결합해서 손쉽게 그래프로 그릴 수 있는 라이브러리! 2. plt.plot함수로 x와 y를 넣으면 그래프 성공 3. title label을 넣을 수 있다. 4. 이 object-oriented style 객체 기반 스타일로 그래프 그리기. 전 슬라이드는 자동적으로 피규를 생성했다면 얜 손수 만들어주는 것. subplots의 경우 객체가 두개 필요. ax에 x와 y를 앞 슬라이드처럼 그대로 넣어주고 아까랑 다르게 set_이 앞에 필요하다. 이렇게 두가지 스타일이 있다. 명시적으로 figure ax 를 만들어주는 얘를 수업에서 쓸 예정 5. figure는 도화지다 axes는 그래프 legend 범례 6. 저장할 때는 figu..

NIPA 데이터분석 첫번째 활용선택 : 03 Pandas 심화 -b pivot 피리부는사나이

13. index column 모두 계층적으로 만들 수 있다. [A A B B ]가 [1 2 1 2] 보다 앞에 선언되었으므로 더 상위 계층으로 본다. A랑 B같은 경우 숨겨진 상태가 된다. 14. 다중 인덱스 컬럼의 경우 계층적으로 확인한다. loc iloc그대로 사용가능하다. 15. 엑셀의 pivot테이블과 같다. 탐색 조건에 3개가 필요하다. 위의 예시는 그 유명한 타이타닉 데이터다. 16. pivot_table함수를 썼다. index는 sex를 columns는 class로 두고 값을 데이터 프레임을 구성한다. values값은 0과 1로 이루어졌던 survived이다. aggfunc는 값을 채우는 함수로 np.mean즉 0 1로 구성된 값들의 평균으로 값을 치우게 된다. 17. 다음 pivot_ta..

NIPA 데이터분석 첫번째 활용선택 : 03 Pandas 심화 -a apply group

1. numpy array 와 마찬가지로 masking 연산이 가능하다. 0.5보다 작다로 true false 만드는 걸 masking의 배경이 된다 np.random.randint 균일 분포의 정수 난수 1개 생성 np.random.rand 0부터 1사이의 균일 분포에서 난수 matrix array생성 np.random.randn 가우시안 표준 정규 분포에서 난수 matrix array생성 random의 대표적 세개 모듈 설명 위의 예시에서는 rand니까 0~1사이 균일 분포에서 난수 생성한 거다. 2. 둘다 true인 애들이 0하고 2이다. df[df["a"]~ 외에도 df.query로 줄글 써서 쉽게할 수도 있다 3. animal 칼럼이 있다. 그리고 우리는 cat만 찾아내고 싶다 df["anima..

NIPA 데이터분석 첫번째 활용선택 : 02 Pandas 기본 알아보기

그다음 강의~ 5분 남짓한개 5개? 정도 있어서 귀찮지만 않으면 다 들을 수 있다 화이팅하자! 1. 라이브러리 강의 그 두번째 시간 저번에 Numpy 다음으로 pandas라이브러리에 대해 배워보겠다 pandas란 구조화된 데이터를 효과적으로 처리하고 저장할 수 있는 파이썬 라이브러리다. array 계산에 특화된 numpy를 기반으로 만들어져 다양한 기능을 제공한다. 특히 엑셀과 같은 스프레드 시트 등에 익숙하고 강력한 연산을 제공한다 2강에서는 시리즈 데이터와 데이터프레임에 대해 배워보겠다 2. 시리즈는 특수한 딕셔너리라고 보면 쉽다 numpy array가 보강된 형태다 pd.Series데이터를 만들면 오른쪽 처럼 나온다 인덱스는 0 1 2 3 으로 지정 값은 1 2 3 4 !! 결국 numpy arra..

NIPA 데이터분석 첫번째 활용선택 : 01 NumPy와 연산 시작.

NIPA 데이터분석 첫번째 활용선택 : NumPy 사용해보기 2020/09/26 - [파이썬/NIPA 데이터분석 강의] - NIPA 온라인 데이터분석 체험 특강 : 04 그래프까지 NIPA 온라인 데이터분석 체험 특강 : 04 그래프까지 마지막으로 학습된 모델로부터 데이터를 예측해보� so-es-immer.tistory.com 1. 루프는 느리다. 파이썬에서 배열 요소 하나하나에 접근하는 건 느리게 수행된다 위와 같이 for문으로 하나하나 접근할 때 느리게 적용된다고 한다 거기다가 만약 100만개가 되면?? 매~우 느리다 대략 5.3초정도 걸린다 넘파이는 이런걸 미리 컴파일해서 시간이 무척 빠르다 big_array + 5 같이 넘파이 수행 2. 기본 연산 넘파이는 + - * / 와 같은 기본 연산을 수행..

NIPA 데이터분석 첫번째 활용선택 : NumPy 사용해보기

2020/09/26 - [파이썬/NIPA 데이터분석 강의] - NIPA 온라인 데이터분석 체험 특강 : 04 그래프까지 NIPA 온라인 데이터분석 체험 특강 : 04 그래프까지 마지막으로 학습된 모델로부터 데이터를 예측해보고, 실제 주가 데이터와 예측된 결과값이 어떠한지 확인해보도록 하겠습니다. 지난 실습까지 하여 모델을 성공적으로 학습시켰다면, 이제는 � so-es-immer.tistory.com 저번에 했던 체험형 특강을 다 듣고 이제 선택 강의를 듣게 되었다! 생각보다 유익하고 간단해서 즐겁게 들을 수 있을 것 같다 ;D 첫번째 강의는 01 NumPy 사용해보기다 (22개임 ㅋㅋㅋㅋㅋㅋㅋ) 1. NumPy는 Numerical Python의 줄임말이었다 (이름 귀여웠는데 그냥 Num Py 였던거임) ..

NIPA 온라인 데이터분석 체험 특강 : 04 그래프까지

마지막으로 학습된 모델로부터 데이터를 예측해보고, 실제 주가 데이터와 예측된 결과값이 어떠한지 확인해보도록 하겠습니다. 지난 실습까지 하여 모델을 성공적으로 학습시켰다면, 이제는 모델을 예측하는 일만 남았습니다. model.predict() 명령어 한 줄만 쓰면 끝나는 일이죠! 이제 model.predit()에 테스트 데이터를 넣어 주가를 예측해보도록 합시다. 마지막 강의는 이거 그래프만 추가하기로 1강 끝이다!! 뒤에 #--학습결과 그래프 확인~ 하는 부분이 추가된 부분 Dense등 함수를 사용하면서 이것저것 추가한 model에 predict함수만 쓰면 예측 즉 딥러닝을 수행한다!! fig = plt.figure(~은 하얀 바탕만들기.. ax = fig.add_subpot(111)은 (221)로 고쳐보..

NIPA 온라인 데이터분석 체험 특강 : 03 입력피처, 데이터셋나누기, kendas맛보기까지

마찬가지로 주가 예측을 위한 딥러닝 모델에는 주가와 관련된 양질의 데이터 구조가 설계되어야 합니다. 이를 입력피쳐(입력특성) 설계라고 합니다. 성능이 좋은 모델을 만드려면 양질의 데이터와 특성이 입력해야 합니다. 예를 들어 컴퓨터에게 고양이가 무엇인지 가르쳐주려면 뾰족한 귀, 큰 눈, 삐쭉한 수염과 같은 고양이에 맞는 데이터와 특성을 가르쳐주어야겠죠. 이번 실습에서는 각각의 날짜의 중간값과 중간값의 5일 이동평균 데이터(MA(5))를 입력피쳐로 만들어 데이터에 추가해보도록 하겠습니다. from datetime import datetime #날짜와 시간을 쉽게 조작할 수 있게 하는 클래스 제공 import pandas as pd import matplotlib.pyplot as plt import nump..

반응형