반응형

파이썬/NIPA 데이터분석 강의 16

NIPA 온라인선택 데이터 머신러닝 03 머신러닝을 위한 데이터 이해하기

데이터는 세계를 표현하는 퍼즐의 하나의 조각이 된다 어떤 측정도구를 사용해서 현상 기록한 것 그래서 측정도구의 신뢰도 타당도를 많이 보게 됨 데이터는 팩트. 항상 같은 결과가 나와야 하고 신뢰할 수 있어야 한다. 주관적인 데이터는 좋은 퀄리티가 되지 않는다. 두번째 특징은 데이터 자체가 의미는 없다. context가 필요. 그리고 마지막으로 실제 세계를 표현한 것. 자연어를 처리하기 위한 유명한 알고리즘은 word2vec 단어를 벡터로 표현하는 알고리즘. feature 수치 또는 디지털화된 형태로 표현한걸 feature이라 한다. 예를 들어 단어를 숫자형태로 만드는 것. 이미지변환이 가장 대표적인 예. 타이타닉호 티켓을 보고 성별, 등급 등을 -> 컴퓨터의 디지털 형태로 변환. feature은 머신러닝에..

NIPA 온라인선택 데이터 머신러닝 02 데이터 과학자 이해하기 for 비전공자

이번 주차 목표는 데이터과학자의 업무 살펴보기 2012년 10월 HBR에 실린 이 "the sexiest job of the 21st century"라는 글은 데이터 과학자가 이런 사람이구나 알 수 있음 좋은 글이니 꼭 읽어보길 데이터과학자를 소개할 때 사용되는 벤다이어그램. 드루 코네인이라는 사람이 데이터과학자에게 이런 스킬이 필요하다 하며 그린 그림. 컴퓨터 능력, 데이터 분석, 해석 능력 그리고 현실의 문제를 해결할 때 필요한 도메인 전문성 비즈니스 이해를 가진 실무자가 비즈니스 문제를 해결하기 위한 가설을 설정하고 해결하고 검증해내가는 전반의 능력 모두 포괄하고 있다. 각 영역을 보면.. 머신러닝-- 기존 연구되어 왔던 분야. 프로그래밍 스킬과 통계학 지식이 있는 사람들. 그리고 이런 사람이 하는..

NIPA 온라인선택 데이터 머신러닝 01 머신러닝과 과학 이해하기

01 머신러닝과 데이터 과학 이해하기 시작! 페이팔(핀테크 회사)에서 사기 탐지 시스템을 만듬 기술통계 (현상 발생에 대해 사실적 기술) -> 분석(원인 찾기) -> 예측(미래 방향) -> 의사결정 지원 (단순히 예측이 아니라 행동 결정지원) 데이터과학은 단일한 학문이라기 보다 통계나 패션인식 ai 데이터베이스 등 다양한 학문들이 얽혀있는 융복합 학문으로 불리고 있다. 얽혀있다보니 a라는 개념은 다른데에서 b'로 불리기도 하고 공유하는 것도 많고.. 데이터 과학 영역에서 융합형 인재를 원하게 되었다. 더 나은 의사결정은 더 나은 수익, 비즈니스을 위함 우리 수업도 비즈니스 도메인의 관점에서 진행할 예정 이제 머신러닝 배울 예정. 세 관점이 전통적으로 존재. 상관관계를 찾는게 빅데이터가 크다. 대머리가 늘..

NIPA 데이터분석 첫번째 활용선택 : 06 실력확인테스트

드디어 초급 데이터분석 활용선택과정이 끝났다ㅏㅏㅏ 3시간 수업 / 초금 / 실습문제 수 44개 / 수강생수 1354명 잭이 심은 가장 두꺼운 콩나무 이번엔 콩나무들 중 가장 두꺼운 콩나무는 어떤 것인지 찾아봅시다! 문제 csv 파일을 불러옵니다. 콩나무 데이터에서 둘레(circumference) 값을 확인합니다. 콩나무들의 둘레를 내림차순으로 정렬합니다. 콩나무들 중 가장 둘레가 두꺼운 콩나무를 찾고, 데이터 프레임에서 해당 콩나무의 인덱스에 해당하는 값을 출력하세요. 출력되는 값은 모든 컬럼이 포함되어야 합니다. from elice_utils import EliceUtils import pandas as pd elice_utils = EliceUtils() def main(): # ./data/tree..

NIPA 데이터분석 첫번째 활용선택 : 05 월드컵 데이터 분석해보기

데이터 분석이란? 데이터 분석은 주어진 자료를 가공하여 원하는 정보와 결론을 얻어내는 일련의 처리 과정을 의미합니다. 데이터 분석은 보통 아래의 단계로 이루어집니다. 주제 선정 데이터 구조 파악 데이터 전처리 데이터 분석 구현 주제 선정 어떤 데이터를 선정할 지, 데이터에서 어떤 가설을 세우고 분석을 시작할 지, 어떤 결론을 원하는 지 등 데이터 분석의 목적을 세웁니다. 데이터 구조 파악 데이터를 분석하기 위해서, 데이터가 저장된 형태와 자료형, 변수 이름 등을 미리 파악해야 합니다. 또는 데이터 프레임에 통계량 함수를 적용하여, 데이터의 분포도나 성향 등을 파악할 수 있습니다. 데이터 전처리 데이터를 분석하기 전, 필요한 변수만을 추출하거나 기존의 변수로 새로운 변수를 계산하여 만들기도 합니다. 데이터..

NIPA 데이터분석 첫번째 활용선택 : 04 Matplotlib 2 - with pandas

1. 대통령 키 데이터에 대해 그래프를 그려보자 plot첫번째 인자인 x에 대해서는 order 몇 대대통령인지 y에 대해선 키를 설정. label= height도 세번째 인자로 추가. set_xlabel set_ylabel 핵심은 시리즈 데이터값을 x, y로 넣을 수 있다는 것 2. 다음은 포켓몬스터 데이터다. 타입, 이름 등등 3. 불과 물 포켓몬의 공격과 물 의 scatter그래프를 그려 분포를 확인해보고자 한다. fire = df[ () | () ] masking연산으로 타입이 맞는 애들을 골라온다. 타입 하나가 불이기만 하면 불로본다 물도 마찬가지. scatter에선 x로 attack를 y로는 defense를 설정한다. fire과 water각각으로 그려야 한다. from elice_utils im..

NIPA 데이터분석 첫번째 활용선택 : 04 Matplotlib 1 - line plot 옵션과 scatter bar hist

활용선택 4번째 시간 Matplotlib다 1. 넘파이 판다스 같은 라이브러리와 함께 결합해서 손쉽게 그래프로 그릴 수 있는 라이브러리! 2. plt.plot함수로 x와 y를 넣으면 그래프 성공 3. title label을 넣을 수 있다. 4. 이 object-oriented style 객체 기반 스타일로 그래프 그리기. 전 슬라이드는 자동적으로 피규를 생성했다면 얜 손수 만들어주는 것. subplots의 경우 객체가 두개 필요. ax에 x와 y를 앞 슬라이드처럼 그대로 넣어주고 아까랑 다르게 set_이 앞에 필요하다. 이렇게 두가지 스타일이 있다. 명시적으로 figure ax 를 만들어주는 얘를 수업에서 쓸 예정 5. figure는 도화지다 axes는 그래프 legend 범례 6. 저장할 때는 figu..

NIPA 데이터분석 첫번째 활용선택 : 03 Pandas 심화 -b pivot 피리부는사나이

13. index column 모두 계층적으로 만들 수 있다. [A A B B ]가 [1 2 1 2] 보다 앞에 선언되었으므로 더 상위 계층으로 본다. A랑 B같은 경우 숨겨진 상태가 된다. 14. 다중 인덱스 컬럼의 경우 계층적으로 확인한다. loc iloc그대로 사용가능하다. 15. 엑셀의 pivot테이블과 같다. 탐색 조건에 3개가 필요하다. 위의 예시는 그 유명한 타이타닉 데이터다. 16. pivot_table함수를 썼다. index는 sex를 columns는 class로 두고 값을 데이터 프레임을 구성한다. values값은 0과 1로 이루어졌던 survived이다. aggfunc는 값을 채우는 함수로 np.mean즉 0 1로 구성된 값들의 평균으로 값을 치우게 된다. 17. 다음 pivot_ta..

NIPA 데이터분석 첫번째 활용선택 : 03 Pandas 심화 -a apply group

1. numpy array 와 마찬가지로 masking 연산이 가능하다. 0.5보다 작다로 true false 만드는 걸 masking의 배경이 된다 np.random.randint 균일 분포의 정수 난수 1개 생성 np.random.rand 0부터 1사이의 균일 분포에서 난수 matrix array생성 np.random.randn 가우시안 표준 정규 분포에서 난수 matrix array생성 random의 대표적 세개 모듈 설명 위의 예시에서는 rand니까 0~1사이 균일 분포에서 난수 생성한 거다. 2. 둘다 true인 애들이 0하고 2이다. df[df["a"]~ 외에도 df.query로 줄글 써서 쉽게할 수도 있다 3. animal 칼럼이 있다. 그리고 우리는 cat만 찾아내고 싶다 df["anima..

NIPA 데이터분석 첫번째 활용선택 : 02 Pandas 기본 알아보기

그다음 강의~ 5분 남짓한개 5개? 정도 있어서 귀찮지만 않으면 다 들을 수 있다 화이팅하자! 1. 라이브러리 강의 그 두번째 시간 저번에 Numpy 다음으로 pandas라이브러리에 대해 배워보겠다 pandas란 구조화된 데이터를 효과적으로 처리하고 저장할 수 있는 파이썬 라이브러리다. array 계산에 특화된 numpy를 기반으로 만들어져 다양한 기능을 제공한다. 특히 엑셀과 같은 스프레드 시트 등에 익숙하고 강력한 연산을 제공한다 2강에서는 시리즈 데이터와 데이터프레임에 대해 배워보겠다 2. 시리즈는 특수한 딕셔너리라고 보면 쉽다 numpy array가 보강된 형태다 pd.Series데이터를 만들면 오른쪽 처럼 나온다 인덱스는 0 1 2 3 으로 지정 값은 1 2 3 4 !! 결국 numpy arra..

반응형