데이터는 세계를 표현하는 퍼즐의 하나의 조각이 된다 어떤 측정도구를 사용해서 현상 기록한 것 그래서 측정도구의 신뢰도 타당도를 많이 보게 됨 데이터는 팩트. 항상 같은 결과가 나와야 하고 신뢰할 수 있어야 한다. 주관적인 데이터는 좋은 퀄리티가 되지 않는다. 두번째 특징은 데이터 자체가 의미는 없다. context가 필요. 그리고 마지막으로 실제 세계를 표현한 것. 자연어를 처리하기 위한 유명한 알고리즘은 word2vec 단어를 벡터로 표현하는 알고리즘. feature 수치 또는 디지털화된 형태로 표현한걸 feature이라 한다. 예를 들어 단어를 숫자형태로 만드는 것. 이미지변환이 가장 대표적인 예. 타이타닉호 티켓을 보고 성별, 등급 등을 -> 컴퓨터의 디지털 형태로 변환. feature은 머신러닝에..