대학원생 때는 캐글, 연구 그리고 공공 데이터를 통해서 데이터를 얻었었다.
그렇게 얻은 데이터를 (주로 csv 파일) 가지고 R을 통해서 분석을 진행하였다.
하지만 이번에 회사에 들어오면서 느낀 점은 R로 데이터를 불러오기까지가 여간 쉽지 않다는 것이다.
하지만! 이전과 다른 점은 모든 데이터를 사용할 수가 없다는 점이다.
왜냐하면 빅쿼리 안에 테이블이 정말 많고 각 테이블에 해당하는 데이터도 너무 * 100으로 많다.
(아마 지금도 계속해서 쌓이고 있을 것이다.)
모든 데이터를 불러온다면 아주 많은 돈이 드는 것은 물론이고
운 좋게(?) 불러온다고 하더라도 R과 컴퓨터가 동작하지 않을 것이다.
그래서 효율적인 쿼리를 사용해서 가설을 세우고 필요한 데이터만 추출해 와야 한다.
이 부분에서 쿼리가 필요한데 평소에 쓰던 쿼리라고는 select * from tbl_name 정도였다!
그래서 이 부분에서 빅쿼리 & 쿼리에 대한 공부가 필요하다고 계속 생각이 든다.
아마도 이번 주말부터 정해진 가설에 필요한 데이터 추출 쿼리를 짜기 위해서 공부할 생각이다.
(말이 너무 어렵다.....)
매번 새로운 툴에 적응하는 것은 쉽지 않고 다른 차원(?)의 사고를 요구하는 것 같다.
그럼 이만
'잡다한 이야기' 카테고리의 다른 글
넷플릭스 규칙 없음 (0) | 2020.11.21 |
---|---|
데이터를 볼 때 중립 유지하기. (0) | 2020.09.04 |
하이퍼커넥트 면접 후기 (3) | 2020.07.19 |
SK C&C 데이터분석 직무역량 후기 (Data Analytics) (5) | 2020.07.02 |
소개 (0) | 2020.07.01 |
댓글