지금, 나는 

Art is anything you can get away with.

반응형

9기 3

4주차 통계

정리된 데이터에서 유의미한 관계를 찾기 위해 통계를 이용한다. 평균 일반적으로 (산술)평균은 값을 모두 더해 개수로 나눈 것을 의미한다. 이와 달리 가중 평균은 각 값의 중요도에 따라 가중치를 부여하여 계산하는 평균값이다. 여기서는 나누는 값이 개수가 아닌 가중치의 총합이다. 이외에도 평균을 구하는 방식은 다양하다. 따라서 요약된 통계량은 오해를 일으키기 쉽기에 주의해야 한다. 중앙값 말 그대로 순서대로 놓았을 때 중앙에 위치한 값이다. 중복된 값을 포함하느냐에 따라 값이 달라지기도 한다. (홀수의 경우 중앙의 두 값을 평균한다) 분위수 분위수는 데이터를 늘어 놓았을 때 균등한 간격으로 나누는 기준점을 말한다. 주로 사분위수를 사용하며, (25%, 50%, 75%)로 각각 (제1, 제2, 제3)사분위수로..

3주차 정리

3단원은 이다. 저번에 데이터를 수집했다면 이번엔 수집한 데이터를 편집한다. 전에 웹에서 데이터는 CSV, JSON, XML 등의 형식으로 주어진다고 배웠다. 이러한 데이터들은 파이썬의 '판다스'를 통해 '데이터 프레임'의 모습으로 정리된다. 파이썬의 방식으로 엑셀을 다루는 느낌이다. 파이썬은 문자열을 다루는 게 편리한 것 같다. 몇 가지 명령어로 셀 하나하나 필요한 부분만 남길 수 있고, 심지어 다른 열의 정보를 바탕으로 크롤링을 통해 누락된 셀을 자동으로 채울 수 있다. 더군다나 이 모든 과정을 함수로 자동화할 수 있다는게 가장 큰 장점인 것 같다. 같은 인덱스로 저장된 파일에 대해서 동일한 알고리즘으로 빠르게 원하는 모습으로 바꿀 수 있기 때문이다. 기본 미션 #2 데이터 프레임에서 열을 선택할 때..

데이터 분석 1주차

데이터 분석은 쉽지 않은 작업이다. 양질의 데이터를 마련할 수 있어야 하고 데이터를 정제해서 사용하기 편하게 만들어야 하고 데이터 속에서 분석할 요소를 찾아야 하고 투명하고 합리적인 방법으로 분석해서 이해하기 쉽게 시각화해서 결론을 도출해야 하기 때문이다. 그래서 크롤링부터, 데이터베이스(sql), 통계학 등등 꽤 넓은 지식이 필요하다.. (아는 만큼 보이기에 많이 알수록 더 다양하고 명확한 분석이 가능하다) 이젠 국민 프로그램이 된 파이썬으로 데이터 분석이라니 기대된당^^ '혼공 학습단 8기'에서 썼던 구글 코랩 다시 쓰니까 좋다 뭘 깔아야 할 필요도 없고 메모리, 디스크 사용량도 볼 수 있고 셀 단위로 실행 가능해서 편리 그 잡채 기본 미션 #4 판다스 read_csv() 함수는 말 그대로 csv 파..

728x90