정리된 데이터에서 유의미한 관계를 찾기 위해 통계를 이용한다.
평균
일반적으로 (산술)평균은 값을 모두 더해 개수로 나눈 것을 의미한다.
이와 달리 가중 평균은 각 값의 중요도에 따라 가중치를 부여하여 계산하는 평균값이다.
여기서는 나누는 값이 개수가 아닌 가중치의 총합이다.
이외에도 평균을 구하는 방식은 다양하다.
따라서 요약된 통계량은 오해를 일으키기 쉽기에 주의해야 한다.
중앙값
말 그대로 순서대로 놓았을 때 중앙에 위치한 값이다.
중복된 값을 포함하느냐에 따라 값이 달라지기도 한다.
(홀수의 경우 중앙의 두 값을 평균한다)
분위수
분위수는 데이터를 늘어 놓았을 때 균등한 간격으로 나누는 기준점을 말한다.
주로 사분위수를 사용하며, (25%, 50%, 75%)로 각각 (제1, 제2, 제3)사분위수로 부른다.
수열(데이터의 나열)에 대해 분위수를 구하는 방법(보간)도 다양하다.
기본적으로 각 수에 대한 비례식을 이용한다.
이외에 두 수 사이의 중앙값을 사용하거나, 두 수 중 가까운 값을 선택하기도 한다.
(백분위 편하게 찾는법)
원하는 수(데이터)에 대해 값이 더 작은지 비교하여 불리언 배열을 만든 후
평균을 구하면 작은 값들이 차지하는 비율을 얻을 수 있고
이를 통해서 백분위를 추정할 수 있다.
분산, 표준편차
분산은 평균으로부터 데이터가 얼마나 퍼져있는지를 나타내는 통계량이다.
평균에 모일수록 분산이 작다.
분산은 편차(값-평균) 제곱의 평균으로 정의된다.
하지만 분산은 퍼져있는 정도만 표현 가능하기에 실질적인 쓰임새는 적다.
이를 보완하기 위해 분산에 제곱근을 씌운 표준편차를 사용한다.
제곱근을 통해 평균과 같은 단위를 사용하게 되며
흩어진 정도를 평균과 함께 비교할 수 있다.
최대, 최소, 최빈
최대, 최소는 말 그대로 데이터의 최대와 최소를 담당하는 값이다.
최빈값은 나타난 빈도가 제일 많은 값이다.
기술통계의 경우 숫자를 이용하여 다른 데이터와 비교하기는 좋지만,
전체적으로 한눈에 파악하기는 어렵다.
이때 그래프를 이용한다.
산점도
직교좌표계(2축, 3축)에 데이터를 흩뿌린 그래프이다.
주로 2차원으로 표현하며 각 특성값을 기준으로 데이터들의 분포를 확인할 수 있다.
특성값 간의 비교가 가능하므로, 양(비례) 또는 음(반비례)의 상관관계를 확인할 수 있다.
히스토그램
막대그래프라고도 부르며, 일정한 구간으로 나누어 포함된 데이터 개수(도수)를 나타낸 그래프이다.
따라서 구간을 잘 설정하는게 관건이다.
이를 표로 나타내면 도수분포표가 된다.
만약 한 구간의 도수가 너무 커서 다른 도수들이 보이지 않는다면,
로그 스케일을 사용하여 차이를 줄여서 표현하면 된다.
결국 히스토그램은 하나의 특성에 대한 분포를 확인하기 좋다.
하지만 여러 특성을 비교하기 위해서는 각 축의 범위를 맞춰야 한다는 번거로움이 있다.
상자 수염 그림
최대, 최소, 제 1, 2, 3 사분위수 총 5개의 수를 사용해 데이터를 요약한 그래프이다.
제 1, 3 사분위수로 상자를 만들고 위 아래로 1.5배 IQR 거리까지 수염(수직선)이 나있는 그림이다.
(IQR(interquartile range)이란 제 1, 3 사분위수 사이의 거리를 의미한다)
(수염의 길이는 따로 설정 가능하다)
이 수직선 밖의 최대, 최소값까지 데이터를 점으로 표시하며 이 영역을 이상치라고 부른다.
상자 수염 그림은 잘 생각해보면 히스토그램을 나열한 것과 비슷하다.
기본 미션 #5
ns_book7 남산도서관 대출 데이터에서 1980년~2022년 사이 발행된 도서에 대한
히스토그램은 다음과 같이 matplotlib을 이용해 그려볼 수 있다.
'Programming > 혼공분석 9기.py' 카테고리의 다른 글
6주차 객체지향 API 방식으로 그래프 그리기 (0) | 2023.02.13 |
---|---|
5주차 pyplot (1) | 2023.02.06 |
3주차 정리 (1) | 2023.01.16 |
2주차 데이터 수집 (1) | 2023.01.12 |
데이터 분석 1주차 (0) | 2023.01.02 |