hyuckee 2023. 1. 16. 08:00
반응형

3단원은 <데이터 정제하기>이다.

저번에 데이터를 수집했다면

이번엔 수집한 데이터를 편집한다.

 

전에 웹에서 데이터는 CSV, JSON, XML 등의 형식으로 주어진다고 배웠다.

이러한 데이터들은 파이썬의 '판다스'를 통해

'데이터 프레임'의 모습으로 정리된다.

파이썬의 방식으로 엑셀을 다루는 느낌이다.

 

파이썬은 문자열을 다루는 게 편리한 것 같다.

몇 가지 명령어로 셀 하나하나 필요한 부분만 남길 수 있고,

심지어 다른 열의 정보를 바탕으로

크롤링을 통해 누락된 셀을 자동으로 채울 수 있다.

 

더군다나 이 모든 과정을 함수로 자동화할 수 있다는게 가장 큰 장점인 것 같다.

 

같은 인덱스로 저장된 파일에 대해서

동일한 알고리즘으로 빠르게 원하는 모습으로 바꿀 수 있기 때문이다.


기본 미션 #2

데이터 프레임에서 열을 선택할 때는 열 이름을 리스트로 만들어 인덱스처럼 사용할 수 있다.

loc메서드를 이용한다면, 행과 열 범위를 선택할 수 있다.

 

다른 보기는 모두 'col1'열의 합을 계산하는 명령인데 반면,

4번은 불리언 배열을 사용하여 3번째 열('col3')에 대한 합을 계산하는 명령이다.

728x90