티스토리 뷰
안녕하세요. 죠쵸입니다.
지난 포스트에서 Pandas(판다스)는 무엇인가?에 대해서 알아보았습니다. 아마 해당 포스트로 대략적인 감을 잡으셨으리라 생각됩니다. 본격적으로 Pandas(판다스)를 사용하는 방법에 대해서 이야기 하려고 합니다. Pandas(판다스)의 여러기능 중에서 가장 기본이 되는 기능(명령)을 위주로 정리하였습니다. Pandas(판다스)를 사용하기 위해서는 기본적으로 Python을 실행할 수 있는 환경이 미리 준비되어 있어야 합니다. 준비가 안 되신 분은 Python 설치 가이드 글을 보시면서 환경 설정을 해 보시기 바랍니다. 추가적으로 Anaconda, Jupyter Notebook 의 환경을 준비하시면 실습하시는데 도움이 되시리라 생각 됩니다. Anaconda, Jupyter Notebook 설치방법은 다시 정리해서 포스팅 할 예정입니다. 조금만 기다려 주세요. :)
2020/09/07 - [INFO/IT] - Pandas(판다스)는 무엇인가?
2020/09/03 - [INFO/IT] - 파이썬? 일단 설치하자! (Mac OS)
#Pandas(판다스) 기초 기능
1) Pandas(판다스) Library Import 하기
Pandas(판다스)를 사용하려면 Pandas(판다스)의 Library를 Import를 해야합니다. 게임에서 자신의 케릭터가 특정한 기능을 하기 위해서, 아이템을 장착해야 하는 것처럼, Python이 Pandas(판다스)라는 아이템(Library)를 장착해야 합니다.
Import 해 보는 방법은 아래와 같습니다. 해당 명령은 이렇게 생각하시면 되세요. "나 Pandas(판다스) import 할껀데, 불러온 Pandas(판다스)는 pd로 축약해서 사용할꺼야".
import pandas as pd
2) CSV 파일로 부터 데이터 읽기
데이터를 처리하기 위해서, 가장 먼저 데이터를 읽는 기능이 필요합니다. pd.read_csv() 의 명령어를 통해서 CSV 파일을 읽어 올 수 있습니다. 첫 번째 파라미터, "titanic/train.csv" 는 파일의 상태경로와 이름입니다. 두번째 파라미터, index_col="PassengerId" 는 데이터의 index를 PassengerId 컬럼으로 사용하겠다는 것입니다. Index_col은 필수 항목은 아닙니다. 지정하지 않으면, 자동으로 Index를 생성하게 됩니다.
train = pd.read_csv("titanic/train.csv", index_col="PassengerId")
3) CSV 파일에 데이터 쓰기
데이터를 CSV 파일로 쓰는 것은 to_csv()의 명령어를 통해서 가능합니다. 사용방법은 읽는 것과 유사합니다. 파일의 경로와 이름을 첫번째 파라미터로 지정하고, 필요시 인덱스 컬럼을 지정하면 됩니다.
train.to_csv("titanic/train.csv", index_col="PassengerId")
4) 읽어온 데이터에서 처음 5줄(Rows) 출력하기
파일에서 읽어와서, 정상적으로 파일이 읽혀졌는지, 그리고 기본적인 데이터의 형태를 파악하는데 유용합니다. 명령어는 head()라는 명령을 통해 처리가 가능합니다. 기본 줄수가 5줄로 셋팅이 되어 있으나, head(10)처럼 원하는 Rows의 수를 갈호 안에 넣어주면, 원하는 수 만큼 데이터를 볼 수 있습니다. 데이터의 마지막 5줄을 출력하기를 원하신다면 tail()이라면 명령을 통해서 출력할 수 있습니다.
train.head()
5) 데이터의 기본정보 출력
불러온 데이터의 기본정보를 info() 명령을 사용하여 출력이 가능합니다.
train.info()
6) 특정 조건의 데이터만 선택하여 출력하는 방법
아래의 예시는 성별이 남자인 데이터만 선택하여 출력하게 하는 방법입니다. 대괄호 안에 조건을 넣어서, 원하는 데이터만 선택이 가능합니다.
train[train['Sex'] == 'male'].head()
7) 새로운 컬럼에 데이터 추가하기
새로운 컬럼을 추가하는 것도 비교적 간단합니다. 원하는 컬럼 이름을 아래와 같이 대괄호 안에 넣어 주고, 넣고자 하는 데이터 값을 등호로 연결만 해 주면 됩니다.
train["새 컬럼 이름"] = 삽입하고자 하는 데이터 값
아래의 예제는 "Sex_encode"라는 새 컬럼에 성별이 남자일 때, 0을 넣고, 여자일 때, 1을 넣기 위한 코드입니다. 추가적으로 원하는 컬럼만 출력할 때 이중 대괄호 안에 컬럼명을 나열 해 주면 됩니다.
train["Sex_encode"] = train["Sex"].replace("male", 0).replace("female",1)
train[["Sex", "Sex_encode"]].head()
오늘은 가장 기초적인 기능들을 위주로 설명을 해 드렸습니다. Pandas(판다스)에는 정말 다양하고 편리한 기능이 많이 있습니다. 계속해서 캐글의 데이터를 분석하면서 추가적인 기능을 같이 정리하도록 하겠습니다.
오늘도 방문해 주셔서 감사합니다. 여러분의 공감하기와 구독은 저에게 힘이 됩니다.
이상으로 죠쵸였습니다.
'Data Science' 카테고리의 다른 글
Pandas(판다스), One Hot Encoding 처리하기 (0) | 2020.09.19 |
---|---|
국가통계포털(KOSIS)로 블로그 주제/키워드 선택하자 (6) | 2020.09.11 |
Pandas(판다스)는 무엇인가? (11) | 2020.09.08 |
캐글 Bike Sharing Demand 데이터 분석 및 시각화 (1) | 2020.09.06 |
캐글 타이타닉 데이터 분석 및 시각화 (0) | 2020.08.30 |
- Total
- Today
- Yesterday
- 죠쵸
- 파이썬 독학
- pandas
- 파이썬 기초
- Leetcode255
- 큘가방
- Leetcode
- 캐글
- 데이터 분석
- Big Data
- kule
- 티파니T1
- Pandas(판다스)
- 리트코드
- 재귀함수
- 아디다스삼바화이트
- Machine Learning
- 영어공부
- 328. Odd Even Linked List
- joecho
- Study
- English
- AdSense
- 리바이스사이즈
- ap news
- 파이썬
- Kaggle
- ai
- 판다스
- python
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |