반응형
Python에서 pandas 라이브러리를 사용하면 DataFrame을 쉽게 처리할 수 있습니다. 여기서는 DataFrame을 다루는 주요 기능 3가지에 대해 예시 코드와 함께 설명해드리겠습니다.
1. DataFrame 생성
DataFrame을 생성하는 가장 기본적인 방법은 리스트나 딕셔너리와 같은 자료형을 사용하여 만드는 것입니다.
import pandas as pd
# 딕셔너리를 사용하여 DataFrame 생성
data = {
'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'City': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
print(df)
# 출력
Name Age City
0 Alice 25 New York
1 Bob 30 Los Angeles
2 Charlie 35 Chicago
설명: 위 코드에서는 딕셔너리를 사용하여 DataFrame을 생성하였습니다. 각 키는 컬럼명을 나타내며, 그에 대응되는 값들은 각 행의 데이터가 됩니다.
2. 특정 열 또는 행 선택
DataFrame에서 특정 열이나 행을 선택하는 방법은 매우 유용합니다. 열을 선택하거나, 행을 선택할 수 있습니다.
2-1. 열 선택
# 특정 열 선택
age_column = df['Age']
print(age_column)
# 출력
0 25
1 30
2 35
Name: Age, dtype: int64
2-2. 행 선택 (인덱스를 사용한 선택)
# 특정 행 선택 (인덱스 1에 해당하는 행)
row_1 = df.iloc[1]
print(row_1)
# 출력
Name Bob
Age 30
City Los Angeles
Name: 1, dtype: object
설명:
- df['Age']는 DataFrame에서 Age라는 열을 선택하는 방법입니다.
- df.iloc[1]은 인덱스 1에 해당하는 행을 선택하는 방법입니다. iloc는 위치 기반 인덱싱을 사용합니다.
3. 데이터 필터링 (조건에 따른 행 선택)
조건에 맞는 데이터를 필터링하여 새로운 DataFrame을 생성할 수 있습니다.
# 나이가 30 이상인 사람들만 선택
filtered_df = df[df['Age'] >= 30]
print(filtered_df)
# 출력
Name Age City
1 Bob 30 Los Angeles
2 Charlie 35 Chicago
설명:
- df['Age'] >= 30는 Age 열이 30 이상인 행을 필터링하는 조건을 의미합니다.
- 이 조건은 True 또는 False의 불리언 배열로 평가되며, DataFrame에서 해당 조건을 만족하는 행들만 선택하여 새로운 DataFrame을 반환합니다.
이 세 가지 기능은 pandas에서 DataFrame을 다룰 때 매우 기본적이고 중요한 기능들입니다. pandas를 활용하면 더 복잡한 데이터 처리도 쉽게 할 수 있습니다.
반응형
'프로그래밍 > [ Python ]' 카테고리의 다른 글
[Python] Iterator (2) | 2024.11.20 |
---|---|
python 정규 표현식 regex (0) | 2024.11.19 |
[Python] JSON 처리 (1) | 2024.11.15 |
[Python] 예외처리 try, except (0) | 2024.11.14 |
[Python] map (0) | 2024.11.13 |