프로그래밍/[ Python ]

[Python] DataFrame (1)

gooooooood 2024. 11. 18. 15:52
반응형

Python에서 pandas 라이브러리를 사용하면 DataFrame을 쉽게 처리할 수 있습니다. 여기서는 DataFrame을 다루는 주요 기능 3가지에 대해 예시 코드와 함께 설명해드리겠습니다.

 

1. DataFrame 생성

DataFrame을 생성하는 가장 기본적인 방법은 리스트나 딕셔너리와 같은 자료형을 사용하여 만드는 것입니다.

import pandas as pd

# 딕셔너리를 사용하여 DataFrame 생성
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'City': ['New York', 'Los Angeles', 'Chicago']
}

df = pd.DataFrame(data)

print(df)
# 출력
      Name  Age         City
0    Alice   25     New York
1      Bob   30  Los Angeles
2  Charlie   35      Chicago

 

설명: 위 코드에서는 딕셔너리를 사용하여 DataFrame을 생성하였습니다. 각 키는 컬럼명을 나타내며, 그에 대응되는 값들은 각 행의 데이터가 됩니다.

 

2. 특정 열 또는 행 선택

DataFrame에서 특정 열이나 행을 선택하는 방법은 매우 유용합니다. 열을 선택하거나, 행을 선택할 수 있습니다.

 

2-1. 열 선택

# 특정 열 선택
age_column = df['Age']
print(age_column)
# 출력
0    25
1    30
2    35
Name: Age, dtype: int64

 

2-2. 행 선택 (인덱스를 사용한 선택)

# 특정 행 선택 (인덱스 1에 해당하는 행)
row_1 = df.iloc[1]
print(row_1)
# 출력
Name            Bob
Age              30
City    Los Angeles
Name: 1, dtype: object

 

설명:

  • df['Age']는 DataFrame에서 Age라는 열을 선택하는 방법입니다.
  • df.iloc[1]은 인덱스 1에 해당하는 행을 선택하는 방법입니다. iloc는 위치 기반 인덱싱을 사용합니다.

 

3. 데이터 필터링 (조건에 따른 행 선택)

조건에 맞는 데이터를 필터링하여 새로운 DataFrame을 생성할 수 있습니다.

# 나이가 30 이상인 사람들만 선택
filtered_df = df[df['Age'] >= 30]
print(filtered_df)
# 출력
      Name  Age         City
1      Bob   30  Los Angeles
2  Charlie   35      Chicago

 

설명:

  • df['Age'] >= 30는 Age 열이 30 이상인 행을 필터링하는 조건을 의미합니다.
  • 이 조건은 True 또는 False의 불리언 배열로 평가되며, DataFrame에서 해당 조건을 만족하는 행들만 선택하여 새로운 DataFrame을 반환합니다.

 

이 세 가지 기능은 pandas에서 DataFrame을 다룰 때 매우 기본적이고 중요한 기능들입니다. pandas를 활용하면 더 복잡한 데이터 처리도 쉽게 할 수 있습니다.

반응형

'프로그래밍 > [ Python ]' 카테고리의 다른 글

[Python] Iterator  (2) 2024.11.20
python 정규 표현식 regex  (0) 2024.11.19
[Python] JSON 처리  (1) 2024.11.15
[Python] 예외처리 try, except  (0) 2024.11.14
[Python] map  (0) 2024.11.13