본문 바로가기

개발

[python]python에서 csv, xlsx, spss - sav 접근

python에는 다양한 데이터 파일을 접근할 수 있는 패키지들이 있습니다. 

대부분의 데이터는 당연히 pandas를 통해 편하게 다루게 되므로 pandas 설치는 기본입니다. 

 

1) csv

pandas의 Dataframe에는 csv를 불러들일 수 있는 read_csv와 csv을 쓸 수 있는 to_csv가 제공되고 있습니다. 

# read_csv로 한글이 포함된 csv 읽기 
df = pd.read_csv(file_path, encoding = 'CP949').

# to_Csv로 seperator가 ','이며 빈 데이터는 'NaN'으로 채워서 csv에 저장 
df.to_csv(file_path, sep = ',', na_rep = 'NaN', encoding = 'CP949',) 를 잘 활용하면 됩니다.

 

2) xls, xlsx

pandas에서 xls 특히 xlsx를 사용하기 위해서는 openpyxl 추가가 필요합니다. 

# openpyxl 설치 먼저.. 
pip install openpyxl

# openpyxl 엔진으로 xlsx 열기.. 
df = pd.read_excel(file_path, engine = 'openpyxl')
df1 = pd.read_excel(file_path, engine = 'openpyxl', sheet_name = 'Sheet3')


# xlsx에 저장.. sheet 구분
df.to_excel(file_path, sheet_name = 'Sheet1')
df.to_excel(file_path, sheet_name = 'Sheet2')

 

3) spss의 sav

pandas에서 spss의 sav를 이용하기 위해서는 pyreadstat 추가가 필요합니다. 

# pyreadstat 설치 먼저..
pip install pyreadstat

# spss sav 읽기
df = pd.read_spss(file_path)

 

4) pyarrow, parquet(파케이)

# 대용량 처리 분석용 pyarrow 먼저..
pip install pyarrow

# parquet 읽기 
df = pd.read_parquet(file_path, engine = 'pyarrow',)

# dataframe을 parquet로 변환 
df_parquet = df.to_parquet()

# parquet 저장
df.to_parquet(file_path, engine = 'pyarrow',)

 

 

반응형

'개발' 카테고리의 다른 글

[python]python Dash w/ Plotly  (1) 2024.12.04
[python]python 가상환경 및 패키지 설치  (0) 2024.09.10
[python]sqlite3  (0) 2024.07.17
[Framework]Front-End Framework들  (0) 2024.07.04
[tool]MS Visual Studio Code  (1) 2024.06.15