python에는 다양한 데이터 파일을 접근할 수 있는 패키지들이 있습니다.
대부분의 데이터는 당연히 pandas를 통해 편하게 다루게 되므로 pandas 설치는 기본입니다.
1) csv
pandas의 Dataframe에는 csv를 불러들일 수 있는 read_csv와 csv을 쓸 수 있는 to_csv가 제공되고 있습니다.
# read_csv로 한글이 포함된 csv 읽기
df = pd.read_csv(file_path, encoding = 'CP949').
# to_Csv로 seperator가 ','이며 빈 데이터는 'NaN'으로 채워서 csv에 저장
df.to_csv(file_path, sep = ',', na_rep = 'NaN', encoding = 'CP949',) 를 잘 활용하면 됩니다.
2) xls, xlsx
pandas에서 xls 특히 xlsx를 사용하기 위해서는 openpyxl 추가가 필요합니다.
# openpyxl 설치 먼저..
pip install openpyxl
# openpyxl 엔진으로 xlsx 열기..
df = pd.read_excel(file_path, engine = 'openpyxl')
df1 = pd.read_excel(file_path, engine = 'openpyxl', sheet_name = 'Sheet3')
# xlsx에 저장.. sheet 구분
df.to_excel(file_path, sheet_name = 'Sheet1')
df.to_excel(file_path, sheet_name = 'Sheet2')
3) spss의 sav
pandas에서 spss의 sav를 이용하기 위해서는 pyreadstat 추가가 필요합니다.
# pyreadstat 설치 먼저..
pip install pyreadstat
# spss sav 읽기
df = pd.read_spss(file_path)
4) pyarrow, parquet(파케이)
# 대용량 처리 분석용 pyarrow 먼저..
pip install pyarrow
# parquet 읽기
df = pd.read_parquet(file_path, engine = 'pyarrow',)
# dataframe을 parquet로 변환
df_parquet = df.to_parquet()
# parquet 저장
df.to_parquet(file_path, engine = 'pyarrow',)
반응형
'개발' 카테고리의 다른 글
[python]python Dash w/ Plotly (1) | 2024.12.04 |
---|---|
[python]python 가상환경 및 패키지 설치 (0) | 2024.09.10 |
[python]sqlite3 (0) | 2024.07.17 |
[Framework]Front-End Framework들 (0) | 2024.07.04 |
[tool]MS Visual Studio Code (1) | 2024.06.15 |