본문 바로가기

전체 글

(203)
[Python] 파이썬 pandas(판다스)를 활용하여 DataFrame(데이터프레임) 만들기 DataFrame (데이터프레임) 은 여러개의 Series가 모여서 이룬 행*열 데이터이다. 흔히 생각하는 "표" 와 같다. 데이터베이스의 기반이 된다. #Series는 인덱스를 가진 하나의 "컬럼(열)" 이라고 보면 된다. 1. DataFrame(데이터프레임) 만들기 - 이름을 인덱스로 가지는 3개의 시리즈가 있다. (gender/age/job) - 이 3개의 시리즈를 이어 붙여서 하나의 family_df 데이터프레임을 만들었다. - 시리즈끼리 누락되어있는 인덱스 값은 자동으로 NaN 으로 들어간다. import numpy as np import pandas as pd gender_series = pd.Series(['Female','Female','Male', 'Male'], index = ['Sky..
[Python] 파이썬 Pandas(판다스) 활용하여 시리즈(Series) 만들기 Pandas(판다스) 란? 파이썬의 라이브러리이다. 사용 목적은 방대한 행렬, 엑셀자료, CSV자료를 가지고 데이터베이스(DB)작업을 하기 위함이다. 딕셔너리와 유사한 시리즈(Series), 거대한 표인 데이터프레임(DataFrame) 을 가지고 강력한 연산작업을 할 수 있게 해주는 라이브러리이다. pandas를 사용하려면 아래의 코드를 가장 먼저 입력해 주어야 한다. import pandas as pd 1. Series (시리즈) : 특수한 딕셔너리, key 값을 인덱스로 사용할 수 있다. #Dictionary(딕셔너리) = {'key': 'value', 'key2':'value2' ....} key 값과 value 값이 있다. 이 딕셔너리를 그대로 가져와서 key값을 index로 사용한다고 생각하면 ..
[Python] 파이썬 Numpy(넘파이) 배열 마스킹 마스킹이란 원하는 조건을 달아서 조건에 맞는 배열요소들만 걸러내는 작업이다. True/False를 반환하는 조건을 인덱스처럼 집어 넣으면 조건의 True 값을 반환하는 원소들만 뽑아낼 수 있다. arrra2 = array[array > 3] import numpy as np my_arr = np.random.randint(0,10,(3,4)) [[6 3 5 6] [2 3 4 3] [0 4 8 0]] print(my_arr > 5) # 결과 [[ True False False True] [False False False False] [False False True False]] mask_arr = my_arr[my_arr >5] # 결과 [6 6 8]