본문 바로가기

My Work/Data Literacy

(23)
R 공부 (3편) - 쉽게 배우는 R 데이터 분석 데이터 전처리dyplr은 데이터 전처리 작업에 가장 많이 사용되는 패키지이다. exam %>% filter(class == 1) # class가 1인 경우만 출력# 출력값 id class math english science1 1 1 50 98 502 2 1 60 97 603 3 1 45 86 784 4 1 30 98 58 여기서 %>%는 파이프 연산자로 왼쪽의 결과를 오른쪽 함수로 전달하라는 뜻을 가지고 있다. filter()에 조건은 '같다'라는 의미를 가지는 '=='도 가능하지만 '같지 않다'라는 '!='도 가능하며 부등호도 쓸 수 있다.  AND, OR 같은 조건도 filt..
R 공부 (2편) - 쉽게 배우는 R 데이터 분석 데이터 프레임 중데이터 프레임은 행과 열로 구성된 표를 의미한다. 데이터 프레임을 R로 아래와 같이 구현할 수 있다. # data.frame()을 이용해서 데이터 프레임 만들기df_midterm   데이터 프레임을 만들기 위해 data.frame() 함수를 사용했다. 들어가는 매개변수에는 변수를 만들되, 쉼표로 구분하면 된다. 그러면 아래와 같은 출력을 확인할 수 있다.  english math1 50 102 60 403 70 504 80 605 90 70  또한, 앞서 배운 mean() 함수를 사용해서 평균을 구할 수 있다. midterm_average_english midterm_average_english[1] 70> midterm_..
R 공부 (1편) - 쉽게 배우는 R 데이터 분석 R에 대한 나의 생각 (feat. Python과의 차이)최근에 R을 새로 배우는 중이다. 원래 나의 주언어는 Python이지만 두 언어의 각각의 강점과 특성을 잘 파악한다면 더 큰 시너지 효과를 얻을 수 있을 것 같아 공부를 시작했다. 간단하게 두 언어의 차이를 말하자면, R은 통계 분석과 시각화를 위해 개발된 프로그래밍 언어이자, 통계 모델링과 데이터 분석에 특화되어 있다. 하지만, Python 같은 경우는 범용 프로그래밍 언어로 데이터 과학뿐만 아니라 웹 개발, 자동화, 인공지능 등 다양한 분야에서 활용된다. 따라서, 어떤 언어를 배워 어떻게 활용하는 가에 따라 본인이 공부하고자 하는 언어가 달라질 것 같다. 현재 나는 데이터 분석에 대한 깊은 이해를 얻고 싶고 R로부터 얻은 지식을 Python에서도..
프로그래머스 연습문제 풀이 어린 동물 찾기 ANIMAL_INS 테이블은 동물 보호소에 들어온 동물의 정보를 담은 테이블입니다. ANIMAL_INS 테이블 구조는 다음과 같으며, ANIMAL_ID, ANIMAL_TYPE, DATETIME, INTAKE_CONDITION, NAME, SEX_UPON_INTAKE는 각각 동물의 아이디, 생물 종, 보호 시작일, 보호 시작 시 상태, 이름, 성별 및 중성화 여부를 나타냅니다. 동물 보호소에 들어온 동물 중 젊은 동물(INTAKE_CONDITION이 Aged가 아닌 경우를 뜻함)의 아이디와 이름을 조회하는 SQL 문을 작성해주세요. 이때 결과는 아이디 순으로 조회해주세요. 정답 SELECT ANIMAL_ID, NAME FROM ANIMAL_INS WHERE INTAKE_CONDITION !..
필수 SQL 개념 - (3/3편) LIKE : 패턴을 기반으로 데이터 조회 참고로, sqlite에서는 LIKE는 2개의 wildcards(다른 문자를 대체하는 사용)를 제공한다. 1. _(언더바) : '_' 자리에는 문자가 무조건 있어야 한다. - 9___는 9로 시작하는 4자리를 의미한다. - _8은 8로 끝나는 2자리를 의미한다. 2. % : '%' 자리에는 문자열이 있어도 되고, 없어도 된다. - 8%는 8로 시작하는 값이다. 8, 80, 81, ... 등이 가능하다. 따라서, LIKE는 아래와 같이 사용된다. SELECT * FROM friends WHERE col LIKE 'wildcard'; 예를 들어, 나이를 조회하거나 이름을 조회할 때 유용하게 사용할 수 있다. SELECT * FROM friends WHERE name L..
필수 SQL 개념 - (2/3편) 저번 1편에 이어서 CRUD 중에 Update, Delete에 대한 SQL문을 자세히 알아보겠다. 일단 이번 블로그 글에서 쓸 테이블을 간단하게 만들어보자면 아래와 같다. 테이블명 : friends Number Name Age Sex 1 James 25 Male 2 John 26 Female 3 Lucas 27 Male Update : 기존 행의 데이터 수정 SET을 이용해서 새로운 값을 설정할 수 있다. UPDATE friends SET col1=value1, col2=value2, ... WHERE 조건; 이 때, 'rowid' 라는 개념을 알면 UPDATE의 조건문을 쉽게 사용할 수 있다. rowid는 인덱스를 나타내며, 고유한 주소록이라고 생각하면 된다. (사실 저번 글에서 다뤘어야 했는데 지나쳤..
필수 SQL 개념 - (1/3편) SQL 역량은 개발자뿐만 아니라 PM들에게도 요구되는 필수 역량 중 하나이다. 실제로, 많은 PM 현직자들분들로 SQL을 자유롭게 다루시는 분들이 많다. SQL은 쉽게 말해서 데이터 관리를 위해 만들어진 언어이다. 따라서, 이번 글은 PM이라면 필수적으로 알아야 할 SQL의 기초에 대해서 다룬다. RDB (Relational Database) : 관계형 데이터베이스 RDB는 SQL을 다루기 전의 필수 개념이다. SQL로 RDB를 다룬다고 생각하면 된다. 아래 Table은 Key와 Value을 Table로 정리한 DB이다. Table Name : friends Number Name Age Job 1 James 24 Student 2 Kevin 25 Taxi Driver 3 Andrew 23 Student ..
AARRR 퍼널별 참고사항 이전에 잠깐 지표 부분에서 AARRR을 언급했었다. 그냥 넘어가기에는 아쉬운 주제여서 AARRR 퍼널 분석 시, 참고해야 하는 몇가지 사항들을 마이리얼트립의 양승화님의 '그로스 해킹'을 통해 정리했다. 먼저, AARRR은 Dave McClure가 제시한 지표 퍼널로, 주로 스타트업에서 서비스를 출시할 때 지표 트래킹 표준처럼 많이 쓰인다. Acquisition(고객 유치), Activation(활성화), Retention(리텐션), Revenue(수익화), Refferal(추천)로 구성된 퍼널은 조직의 상황에 맞게 순서를 바꿔도 된다. Acquisition (고객 유치)의 참고사항 GA나 앱스플라이어 같은 서비스의 ‘고객 획득’ 메뉴에서 ‘Direct’ 혹은 ‘Organic’을 보통 자발적으로 찾아온 고..