본문 바로가기

My Work/Data Literacy

(23)
[Redash] Query Snippets Redash 설정 메뉴에는 '쿼리 스니펫'이라는 기능이 숨어있다. Query Snippets는 개발자와 데이터 분석가들의 일상적인 데이터베이스 작업을 더욱 효율적으로 만들어주는 강력한 도구다. 이는 자주 사용되는 SQL 쿼리 조각을 저장하고 필요할 때마다 재사용할 수 있게 해주는 기능으로, 반복적인 쿼리 작성 작업을 크게 줄여준다. 특히 팀 전체가 이러한 쿼리 스니펫을 공유하여 사용할 수 있다는 점이 큰 장점이다.Query Snippets이란?자주 사용되는 SQL 쿼리 조각을 저장하고 재사용할 수 있는 기능반복적인 쿼리 작성을 줄이고 효율성을 높이는 도구팀 전체가 공유하여 사용 가능 Query Snippets의 활용은 여러 가지 측면에서 개발 프로세스를 개선한다. 먼저, 자주 사용되는 쿼리 패턴을 재사용..
Redash 활용편 (Alert) Redash에서 PM들이 Query와 Dashboard는 많이 쓰지만 Alert와 같은 기능들도 유용하게 쓸 수 있다. Alert 기능을 서버 에러 로그 증가 감지나 API 응답 시간 임계치 초과 시 등과 같은 시스템 모니터링에 적합하다고 생각할 수 있으나, 신규 가입자 급감, 일일 매출 경신 기록 등 비즈니스 모니터링에서도 충분히 사용할 수 있다. 따라서, Redash에서 Alert 기능이 무엇인지 어떻게 활용하면 좋은지를 살펴보았다.    Alert란?Alert는 쿼리 결과를 지속적으로 모니터링하다가 특정 조건이 충족될 때 알림을 보내주는 기능이다. 비즈니스 지표 모니터링부터 시스템 이상 감지까지, 다양한 상황에서 유용하게 활용할 수 있다.  설정 방법은 간단하다. 'Create' 버튼에서 'Aler..
Redash 데이터 시각화 Redash에서 쿼리셋을 추출하고 시각화를 할 때, 내가 가끔씩 헷갈리는 것들과 느낀 점들을 정리한 글이다. 데이터 시각화가 쉬워보이고 당연한 개념을 요구하지만 막상 실무를 할 때면 고민의 영역이 많아진다. 따라서, 매크로적인 판단이 필요할 것 같아 글로 정리한다.  1. 데이터 유형별 차트는 라인(꺾은선) 차트와 바(막대) 차트 위주로 쓰자.  사실 다른 차트들을 많이 쓰는데 특수한 경우가 아니라면 사실 라인 차트와 바 차트만 쓰는 것 같다. 따라서, 이 2개의 차트의 쓰임새만 정확히 알고 있다면 거의 모든 데이터 시각화가 커버된다. 라인 차트는 시간에 따른 트렌드를 가장 효과적으로 보여주기 때문에 성장률 분석이나 매출 추이, DAU 변화 추이를 보여줄 때 쓰면 되고, 바 차트는 범주 간 수치 비교에 ..
R 공부 (8편) - 쉽게 배우는 R 데이터 분석 지도 시각화지역별 통계치를 색깔의 차이로 표현한 지도를 '단계 구분도'라고 한다. 단계 구분도를 보면 지역별 특성이 어떻게 다른지 쉽게 이해할 수 있다.  미국 주별 강력 범죄율 데이터를 이용해서 단계 구분도를 만들어보겠다. 필요한 데이터 전처리 과정은 생략하겠다. 단계 구분도는 'ggiraphExtra' 패키지를 이용해서 만들 수 있다. 또한, 미국 주별 위경도 데이터가 들어있는 'maps' 패키지를 사용하겠다. install.packages("ggiraphExtra")library(ggiraphExtra)library(ggplot2)states_map  'ggChoropleth' 를 이용해 단계 구분도를 만들어봤다.  추가로, 마우스 움직임에 반응하는 인터랙티브 단계 구분도는 ggChoropleth(..
R 공부 (7편) - 쉽게 배우는 R 데이터 분석 문자로 된 데이터에서 가치 있는 정보를 얻어 내는 분석 기법을 '텍스트 마이닝'이라고 한다. 텍스트 마이닝을 하기 전에는 '형태소 분석'을 하는데, '형태소 분석' 이란 문장을 구성하는 어절들이 어떤 품사로 되어 있는지 파악하는 것이다. 따라서, '형태소 분석' 으로 어절들을의 품사를 파악하고 품사의 단어들을 추출한 다음 얼마나 많이 등장했는지를 확인할 수 있다.  먼저, 필요한 패키지들을 설치 및 확인한다. 그 다음 extractNoun() 함수를 사용해서 명사를 추출한다. # 필요한 라이브러리 설치 및 로드install.packages("multilinguer")library(multilinguer)install_jdk()# KoNLP의 의존성 패키지 설치install.packages(c("strin..
R 공부 (6편) - 쉽게 배우는 R 데이터 분석 '한국복지패널데이터' 사용한 데이터 분석을 하겠다. 한국복지패널데이터는 한국보건사회연구원에서 가구의 경제활동을 연구한 자료로 경제 활동, 생활 실태, 복지 욕구 등 천여 개의 변수로 구성되어 있다.  필요한 데이터는 한국복지패널 사이트에서 다운 받으면 된다. install.packages("foreign") # foreign 패키지 설치library(foreign) # SPSS 파일 로드library(dplyr) # 전처리library(ggplot2) # 시각화library(readxl) # 엑셀 파일 불러오기# 데이터 불러오기file_path   필요한 패키지를 설치하고 데이터를 불러온다. 그리고 원활한 분석을..
R 공부 (5편) - 쉽게 배우는 R 데이터 분석 그래프R에서는 'ggplot2' 패키지를 사용해서 다양한 그래프를 만들 수 있다. 'ggplot2' 문법은 레이어 구조로 되어 있다. 1단계에서는 배경 설정(축)을 하고 2단계에서는 그래프를 추가하며, 3단계에서는 축 범위, 색, 표식 같은 설정을 추가한다.  아래는 산점도 그래프를 구현하는 코드이다. geom_point() 함수를 이용하면 산점도 표현이 가능하다.library(ggplot2) # 패키지 설치ggplot(data = mpg, aes(x = displ, y = hwy)) # x, y축 설정ggplot(data = mpg, aes(x = displ, y = hwy)) + geom_point() # 산점도 추가ggplot(data = mpg, aes(x = displ, y = hwy)) ..
R 공부 (4편) - 쉽게 배우는 R 데이터 분석 데이터 정제결측치란 누락된 값을 의미한다. df  is.na() 함수를 사용하면 결측치를 확인할 수 있다. 'TRUE' 라고 표시되면 결측치이고, 'FALSE' 라고 표시되면 결측치가 아니다. 또한, table() 함수를 사용해서 결측치가 총 몇개 있는지 확인할 수 있으며, 변수명을 지정하면 해당 변수의 결측치의 빈도를 확인할 수 있다.   df_nomiss % filter(!is.na(score) & !is.na(sex)) # sex, score 결측치 제거df_nomiss# 출력값 sex score1 M 52 F 44 M 4df_nomiss2 34 M 45 F 3  is.na() 함수를 사용하면 결측치 없는 데이터를 추출할 수 있다..