본문 바로가기

My Work

(62)
R 공부 (8편) - 쉽게 배우는 R 데이터 분석 지도 시각화지역별 통계치를 색깔의 차이로 표현한 지도를 '단계 구분도'라고 한다. 단계 구분도를 보면 지역별 특성이 어떻게 다른지 쉽게 이해할 수 있다.  미국 주별 강력 범죄율 데이터를 이용해서 단계 구분도를 만들어보겠다. 필요한 데이터 전처리 과정은 생략하겠다. 단계 구분도는 'ggiraphExtra' 패키지를 이용해서 만들 수 있다. 또한, 미국 주별 위경도 데이터가 들어있는 'maps' 패키지를 사용하겠다. install.packages("ggiraphExtra")library(ggiraphExtra)library(ggplot2)states_map  'ggChoropleth' 를 이용해 단계 구분도를 만들어봤다.  추가로, 마우스 움직임에 반응하는 인터랙티브 단계 구분도는 ggChoropleth(..
Sementic Search (시맨틱 검색)_토스는 똑똑해 시멘틱 검색?시맨틱 검색은 사용자의 검색 의도를 이해하고 자연어의 의미를 기반으로 검색 결과를 제공하는 기술이다. 이는 단순한 키워드 매치에 의존하지 않고, 문맥과 의미를 파악하여 더 정확한 정보를 제공하려는 접근 방식이다. 간닥하게 자동 원리로는자연어 처리와 AI 기술을 활용하는데 사용자가 입력한 질의의 의미를 이해한다고 보면 된다.  실제로, 우리가 실생활에서 사용하는 앱들에서 시맨틱 검색이 적용된 사례를 찾아볼 수 있다. 대표적으로, 금융 앱에서 쉽게 확인할 수 있다. 금융 앱에서 다루는 용어들은 기본적으로 일반 사용자들이 어려워하는 경우가 많다. 때문에 시맨틱 검색 같이 사용자가 의도하는 검색 결과를 유추해서 앱 사용의 불편성을 느끼지 않게 하는 것이 중요하다.  토스 VS 카카오페이'카카오페이'..
R 공부 (7편) - 쉽게 배우는 R 데이터 분석 문자로 된 데이터에서 가치 있는 정보를 얻어 내는 분석 기법을 '텍스트 마이닝'이라고 한다. 텍스트 마이닝을 하기 전에는 '형태소 분석'을 하는데, '형태소 분석' 이란 문장을 구성하는 어절들이 어떤 품사로 되어 있는지 파악하는 것이다. 따라서, '형태소 분석' 으로 어절들을의 품사를 파악하고 품사의 단어들을 추출한 다음 얼마나 많이 등장했는지를 확인할 수 있다.  먼저, 필요한 패키지들을 설치 및 확인한다. 그 다음 extractNoun() 함수를 사용해서 명사를 추출한다. # 필요한 라이브러리 설치 및 로드install.packages("multilinguer")library(multilinguer)install_jdk()# KoNLP의 의존성 패키지 설치install.packages(c("strin..
R 공부 (6편) - 쉽게 배우는 R 데이터 분석 '한국복지패널데이터' 사용한 데이터 분석을 하겠다. 한국복지패널데이터는 한국보건사회연구원에서 가구의 경제활동을 연구한 자료로 경제 활동, 생활 실태, 복지 욕구 등 천여 개의 변수로 구성되어 있다.  필요한 데이터는 한국복지패널 사이트에서 다운 받으면 된다. install.packages("foreign") # foreign 패키지 설치library(foreign) # SPSS 파일 로드library(dplyr) # 전처리library(ggplot2) # 시각화library(readxl) # 엑셀 파일 불러오기# 데이터 불러오기file_path   필요한 패키지를 설치하고 데이터를 불러온다. 그리고 원활한 분석을..
R 공부 (5편) - 쉽게 배우는 R 데이터 분석 그래프R에서는 'ggplot2' 패키지를 사용해서 다양한 그래프를 만들 수 있다. 'ggplot2' 문법은 레이어 구조로 되어 있다. 1단계에서는 배경 설정(축)을 하고 2단계에서는 그래프를 추가하며, 3단계에서는 축 범위, 색, 표식 같은 설정을 추가한다.  아래는 산점도 그래프를 구현하는 코드이다. geom_point() 함수를 이용하면 산점도 표현이 가능하다.library(ggplot2) # 패키지 설치ggplot(data = mpg, aes(x = displ, y = hwy)) # x, y축 설정ggplot(data = mpg, aes(x = displ, y = hwy)) + geom_point() # 산점도 추가ggplot(data = mpg, aes(x = displ, y = hwy)) ..
R 공부 (4편) - 쉽게 배우는 R 데이터 분석 데이터 정제결측치란 누락된 값을 의미한다. df  is.na() 함수를 사용하면 결측치를 확인할 수 있다. 'TRUE' 라고 표시되면 결측치이고, 'FALSE' 라고 표시되면 결측치가 아니다. 또한, table() 함수를 사용해서 결측치가 총 몇개 있는지 확인할 수 있으며, 변수명을 지정하면 해당 변수의 결측치의 빈도를 확인할 수 있다.   df_nomiss % filter(!is.na(score) & !is.na(sex)) # sex, score 결측치 제거df_nomiss# 출력값 sex score1 M 52 F 44 M 4df_nomiss2 34 M 45 F 3  is.na() 함수를 사용하면 결측치 없는 데이터를 추출할 수 있다..
R 공부 (3편) - 쉽게 배우는 R 데이터 분석 데이터 전처리dyplr은 데이터 전처리 작업에 가장 많이 사용되는 패키지이다. exam %>% filter(class == 1) # class가 1인 경우만 출력# 출력값 id class math english science1 1 1 50 98 502 2 1 60 97 603 3 1 45 86 784 4 1 30 98 58 여기서 %>%는 파이프 연산자로 왼쪽의 결과를 오른쪽 함수로 전달하라는 뜻을 가지고 있다. filter()에 조건은 '같다'라는 의미를 가지는 '=='도 가능하지만 '같지 않다'라는 '!='도 가능하며 부등호도 쓸 수 있다.  AND, OR 같은 조건도 filt..
R 공부 (2편) - 쉽게 배우는 R 데이터 분석 데이터 프레임 중데이터 프레임은 행과 열로 구성된 표를 의미한다. 데이터 프레임을 R로 아래와 같이 구현할 수 있다. # data.frame()을 이용해서 데이터 프레임 만들기df_midterm   데이터 프레임을 만들기 위해 data.frame() 함수를 사용했다. 들어가는 매개변수에는 변수를 만들되, 쉼표로 구분하면 된다. 그러면 아래와 같은 출력을 확인할 수 있다.  english math1 50 102 60 403 70 504 80 605 90 70  또한, 앞서 배운 mean() 함수를 사용해서 평균을 구할 수 있다. midterm_average_english midterm_average_english[1] 70> midterm_..