Day1_스타벅스 메뉴 분석
** 영상 학습 :
** 학습 자료 :
** 태블로 동작 원리
1. 필드는 정성적인 값과 정량적인 값에 따라 차원과 측정값으로 구분됩니다.
- 차원 : 정성적 데이터(제품명, 날짜, 지리명 등), 분석 기준이 되는 값, 불연속형 데이터로 측정값을 쪼개어 보는 하나의 관점
- 측정값 : 정량적 수치, 연속형 데이터로 집계가 되는 데이터
2. 측정값은 차원을 기준으로 집계되어 표현됩니다.
여기서 말하는 집계란?
집계는 합계, 평균, 중앙값, 카운트, 카운트 (고유), 최소값, 최대값, 백분위수, 표준편차, 분산 등 을 의미합니다.
즉, 하나의 측정값을 어떤 기준으로 집계해 보느냐에 따라서 다양한 분석을 할 수 있겠죠.
* 집계의 형태를 변경해주는 방법 (디폴트 - 합계 값)
1) 행 또는 열, 마크 선반에 놓여진 알약에서 마우스 오른쪽 버튼 클릭 후 측정값의 집계 형태를 변경
2) 측정값을 가져올 때부터 집계 형태를 변경
- Windows : 측정값에서 마우스 오른쪽 버튼을 누른 상태로 드래그
- Mac : Option키 누른 상태로 드래그
3. 필드를 행 선반에 놓으면 Y축에 표현, 열 선반에 놓으면 X축에 표현됩니다.
4. 마크 선반에 있는 마크의 형태, 색상, 크기, 레이블, 세부 정보, 도구 설명, (경로, 각도, 모양) 속성을 통해 원하는 형태로 다양한 시각화를 표현할 수 있습니다.
5. 필요한 값은 필터 선반을 통해 필터링 할 수 있습니다.
6. 대시보드는 기존에 만들어 놓은 워크시트를 조합하여 만듭니다.
** 용어 해설
집계 (Aggregate)
집계는 측정값(숫자값)을 특정 기준(차원)으로 모으는 것을 의미합니다.
이때 반드시 집계 방법(합계, 평균, 최대값 등)이 지정되어야 하는데, 이를 집계 함수라고 합니다.
엑셀을 사용하여 집계가 이루어지는 과정을 개념적으로 설명한 예시를 살펴 보겠습니다.
위쪽의 합계와 아래쪽의 평균이 집계된 예시를 각각 상세하게 보면 다음과 같습니다.
1. 위쪽 예시
- 월별 합계 수량을 집계하는 과정을 보여줍니다.
- 각 월별 데이터를 모아서 엑셀의 SUM() 함수를 사용해서 집계한 결과를 볼 수 있습니다.
- 집계의 기준이 되는 월 이외의 차원은 집계 결과에서 보이지 않습니다.
2. 아래쪽 예시
- 제품별 평균 수량을 집계하는 과정을 보여줍니다.
- 각 제품별 데이터를 모아서 엑셀의 AVERAGE() 함수를 사용해서 집계한 결과를 볼 수 있습니다.
- 집계의 기준이 되는 제품 이외의 차원은 집계 결과에서 보이지 않습니다.
태블로는 기본적으로 측정값을 집계해서 표시해 줍니다. 또한 화면에 사용된 차원을 기준으로 집계됩니다.
위 엑셀 예시와 동일한 집계 작업이 태블로에서 이루어지는 방식을 보겠습니다.
월별 합계 수량은 아래와 같이 표현할 수 있습니다.
1. 수량을 ‘열’에 놓으면 기본값인 ‘합계’로 집계됩니다. (열에 놓으면 기본 표현 방식이 가로 막대입니다)
차원은 사용하지 않았기 때문에 모든 레코드에 대한 전체 합계값 하나로 집계되었습니다.
2. 월을 ‘행’에 놓으면 집계 기준이 월로 변경되므로 월별 합계 수량으로 쪼개지는 것을 볼 수 있습니다.
제품별 평균 수량은 아래와 같이 표현할 수 있습니다.
1. 수량을 ‘열’에 놓으면 우선 기본 집계 방법인 합계가 사용됩니다. ①, ②의 순서대로 클릭하여 평균으로 변경합니다.
2. 차원은 사용하지 않았기 때문에 아래와 같이 모든 레코드에 대한 전체 평균값으로 집계되었습니다.
3. 제품을 ‘행’에 놓으면 제품 기준으로 집계되어 제품별 평균 수량을 볼 수 있습니다.
참고로 데이터 보기 버튼을 눌러서 집계 전의 원본 데이터를 볼 수 있습니다.
데스크탑 UI 구성 요소
- 툴바
- 표현방식
- 데이터 창과 분석 창 전환 탭
- 데이터 원본 이름
- 차원
- 측정값
- 집합
- 매개 변수
- 페이지 선반
- 필터 선반
- 마크 선반 (마크 카드) - 색상, 크기, 레이블, 세부 정보, 도구 설명 등의 속성 단추가 포함되어 있음
- 열과 행 선반
- 뷰
- 퀵 필터
- 범례(색상 범례)
1번_카테고리 별 평균 칼로리 & 평균 카페인 (막대차트)
** 행 선반은 Y축, 열 선반은 X축
1. 열 - '칼로리(평균)', '카페인(평균)' / 행 - '카테고리'
>> 집계를 평균으로 변경하는 이유 : 카테고리를 기준으로 합계로 집계하면 카테고리 별로 메뉴들의 총 합계 칼로리/총 합계 카페인이 표시
2. 마크 - 색상 '카페인(평균)' 추가 : 카페인이 높을수록 붉은색
3. 평균 칼로리 기준 정렬
2번_메뉴명 별 칼로리 & 카페인 (트리맵)
>> 메뉴명 : 현재 데이터의 가장 낮은 행 수준이므로 유일하게 구분되고 중복되지 않는 값, 그러므로 합계로 사용 가능
1. 마크-사각형
2. 마크 크기-'칼로리', 레이블-'메뉴명'-서식 조정, 색상-'카페인'-색상 편집
3번_카테고리와 메뉴명을 한번에 살펴보기
1. '카테고리 별 평균 칼로리&카페인' 시트로 이동
2. '평균(칼로리)' 마크 - 도구 설명
- 시각화에 대한 설명 입력 : "크기가 클 수록 칼로리가 높으며, 붉은색일 수록 카페인이 높습니다."
- 삽입-시트- '메뉴명 별 칼로리&카페인', 넓이(maxwidth) 500, 높이(height) 400으로 조정
4번_당분 함유량과 칼로리 상관관계 (스캐터 플롯 (산점도) 시각화)
** 스캐터 플롯 : 2개의 연속형 데이터에 대한 상관관계를 분석하는데 가장 많이 사용되는 시각화
두 개의 축으로 데이터가 얼마나 퍼져 있는지 분포를 살펴 볼 수 있고, 상수 라인 / 평균 라인 / 사분위수 및 중앙값 / 추세선 등과 같은 참조 라인을 추가하여 값의 분포를 비교하기에도 유용함
1. 열 - '당류(합계)', 행 - '칼로리(합계)' : X축-당류, Y축-칼로리
2. 마크-세부정보 '메뉴명' : 시각화의 집계 기준이 메뉴명 수준으로 변경됨
3. 마크 형태 - 원
4. 마크-색상, 크기 '카페인(합계)', 색상 편집
5번_시군구 별 매장 분포 현황
1. 사용 데이터 : '스타벅스 매장 정보'
2. 마크-세부정보 '시도', '시군구' 필드 추가
3. 마크-크기, 색상 '매장코드(측정값-카운트)'
6번_대시보드 만들기
추가 도전 과제_시도 별 매장위치
** 열-경도(Long), 행-위도(Lat)