엑셀/엑셀 파워쿼리

[엑셀 파워쿼리] 웹 데이터 가져오기(크롤링)_멜론 차트

90년대생 직장인 2022. 11. 20. 18:55
반응형

엑셀 파워쿼리 웹 데이터 가져오기(크롤링) 기능을 활용해 멜론 주간차트 데이터를 엑셀로 가져오겠습니다.


   <엑셀 파워쿼리를 사용하는 이유>

- 프로그래밍을 할 줄 몰라도 조금만 다뤄보면 쉽게 웹데이터를 가져올 수 있음

- 웹 데이터 가져오기를 통해 실시간 데이터를 수집할 수 있음

  (단순 복사/붙여넣기는 1회성 데이터로 지속적인 업데이트 시 반복업무 발생)

- 단순 반복되는 로직을 자동화해 항상 원하는 결과값만 참고할 수 있음


   <본문 이동 링크>

 


사전준비_파워쿼리 설치하기

Office 2016버전부터는 파워쿼리가 내장되어 있지만

그 이전버전을 사용하시는 분들을 아래 링크를 통해 확장 프로그램을 받으시길 바랍니다.

https://www.microsoft.com/ko-kr/download/details.aspx?id=39379

 

Download Microsoft Excel용 파워 쿼리 from Official Microsoft Download Center

중요! 아래에서 언어를 선택하면 전체 페이지 내용이 해당 언어로 신속하게 변경됩니다. 갈리시아어그리스어네덜란드어노르웨이어(복말)덴마크어독일어라트비아어러시아어루마니아어리투아

www.microsoft.com


웹 크롤링_멜론 주간 차트 데이터 가져오기

- 크롤링 대상 : 멜론 주간 차트 1~100위 데이터 (장르종합)

- 크롤링 데이터 : 순위 / 곡정보 / 좋아요수

 

1. 크롤링할 웹사이트 정보 확인하기

  : 주간차트 화면에서 순위 / 곡정보 / 좋아요 데이터 확인

  : 웹 크롤링할 URL 주소 확인

https://www.melon.com/chart/week/index.htm

 

Melon

음악이 필요한 순간, 멜론

www.melon.com

<멜로 차트 구성>

 

2. 엑셀 파워쿼리 실행하기

[데이터] -> [데이터 가져오기] -> [기타 원본에서] -> [웹] 클릭

※ 기본 내장되어 있지 않은 2016 미만 버전에서는 데이터 탭 대신 "파워쿼리" 탭을 찾아  따라하시고 메뉴 구성의 차이가 있을 수 있습니다.

 

<웹데이터 가져오기 실행>

 

3. 크롤링할 웹사이트 정보 입력하기

  : 크롤링하고 싶은 웹사이트 URL을 입력 후 확인

<URL 입력>

 

4. 크롤링할 데이터 선택

  : 웹사이트 URL 입력 시 파워쿼리에서 가져올 수 있는 데이터를 좌측 탐색 창에 보여주며, 가져오고 싶은 데이터가 있는 항목을 선택 후 "데이터 변환" 선택

※ "데이터 변환" 대신 "로드" 선택 시 미리 보이는 정보가 그대로 로드되며, 보통은 사용자가 원하는 데이터만 볼 수 있도록 가동하기 위해 "데이터 변환"을 선택 후 추가 쿼리를 진행함

<데이터 선택>

 

5. 로데이터 가공

  1) 불필요한 열 제거

    : 쿼리 편집기에서 필요한 열만 중복 선택 후 [열 제거] -> [다른 열 제거] 선택

     (사용자 편의상 반대로 진행해도 상관없음)

    : 예시 자료에서는 앞서 수집 대상인 순위 / 곡정보 / 좋아요 열을 제외하고 전부 삭제

<메뉴 선택_열 제거>
<삭제 후 결과>

728x90

  2) 좋아요 열 데이터 분할 가공

    : 각 셀마다 "좋아요 총건수 숫자"로 필요한 숫자 데이터와 텍스트가 섞여 있음

    : 열 분할 방법을 통해 "좋아요 총건수"와 "숫자" 데이터를 분할

<메뉴 선택>

  : 예시에서는 [열 분할] -> [문자 수 기준]을 선택 후 아래와 같이 설정한다

※분할 방식에 대해서는 추출한 데이터에 따라 달라짐

<분할 설정>
<분할 결과>

 

  3) 분할 뒤 필요 없는 열 삭제

    : "좋아요 총건수" 문자가 있는 열을 삭제 (1) 불필요한 열 삭제 방법 참고

 

 

  4) 열 제목 변경

    : "좋아요.2"로 나타나는 문자를 원하는 문구로 변경

※변경된 문자가 추후에 데이터 불러올 때 보여짐

<변경된 열제목>

 

  5) 데이터 형식 변경

    : 쿼리 변경 시 자동으로 열 데이터 형식이 변경되나 최종적으로 사용자가 원하는 데이터 형식으로 변환

    : 열 제목 왼쪽에 작은 아이콘 클릭 시 선택 가능한 데이터 형식이 보여짐

 

 

6. 가공한 데이터 로드

  : [홈] -> [닫기 및 로드] 선택해 엑셀 시트로 쿼리 데이터 불러오기

 

 

7. 최종 데이터 확인

  : 엑셀 시트에 정상적으로 데이터가 로드되었는지 확인

 

8. 데이터 업데이트(새로고침)

  : 테이블 아무 곳이나 선택하면 오른쪽에 쿼리 관련 사이드 창이 활성화됨

  : 선택된 쿼리 우측의 새로고침을 누르면 해당 쿼리가 새로고침 됨

  : [데이터] -> [모두 새로 고침]으로도 쿼리가 재실행됨

 

9. 업데이트 정보 확인

  : 쿼리 재실행시 연결된 URL 사이트의 정보가 최신으로 업데이트됨

  : 글 작성 중인 시간동안 변경된 좋아요수가 새로고침으로 자동으로 반영되었음

<업데이트 전 좋아요수>
<업데이트 후 좋아요수>

반응형