구글 스프레드시트 IMPORTFEED 함수 | 특정 키워드 뉴스 실시간 수집, RSS 활용
IT/구글

구글 스프레드시트 IMPORTFEED 함수 | 특정 키워드 뉴스 실시간 수집, RSS 활용

경기도민2015 2023. 9. 19.

유튜브는 내가 관심이 있는 분야의 동영상을 지속적으로 추천하는 특징이 있습니다.

인터넷으로 보는 뉴스도 비슷한 주제로 모아서 보고 싶은 생각을 가진 분들도 계실 겁니다.

구글 스프레드시트의 IMPORTFEED 함수는 특정 키워드 뉴스를 실시간으로 수집할 수 있습니다.

 

핵심요약입니다.

1. 구글 알리미를 통해 특정 키워드 알림 생성
2. IMPORTFEED("URL", "검색어", 헤더, 항목 개수)

 

 

1. IMPORTFEED 함수

 

 

 

특정 키워드의 뉴스기사를 수집하고 싶다면, 크롤링(crawling)에 대해 알아야 합니다.

크롤링은 웹 페이지의 콘텐츠를 그대로 가져와 데이터를 추출해 수집하는 작업입니다.

 

구글 스프레드시트에서는 IMPORTFEED 함수를 활용하여 자동화된 크롤링 작업을 할 수 있습니다.

아래의 순서에 맞추어 천천히 따라 하시면 됩니다.

 

 

1-1. 구글 알리미

 

구글 알리미는 특정 키워드를 메일로 받아보거나 RSS 주소를 생성할 수 있습니다.

 

여기서 RSS는 Really Simple Syndication 또는 Rich Site Summary의 약자입니다.

RSS는 뉴스, 블로그 등의 콘텐츠 배급과 수집에 관한 표준 포맷입니다.

즉, 해당 사이트에 접속하지 않고도 기사나 포스팅을 수집할 수 있다는 것입니다.

 

구글 알리미를 활용하는 방법입니다.

 

구글-알리미-키워드-알림
이미지 출처 : 구글 알리미

 

1. 검색어 입력 후 옵션표시를 클릭합니다.

2. 수신 위치에서 "RSS 피드"를 선택합니다.

3. 알림 만들기를 클릭합니다.

 

알리미-RSS-선택
이미지 출처 : 구글 알리미

 

4. 생성된 알림에서 RSS를 클릭합니다.

 

RSS-주소-복사
이미지 출처 : 구글

 

5. RSS를 클릭하면 복잡한 코드가 있는 화면이 나타납니다. 주소창에서 웹사이트 주소를 복사합니다.

 

다음 과정부터는 구글 스프레드시트에서 이루어집니다.

 

 

1-2. 구글 스프레드시트

 

 

 

RSS를 통해 복사한 주소를 구글 스프레드시트에 옮기는 작업이 필요합니다.

 

우선, IMPORTFEED 함수의 형식과 내용을 알아보겠습니다.

IMPORTFEED("URL", "검색어", 헤더, 항목 개수)

 

  • URL : 복사한 웹사이트 주소
  • 검색어 : 필요한 항목을 정할 수 있음, 비워 두면 모든 자료를 뜻함
  • 헤더 : TRUE(1행에 제목 행 만듦), FALSE(제목 행 없이 데이터만 가져옴) 중 선택
  • 항목 개수 : 필요한 개수 입력

 

스프레드시트에서 뉴스를 실시간 수집하는 방법입니다.

 

IMPORTFEED-함수-입력
이미지 출처 : 구글 스프레드시트

 

스프레드 입력창에 IMPORTFEED 함수를 활용하여 입력합니다.

잠시 Loading 화면이 나온 후 아래와 같이 "메이저리그" 키워드로 뉴스가 수집됨을 확인할 수 있습니다.

 

수집된-뉴스-다운로드
이미지 출처 : 구글 스프레드시트

 

수집된 뉴스는 엑셀이나 PDF 파일 등으로 다운로드할 수 있습니다.

 


2. IMPORTFEED 함수 활용

 

 

 

IMPORTFEED 함수를 활용하고 실제 제대로 크롤링되는지 살펴보겠습니다.

이번에는 구글 알리미 활용이 아닌 다른 방법을 알려드리겠습니다.

 

http://news.google.com/news?hl=ko&gl=kr&ie=UTF-8&output=rss&q=키워드

 

URL 주소에 넣고, 검색하고 싶은 키워드를 입력하면 됩니다.

저는 키워드로 "오마이뉴스", 개수는 20개로 해보겠습니다.

 

참고로 URL 출처는 https://brunch.co.kr/@sijin90/52 입니다.

 

IMPORTFEED("http://news.google.com/news?hl=ko&gl=kr&ie=UTF-8&output=rss&q=오마이뉴스", , true, 20)

 

오마이뉴스-실시간-수집
이미지 출처 : 구글 스프레드시트

 

오마이뉴스를 검색어로 IMPORTFEED 함수를 활용한 결과입니다.

화면에서는 필터를 사용하여 9월 15일의 기사만 출력되고 있습니다.

 

C 셀에서 필터를 적용하는 방법은 다음과 같습니다.

 

  • 데이터 > 필터 만들기 > C셀 클릭 > 조건별 필터링 > 텍스트 포함 > 15 sep 입력 > 확인

 

수집된 기사가 구글에서 일치하는지 검증해 보겠습니다.

 

오마이뉴스-구글-검증
이미지 출처 : 구글

 

3개의 기사의 제목과 순서가 모두 일치함을 확인할 수 있습니다.

 

마지막으로 네이버 뉴스의 RSS를 소개하겠습니다.

IMPORTFEED 함수 URL 주소에 넣고 키워드만 바꿔주시면 됩니다.

 

네이버뉴스 최신 : http://newssearch.naver.com/search.naver?where=rss&sort_type=1&query=키워드
네이버뉴스 관련도순 : http://newssearch.naver.com/search.naver?where=rss&sort_type=0&query=키워드

 

출처는 https://discordbot.tistory.com/112 입니다.

 

구글 및 네이버 뉴스 RSS를 파일로 첨부합니다.

 

구글 및 네이버뉴스 RSS.txt
0.00MB

 


지금까지 스프레드시트의 IMPORTFEED 함수를 활용한 뉴스 수집을 알아보았습니다.

특정 키워드의 뉴스가 필요한 분들에게는 매우 유용한 기능이라고 생각됩니다.

 

구글 스프레드시트 IMPORTHTML 함수 - 표 데이터 자동 가져오기

 

구글 스프레드시트 IMPORTHTML 함수 - 표 데이터 자동 가져오기

구글 스프레드시트의 기능 중에 IMPORTHTML 함수를 이용하는 방법에 대해서 알아보겠습니다. 웹 페이지의 데이터가 필요할 때마다 복사했던 기억이 있으실 겁니다. 오늘 소개해드리는 방법은 한

moneymaster2015.tistory.com

 

댓글

TOP

나를 이롭게 남을 이롭게 모두를 이롭게 하고 싶은 회사원 개발자 선생님