본문 바로가기
IT/Python

[파이썬] 구글 이미지 크롤링 개발 / 라이브러리를 이용한 초간단 방법!

by 베베야 2021. 8. 20.
728x90

이번 시간에는 파이썬을 프로그래밍을 이용해서 웹에서 이미지 파일들을 다운로드하여 저장하는

자동 크롤링 프로그램을 간단하게 만들어볼 생각입니다.

 

처음부터 소스코드를 보면서 개발해도 되지만 개발 시간을 줄이기 위해서

백앤드로 특정 양식으로 요청을 던지면 응답을 받을수 있는 API를 이용한다거나

아니면 이미 모든기능이 만들어진 라이브러리를 이용해서 간단하게 구현이 가능합니다.

 

 

API : Application Programming Interface의 약어로 컴포넌트를 활용하기 위한 규약에 따른 매개체

특징 : 특정 외부 서버 값을 던져서 결과를 제공받음(외부)

라이브러리 - 내가 프로그램을 개발하면서 필요한 기능을 누군가 이미 만들어 놓은 라이브러리로부터 가져다가 쓰는 것

특징 : 내가 개발하는 내부 서버에서 함수로써 작동(로컬)


먼저 미리 라이브러리를 만들어둔 개발자들에게 감사를 표하며

크롤링 라이브러리를 사용해 보도록 하겠습니다.

 

파이썬 개발환경 셋팅을 위해서는 2가지 선택지가 있습니다.

1. 나의 로컬 PC에 설치

2. 클라우드 개발환경 서비스를 이용

 

이 포스팅에서는 클라우드 서비스인 구름 IDE를 사용해서 설명해드리겠습니다.

기본적인 구름 IDE의 파이썬 개발환경 설정을 아래를 참고해주세요.

 

클라우드 개발환경 사이트 / 구름IDE(goormIDE) 소개 및 사용법

자신의 PC인 로컬 환경에서 개발프로그램을 설치하여 개발 환경을 만들어 개발을 진행하는 경우가 많습니다. 하지만 공간의 제약과 이미 만들어진 개발환경인 클라우드 개발서비스를 이용한다

bebeya.tistory.com

 

 

파이썬 실행 테스트

클라우드 개발 서비스 화면입니다.

파이썬 파일을 한 개 만들어서 제대로 작동하는 확인 해 보도록 하겠습니다.

[새로 만들기] - [파일]을 클릭합니다. 파일명은 test.py로 생성하겠습니다.

새로 만들어진 test.py파일에 다음과 같이 입력하고 저장한 다음 실행해보겠습니다.

입력 :  print("파이썬 테스트")

실행 : python test.py (프로젝트 파일의 위치에서 실행해야 합니다.)

 

다음과 같이 "파이썬 테스트"글자가 출력되는 것을 볼 수 있습니다.

 

 

라이브러리 사용

정상출력을 확인했으니 이제 크롤링 라이브러리를 사용하도록 하겠습니다.

먼저 "구글 이미지 크롤링 라이브러리"를 다운로드하여보겠습니다.

구글 검색창이 : python google image search and download를 입력하고 최상단에 사이트로 접속합니다.

▶https://pypi.org/project/google_images_download/

라이브러리를 사용하기 위해서 설치하는 문장을 복사한 다음 구름 IDE 콘솔 창에 입력합니다.

설치 시 버전 오류가 발생하면 파이썬 버전을 최신 버전으로 업데이트하도록 명령어를 입력해서 받아줍시다.

# pip install --upgrade pip

 

라이브러리 사용을 위한 설치가 끝났으면 샘플 예제를 가져오도록 하겠습니다.

Examples and code samples를 클릭합니다.

 

다음으로 샘플 예제를 복사한 다음 우리가 만들어둔 파이썬 파일에 붙여 넣기 합니다.

 

파이썬 파일은 google.py로 새로 한 개 생성해주세요.

그리고 샘플 코드를 붙여 넣기 합니다.

다음으로 아래의 내용을 진행하시기 바랍니다.

# 다음의 문장을 입력해서 필요한 패키지를 설치합니다. 아래의 콘솔 창에 입력해주세요
# git clone https://github.com/Joeclinton1/google-images-download.git
# cd google-images-download && python setup.py install

# 이후 google-images-download 폴더가 만들어집니다. 
# 꼭!! 해당 폴더 안에서 만들어둔 google.py(index.py 등등 가능) 파일을 넣고 저장합시다.

 

콘솔 위치를 아래와 같이 이동한 다음 파이썬 파일을 실행해서 이미지 크롤링을 시작하세요.

크롤링을 진행할 검색 키워드를 "아이유"로 진행한 화면입니다.

다음과 같이 다운로드 폴더에 관련 키워드에 대한 이미지 파일이 저장되어진 것을 확인할 수 있습니다.

 

라이브러리 코드

# 파이썬 버전 업그레드
# pip install --upgrade pip

# 다음의 문장을 입력해서 필요한 패키지를 설치합니다. 아래의 콘솔창에 입력해주세요
# git clone https://github.com/Joeclinton1/google-images-download.git
# cd google-images-download && python setup.py install

# 이후 google-images-download 폴더가 만들어집니다. 
# 꼭!! 해당 폴더안에서 google.py(index.py 등등 가능) 라고 파일을 만들고 아래의 문장을 입력 후 저장합니다.


from google_images_download import google_images_download   #importing the library

response = google_images_download.googleimagesdownload()   #class instantiation

arguments = {"keywords":"ㅇ","limit":20,"print_urls":True}   #creating list of arguments 크롤링할 문자, 사진제한
paths = response.download(arguments)   #passing the arguments to the function
print(paths)   #printing absolute paths of the downloaded imagespp

#실행하기
# root@goorm:/workspace/crawling/google-images-download(patch-1)# python google.py

 

이상으로 클라우드 개발환경인 구름 IDE에서 "구글 이미지 크롤링 라이브러리"를 사용하여 자동으로 이미지를 받아오는 파이썬 프로그램 작성을 완료하였습니다.

 

위의 내용을 진행하시다가 발생하는 오류들은 구글 검색을 통해서 쉽게 확인할 수 있습니다.

반응형
그리드형

댓글