AI 인공지능에서 빅데이터가 중요한 이유는 머신러닝 및 딥러닝에서 트레이닝 및 검증데이터로서 대량의 입력 데이터가 필요하기 때문입니다. AI 인공지능과 빅데이터의 관계 및 무료 데이터셋 사이트에 대해 정리해보겠습니다.
AI 인공지능과 빅데이터 관계
구글의 알파고가 이세돌과 대결하기 전 수 많은 바둑기보 데이터를 학습한 DNN 뉴럴 네트워크라는 것은 이제 잘 알려진 사실입니다. 인공지능이 개발에 대용량 데이터가 필요한 이유가 무엇일까요?
앞서 말씀드린 알파고는 DNN 이라는 (딥 뉴럴 네트워크) 딥러닝 기술을 이용합니다. 뉴럴네트워크는 이름에서도 알 수 있듯이 인체의 신경망 모형에서 아이디어를 얻은 기술로 다음과 같은 뉴런을 다층으로 배열한 것입니다.
뉴런은 우리 신경망의 최소단위로 알려져 있습니다. 각 뉴런은 위와 같이 촉수로 서로 연결되어 전기적인 신호를 통해 정보를 전달하는 단순한 구조입니다. 하지만 이런 뉴런이 아래와 같이 다층으로 구성되면 우리 뇌에서 복잡한 데이터의 분석, 추론, 계산 등이 가능해지게 되는 것이며, 이를 그대로 인공지능에 적용한 것이 딥러닝 기술입니다.
대용량 데이터가 필요한 이유
갓 태어난 아이가 눈에 보이는 동물이 고양이인지 개인지 구별하는 방법은 살아가면서 수많은 개와 고양이의 특징을 반복학습하는 것입니다.
머신러닝의 한 종류인 딥러닝의 학습원리 또한 이와 같습니다. 실제 네트워크를 구성하더라도 갓 태어난 아이와 같이 아무런 정보가 없기에 수백 수천 장의 개, 고양이 이미지를 학습시키는 것이 필요합니다.
무료 dataset 사이트
구글이 텐서플로 같은 인공지능 플랫폼을 무료로 공개한 이유가 여기에 있습니다. 실제 학습망을 만드는 것은 누구나 할 수 있지만 데이터는 아무나 구할 수 없기 때문입니다.
한때 구글 포토는 무제한 업로드가 가능하여 인기가 많은 애플리케이션이었습니다. 전 세계 수십억명의 사람들이 사진과 동영상을 올렸고 구글의 인공지능 발전에 기여했을 것입니다. 이제 구글 포트는 유료로 전환 되었고 더 이상 무제한 업로드는 불가능합니다.
하지만 다행히도 일반인이 인공지능 연구에 필요한 빅데이터를 무료로 이용가능한 사이트 들이 있어서 소개합니다. 데이터를 이용해 빅데이터 관련 학습이 필요한 경우 아래의 정보를 참고 바랍니다.
공공데이터 포털
정부에서 공개한 데이터로 7만 여건 이상의 정보를 CSV, JSON, XML등의 형태로 다운로드가 가능하며, OpenAPI 및 REST API를 통해 다운로드하여 활용할 수 있습니다.
통합데이터 지도
아래와 같이 문화, 유통, 헬스케어, 소방안전, 문화 등의 16개 카테고리로 분류한 분야에 대해 키워드로 검색이 가능한 국내 사이트입니다. 전체 9만개에 가까운 데이터셋을 지역 키워드 및 아래의 분야별로 검색이 가능합니다.
미국 정부 Open Data
우리나라와 마찬가지로 미국의 경우도 정부기관에서 관리하는 빅데이터를 제공하고 있습니다. 기후, 환경, 에너지, 수자원, 건강 등의 공공 데이터를 제공합니다.
구글 Data Set 검색
필요한 데이터셋을 검색할 수 있는 서비스로 구글에서 그냥 검색하는 것보다 Data Set에 특화된 검색 결과를 얻을 수 있습니다. 특정한 데이터를 검색해보고 싶은 경우 유용합니다.
Kaggle 캐글
인공지능, 빅데이터 논문에서도 많이 참조하고 사용하는 캐글 사이트입니다. 위의 구글 데이터넷 서치엔진과 비슷하게 다양한 데이터를 검색해 활용할 수 있습니다.
데이터 허브
비즈니스 데이터 분석에 필요한 경제, 비즈니스 관련 데이터 셋을 구할 수 있습니다.
UCI 머신러닝 데이터 Repository
머신러닝을 위한 데이터 셋이 있는 곳으로 학생이나 교수 그리고 연구목적으로 많이 활용되는 저장소입니다.
Earth Data
사이트 이름에서도 알 수 있듯이 지구의 기후, 대기, 바닷물의 온도와 같이 지구에 기반한 다양한 데이터셋을 다운로드 할 수 있습니다.
이 외에도 다양한 무료 데이터셋 정보를 아래 표로 정리해두었으니 참고 바랍니다.
빅데이터 사이트 | 설명 |
WHO Global Health 데이터셋 | 건강관련 통계정보의 제공 (백신접종률, 바이러스 백신 관련 정보 등) |
NYC Taxi Trip 데이터셋 | 뉴욕시 택시 승하차 정보, 승객수 등의 재미있는 데이터셋 |
FBI 범죄데이터 | 범죄 관련 데이터 활용이 필요하다면 참고할 사이트 |
위키피디아 | 잘 알려진 온라인백과사전 서비스입니다. 필요시 전체 데이터를 Dump 하여 활용할 수도 있습니다. |
Quandl | 주식등 금융에 특화된 데이터 셋이 필요한 경우에 활용하면 좋습니다. 유료 서비스로 더 많은 데이터 접근이 가능합니다. |
Academic Torrents | 과학논문에서 사용되는 dataset 을 공유하는 프로그램으로 토렌트 seed를 통해 P2P 방식으로 공유됩니다. |
data.world | 데이터 셋의 GitHub로 분리는 사이트입니다. 다른 사람의 데이터를 참고할 수도 있지만 자신의 데이터를 공유할 수도 있습니다. |
이상으로 AI와 빅데이터의 관계 및 무료 데이터셋 사이트에 대해서 알아보았습니다.