Spark RDD Application Tutorial
Spark RDD Application
본 포스트는 Spark 와 Java Application 을 이용하여 RDD Application 을 구성한다. 그 전에 구성된 로컬 환경을 바탕으로 테스트 해 본다.
본 포스트는 Spark 와 Java Application 을 이용하여 RDD Application 을 구성한다. 그 전에 구성된 로컬 환경을 바탕으로 테스트 해 본다.
본 포스트는 Spark 와 Java Application 을 이용한 Structured Streaming 구현을 목표로 한다. 방대한 양의 빅데이터가 실시간으로 들어오는 상황에서 database의 관리를 batch processing 이 아닌, streaming 으로 처리하기 위함이다. 그 첫번째 과정으로 로컬 환경을 구성하여 테스트 해 본다.
python을 사용하여 데이터를 크롤링하는 방법을 배운다. 본격적으로 코드에 대해 언급하기 전에 알아야 할 인코딩이나 환경에 대하여 먼저 서술한다.
텍스트 정보처리라고도 불리우며 구조화되지 않은(unstructured) 대규모 텍스트 집합에서 새로운 지식 또는 의미를 발견하는 과정이다.
깃헙 블로그를 만들기 위해서는 로컬 PC에 ruby를 설치하고 jekyll 환경구성을 해야한다. 이전에 만들었을 때는 직접 다 로컬에 설치하고 구성하였으나 PC 포맷 후 그 작업을 다시 하려니 생각보다 신경쓸 일이 많아서, 저번에 구성해 놓았던 도커로 jekyll 을 구성하기로 하였다. 5분도 안되서 모든 환경 구성이 끝났고 몇가지 명령어만 익힌다면 쉽고 빠르게 블로그를 빌드할 수 있을 것 같다.