IT/BigData 2020. 4. 13.
[mac] Apache Spark Study -1 ( Spark설치(HomeBrew) )
[mac] Apache Spark Study -1 ( Spark설치 및 확인 ) 개발 환경 - MacOS X Mojave 10.14.6 - openjdk version "1.8.0_242" - Python 3.7.3 1. Apache Spark 설치 case 1) Homebrew 를 사용한 설치 Mac사용자라면 익숙한 패키지 관리자인 homebrew를 사용하여 설치가 가능 - brew search 를 통한 spark 패키지 검색 # brew search spark ➜ ~ brew search spark ==> Formulae apache-spark spark sparkey ==> Casks spark sparkle sparkleshare - brew insatll 명령어를 사용하여 spark 설치 ( s..
IT/BigData 2018. 7. 4.
Apache Hue ( 아파치 휴 ) 4.0.1 소개 및 설치하기
Apache Hue ( 아파치 휴 ) 소개 및 설치하기 아파치 휴는 데이터를 탐색, 쿼리 및 시각화를 하기위한 오픈 소스 Analytic Workbench 입니다. 최근 Hue 4 버전 이상이 나왔습니다.4 버전으로 바뀌면서 에디터, 브라우져, 대시보드 그리고 스케쥴러 UI가 바뀌었다고 합니다.Hue 4 이전 버전을 설치하시고 싶으시다면 Hue 홈페이지에 Install란에 자세히 나와있습니다. Apache Hue 홈페이지주소 : http://gethue.com/ 우선 다운로드를 해줍시다.http://gethue.com/hue-4-and-its-new-interface-is-out/ 4.0.1 버전을 설치하겠습니다. 설치하기 전 필요한 의존성 패키지를 설치해줍니다. yum install libtidy li..
IT/BigData 2018. 4. 26.
Apache Spark ( 아파치 스파크 ) 2.2.0 Standalone 소개 및 설치하기
Apache Spark ( 아파치 스파크 ) 2.2.0 소개 및 설치하기 아파치 스파크(Apache Spark)는 오픈 소스 클러스터 컴퓨팅 프레임워크이다. 원래 캘리포니아 대학교 버클리의 AMPLab에서 개발된 스파크의 코드베이스는 나중에 아파치 소프트웨어 재단에 기부되었으며 그 이후로 계속 유지 보수를 해오고 있다. 스파크는 암시적 데이터 병렬성과 장애 허용과 더불어 완전한 클러스터를 프로그래밍하기 위한 인터페이스를 제공한다. 우선 다운로드를 진행합시다. https://spark.apache.org/downloads.html 들어가서 원하는 버전을 다운로드 합시다 지금 소개하고 있는 스파크는 2.2.0 버전 기준 설명입니다. Install Spark 스파크를 다운받으셨다면 원하는 곳에 압축을 푸시면 ..
IT/BigData 2018. 2. 19.
Apache Kafka ( 아파치 카프카 ) 2.11-0.9.0.0 소개 및 설치하기
Apache Kafka ( 아파치 카프카 ) 2.11-0.9.0.0 소개 및 설치하기 아파치 카프카(Apache Kafka)는 아파치 소프트웨어 재단이 스칼라로 개발한 오픈 소스 메시지 브로커 프로젝트이다. 이 프로젝트는 실시간 데이터 피드를 관리하기 위해 통일된, 높은 스루풋의 낮은 레티어신을 지닌 플랫폼을 제공하는 것이 목표이다. 요컨대 분산 트랜잭션 로그로 구성된, 상당히 확장 가능한 pub/sub 메시지 큐로 정의할 수 있으며, 스트리밍 데이터를 처리하기 위한 기업 인프라를 위한 고부가 가치 기능이다.디자인은 트랜잭션 로그에 많은 영향을 받았다 아파치 카프카는 원래 링크드인이 개발한 것으로, 2011년 초에 최종적으로 오픈 소스화되었다. 2012년 10월 23일에는 아파치 인큐베이터로부터 완전히 ..
IT/BigData 2018. 1. 23.
Apache Hbase ( 아파치 에이치베이스 ) 1.2.6 소개 및 설치하기
Apache Hbase ( 아파치 에이치베이스 ) 아파치 HBase는 하둡 플랫폼을 위한 공개 비관계형 분산 데이터 베이스이다. 구글의 빅테이블을 본보기로 삼았으며 자바로 쓰여졌다. 아파치 소프트웨어 재단의 아파치 하둡 프로젝트 일부로서 개발되었으며 하둡의 분산 파일 시스템인 HDFS위에서 동작을 한다. 대량의 흩어져 있는 데이터 저장을 위한 무정지 방법을 제공하는 구글의 빅테이블과 비슷한 기능을 한다. 라고 위키백과에 쓰여있다. https://ko.wikipedia.org/wiki/%EC%95%84%ED%8C%8C%EC%B9%98_HBase 그럼 본격적으로 설치를 해봅시다. 설치하기 Step 1 : Hbase 준비하기 Step 2 : Hbase Path 추가하기 Step 3 : Hbase data 디렉..
IT/BigData 2017. 11. 21.
Apache Hadoop ( 아파치 하둡 ) 2.6.5 소개 및 설치하기 Teragen(테라젠) 이용하기
Apache Hadoop ( 아파치 하둡 ) 설치하기 위키백과의 설명을 따르면 https://ko.wikipedia.org/wiki/%EC%95%84%ED%8C%8C%EC%B9%98_%ED%95%98%EB%91%A1 아파치 하둡(Apache Hadoop, High-Availability Distributed Object-Oriented Platform) 은 대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 프리웨어 자바 소프트웨어 프레임워크이다. 원래 너치의 분산 처리를 지원하기 위해 개발된 것으로, 아파치 루씬의 하부 프로젝트이다. 분산처리 시스템인 구글 파일 시스템을 대체할 수 있는하둡 분산 파일 시스템(HDFS: Hadoop Distributed File ..
IT/BigData 2017. 11. 5.
Apache ZooKeeper (아파치 주키퍼) 분산 코디네이터 소개 및 설치하기
Apache ZooKeeper (아파치 주키퍼) 분산 코디네이터 설치하기 주키퍼에대한 설명은 아래와 같이 위키백과에서 설명하고 있다. 아파치 주키퍼(Apache ZooKeeper)는 아파치 소프트웨어 재단 프로젝트중의 한 소프트웨어 프로젝트로서 공개 분산형 구성 서비스, 동기 서비스 및 대용량 분산 시스템을 위한 네이밍 레지스트리를 제공한다. 주키퍼는 하둡의 한 하위 프로젝트이었으나 지금은 독립적인 상위 프로젝트이다. 주키퍼의 아키텍처는 중복 서비스를 이용한 고가용성을 제공한다. 클라이언트는 주키퍼 마스터가 응답을 하지 않으면 다른 주키퍼 마스터에게 요청을 한다. 주키퍼 노드들은 파일 시스템이나 trie 데이터구조와 비슷한 구조의 네임 스페이스안에 데이터들을 저장한다. 클라이언트들은 이 노드들에게서 읽거..
IT/BigData 2017. 7. 29.
Cloudera quickstart(클라우데라), Zeppelin (제플린) 설치하기 및 예제
Cloudera quickstart, Zeppelin (제플린) 설치하기 포스팅을 시작하겠습니다. Cloudera quickstart, Zepplelin 설치 과정 l Step 1 : Cloudera Quickstart 다운로드 l Step 2 : VirtualBox 시스템 가져오기 l Step 3 : Cloudera Manager 설치 l Step 4 : Zeppelin 다운로드 l Step 5 : Zeppelin 환경설정 l Step 6 : Zeppelin 실행 Step 1 : Cloudera Quickstart 다운로드 l https://www.cloudera.com/downloads/quickstart_vms/5-10.html l Cloudera Manager quickstart VirtualBo..