본문 바로가기

쓸모 있는 제품

Product: Hadoop

원제 : Product: Hadoop

번역 : Product: Hadoop

Update 5: Hadoop이 16.25 시간에 1PB를, 62초에 1TB를 정렬(Hadoop Sorts a Petabyte in 16.25 Hours and a Terabyte in 62 Seconds) 하고 동일한 작업을 처리하는데 Greenplum보다 40배 많은 장비를 사용했기 때문에 Hadoop의  green cred questioned 을 가지고 있습니다.
Update 4: Introduction to Pig. Pig는 저수준  map-reduce 에서 Hadoop 프로그램을 그만두게 해줍니다. Java를 몰라도 됩니다. Pig 라틴 언어를 이용하면, 스크립트 데이터 흐름 언어인데, 데이터 흐름 프로그램으로써 문제를 생각하게 됩니다. Pig Latin 10줄 = Java 200줄.
Update 3: Scaling Hadoop to Yahoo!에서 4000노드(4000 nodes at Yahoo!) 까지 Hadoop으로 확장. 16PB 디스크에 가까운 30,000코어; 37분에 6TB의 데이터 정렬 완료; 14,000 map 작업이 360MB(약 3 블럭) 데이터를 전체 작업으로 총 5.04TB의 단일 파일에 쓰기(읽기).
Update 2: Hadoop Summit and Data-Intensive Computing Symposium Videos and Slides. Topics include: Pig, JAQL, Hbase, Hive, Data-Intensive Scalable Computing, Clouds, ManyCore: 확장에서 데이터 시스템의 혁명, 단순, 복잡성, 구글에서 대규모 데이터셋의 처리:  현재 시스템과 미래 방향, 웹 그래프 마이닝. 그리고 Sherpa: 호스팅 데이터 제공.
Update: Kevin Burton 은 Hadoop이 이제 blog 와 Beyonce 를 보고 있는 introductory video 를 가지고 있다고 밝혔습니다. staring Beyonce. Well, the Beyonce 부분은 사실이 아닙니다.

Hadoop 은 map/reduce라 이름지은 계산 패러다임을 이용하는 유용한 하드웨어의 커다란 클러스트에서 응용프로그램을 돌리는 프레임워크인데, map/reduce는 응용프로그램을 작은 일의 조각으로 나우고, 각각은 클러스터의 어떤 노드에서라고 실행됩니다. Hadoop은 구글의 stack을 많이 복제했지만, 우리들을 위한 것입니다.Jeremy Zawodny는 대형 웹사이트 구축자를 위해 왜 Hadoop이 중요한지에 대해 멋진 개관을 해줍니다:

지난 몇년 동안, 큰 규모 웹 시스템 구축에 참여한 회사들은 동일한 기초적인 도전에 직면합니다. 큰 문제를 쪼개는 "다수의 값싼 하드웨어를 이용하여 분할하여 정복하기(divide-and-conquer using lots of cheap hardware) 접근법은 오직 확장하는 것이고, 쉽지 않았다는것을 거의가 동의할 것입니다.

근본적인 인프라는 항상 도전이었습니다. 여러분은 다수의 서버를 사고, 키우고, 설치하고 관리해야 합니다.
다른 사람의 유용한 하드웨어를 이용하더라도, 서버들이 모두 바쁘게 유지되면서 divide-and-conquer 작업을 하는 소프트웨어를 여전히 개발해야 합니다.

매우 힘든일입니다. 그리고 유용하게 만드는 것이 필요한데, 하드웨어처럼 말이죠.


Hadoop은 계산 노드에 데이터를 저장하는 분산 파일 시스템을 제공하는데, 클러스터들간에 매우 높은 총 대역폭을 제공합니다. map/reduce와 분산 파일 시스템은 노드 장애가 자동적으로 프레임워크에 의해 처리되도록 설계되었습니다. Hadoop은 2000개 노드를 가지는 클러스터에서 시연되었습니다. 현재 설계 목표는 만개 노드 클러스터입니다.

오늘의 명백한 질문입니다: Hadoop을 통해 웹 사이트를 구축해야 합니까? 잘 모르겠네요.

많은 데이터와 함께 해야하는 몇 종류의 일이 있습니다: 처리, 변환, 제공(process, transform, and serve).

Yahoo는 말 그대로 로그 파일, 웹 페이지, 처리해야하는 다른 데이터를 수 페타바이트를 가지고 있습니다. 처리는 계산을 의미합니다. 그것은 다음과 같습니다: 관련성, 분류, 인기도, 클릭율, 경향, 검색어등을 찾는 것입니다. Hadoop은 구글과 같은 이유로 이런 일을 위해 매우 타당합니다. 여러분의 웹 사이트에도 말이 될까요?
여러분이 YouTube에 다니고 제공할 수페타바이트의 미디어를 가지고 있다면, 정말로 map/reduce가 필요할까요? 아마도 아니지만, 클러스터 파일 시스템은 훌륭합니다. 여러분은 투명하게 저장 자원을 확장하는 능력을 가지고 높은 대역폭을 얻을 수 있습니다. 저장할 많은 것들이 있을 때 완벽합니다.

YouTube는 분산 작업 메커니즘을 사용하는 것처럼 보이고, 여러분은 Amazon의 서비스 구축할 수 있습니다. 썸네일, 미리보기,  미디어 파일 변환과 같은 것을 가지고 말입니다.

그들이 Hbase를 이용하고 있을 때 정말로 탁월한 채택입니다. 모두가 확장가능하고, 신뢰하고, 높은 성능의 데이터 저장소에 구조화된 데이터를 저장하고 싶어합니다. Hbase는 나에게 흥미로운 전망입니다.

나는 이 인프라를 적용하여 완전히 다른 패러다임에 정통한  "보통" 사람의 경험보고서를 기다릴 수 없습니다.
Hadoop 표지에 O'Reilly가 어떤 동물을 사용할지 궁금합니다. (책이 곧 나올텐데라는 의미인데, 책이 나왔죠. 코끼리)

See Also

  • Site: Hadoop
  • Open Source Distributed Computing: Yahoo's Hadoop Support by Jeremy Zawodny
  • Yahoo!'s bet on Hadoop by Tim O'Reilly
  • Hadoop Presentations
  • Running Hadoop MapReduce on Amazon EC2 and Amazon S3