Главная Новости Галерея Вопросы Библиотека Контакты

hadoop 예제

MapReduce 단어 수 프로그램이 지정된 입력 파일에서 단어의 발생 수를 실행하고 출력하는 방법입니다. WordCount 예제를 실행하는 동안 주의해야 할 중요한 점은 WordCount 프로그램의 매퍼 클래스가 한 문장이 아니라 전체 입력 파일에서 완전히 실행된다는 것입니다. 입력 파일에 15줄이 있는 경우 매퍼 클래스가 모든 15줄의 단어를 분할하고 전체 데이터 집합에 대한 초기 키 값 쌍을 형성한다고 가정합니다. 감속기 실행은 매퍼 단계가 성공적으로 실행된 후에만 시작됩니다. 작업의 출력 사양유효성 검사; 예를 들어 출력 디렉터리가 아직 없는지 확인합니다. 멀티 페치 예제의 자바 버전이 있습니다. 당신이 자바에서 Hadoop 코드를 작성하고자하는 경우 그것을 읽고 그것을 밖으로 시도하십시오. 다음 단계는 다음과 같이 JARS 추가를 클릭하여 hadoop 라이브러리에 대한 참조를 얻는 것입니다 — 워드 카운트 예는 Hadoop및 MapReduce의 «Hello World» 프로그램입니다. 이 예제에서 프로그램은 파일의 각 단어의 발생 수를 계산하는 MapReduce 작업으로 구성됩니다. 이 작업은 맵과 축소 두 부분으로 구성됩니다. 맵 작업은 파일의 데이터를 매핑하고 맵 함수에 제공된 데이터 청크의 각 단어를 계산합니다.

이 작업의 결과는 데이터를 결합하고 디스크에 최종 결과를 출력하는 것을 줄이기 위해 전달됩니다. 작업이 완료된 후 작업을 정리합니다. 예를 들어 작업이 완료된 후 임시 출력 디렉토리를 제거합니다. 작업 정리는 작업이 끝날 때 별도의 작업에 의해 수행됩니다. 정리 작업이 완료되면 작업이 SUCCED/FAILED/KILLED로 선언됩니다. 먼저 우리는 몇 가지 입력 데이터를 생성하고 HDFS에 넣어해야합니다. X가 숫자인 urlX라는 두 개 이상의 파일을 만듭니다. 각 파일에는 정확히 하나의 URL이 포함되어야 합니다. 예를 들어, 여기서는 두 개의 파일을 만듭니다: 맵 단계 실행이 성공적으로 완료된 후 맵 단계에서 생성된 키-값 쌍이 입력으로 가져온 다음 알파벳 순으로 정렬되는 순서대로 섞기 단계가 자동으로 실행됩니다.

셔플 단계가 WordCount 예제 코드에서 실행되면 출력은 다음과 같이 표시됩니다 — 이제 감속기는 작성해야합니다. 이 예제에서는 감속기는 흥미로운 작업을 수행하지 않으며 집계 또는 변환없이 모든 입력 쌍을 출력합니다. 이것은 완벽하게 유효한 감속기이지만 프로젝트의 경우 더 많은 작업을 수행해야합니다. Reducer 구현을 통해 reduce 메서드를 통해 각 키에 대한 발생 카운트인 값을 요약합니다(예: 이 예제의 단어). 이것은 하눕 맵Reduce의 단어 수 (안녕하세요 세계) 프로그램의 예입니다. 세부 정보로 이동하기 전에 MapReduce 예제 프로그램을 한 눈에 보고 MapReduce 환경에서 실제로 작동하는 방식에 대한 기본 아이디어를 살펴보겠습니다. 나는 각 단어의 발생 횟수를 찾아야하는 동일한 단어 수의 예를 촬영했습니다.