Spark에서 Window 함수의 다양한 이용

스파크(Spark)에서 데이터 프레임을 다루다 보면, 다양한 함수들이 요구됩니다. 기본 함수들은 직관적으로 새로운 값을 생성하는 것에 초점을 맞추고 있습니다. 그런데, 많은 경우에 데이터 비교를 위해서 현재 행을 이전 행과 비교하기를 원합니다. 혹은 특정 컬럼에 대해서 Partiton된 데이터를 구하고 싶기도 합니다. 이럴 때에 주로 사용하는 함수가 바로 Window 함수입니다. 스파크의 윈도우 함수는…

Continue reading Spark에서 Window 함수의 다양한 이용

2020년 6월 21일 금환 일식(부분 일식) 예고

관측 후기 일식 예고 올해 6월 21일에 아시아 지역에서 금환 일식이 예고되어 있습니다. 우리나라 서울을 기준으로 태양의 55.5% 가 가려지는 부분 일식이 될 예정입니다. 일식은 15시 53분에 시작하여 17시 02분에 최대에 이르고 18시 04분에 종료가 된다고 합니다. 구체적인 시간은 지역에 따라서 다르기 때문에 NASA 홈페이지의 지도에서 직접 지역을 골라서 시간을…

Continue reading 2020년 6월 21일 금환 일식(부분 일식) 예고

Spark 작업 병렬로 처리하기

빅데이터 처리를 위해서 스파크(Spark)가 인기를 끈 이유는 대용량 데이터를 병렬로 처리할 수 있다는 것입니다. 그래서 스파크를 처음에 접했을 때는 모든 작업이 병렬로 처리된다는 생각을 하게 되고, 이 때문에 스파크는 항상 병렬 처리를 한다고 믿었습니다. 물론 이것은 사실입니다. 그런데, 아래와 같은 워크로드를 가지는 경우를 생각해 봅시다. 처음에는 하나의 노드에서만 처리하다가 중간에…

Continue reading Spark 작업 병렬로 처리하기

아틀라스 (ATLAS) 혜성 관측 준비

2020.05.01 추가 앞서 예상되었던 것처럼 이미 혜성은 산산 조각이 났다고 합니다. 이렇게 되면 꼬리가 크게 발달하기가 어려워져서 관측은 사실상 힘들겠군요… 2020.04.12 추가 가장 최근 소식에 의하면 혜성이 여러 조각으로 나뉜 것으로 추측된다고 합니다. 최근 밝기 곡선의 변화를 보더라도 혜성이 점점 어두워지는 현상이 일어나고 있습니다. [링크] 안타깝게도 관측하기 좋은 혜성이 되기는…

Continue reading 아틀라스 (ATLAS) 혜성 관측 준비