반응형

전체 글 25

Spark Study - week4 (Chapter8. 조인)

💡[한빛미디어]Spark 완전가이드 를 보며 정리한 내용임. * 서적구매 : https://hanbit.co.kr/store/books/look.php?p_code=B67090299418.1 조인 표현식8.2 조인 타입8.3 내부조인(Inner Join)8.4 외부 조인8.5 왼쪽 외부 조인8.6 오른쪽 외부 조인8.7 왼쪽 세미 조인 ( Left Semi Join)8.8 왼쪽 안티 조인 (Left Anti Join)8.9 자연 조인8.10 교차 조인(카테시안 조인) // Cross Join, Cartesian Join8.11 조인 사용 시 문제점8.11.1 복합 데이터 타입의 조인8.11.2 중복 컬럼명 처리8.12 스파크의 조인 수행 방식8.12.1 네트워크 통신 전략8.13 정리기타 💡Spark에서..

Bigdata/Spark 2022.10.10

Spark Study - week 3 ( Chapter07. 집계연산 )

💡[한빛미디어]Spark 완전가이드 를 보며 정리한 내용임. * 서적구매 : https://hanbit.co.kr/store/books/look.php?p_code=B67090299417.1 집계 함수7.1.1 count7.1.2 countDistinct 7.1.3 approx_count_distinct ( 근사치 계산 )7.1.4 first , last7.1.5 min, max7.1.6 sum7.1.7 sumDistinct (sum_distinct)7.1.8 avg , mean7.1.9 분산과 표준편차 (variance, stddev )7.1.10 비대칭도와 첨도 (skewness, kurtosis)7.1.11 공분산과 상관관계 (corr, covar_samp, covar_pop)7.1.12 복합 데이..

Bigdata/Spark 2022.09.29

Spark Study - week 2 ( Chapter06. 다양한 데이터 타입 )

💡[한빛미디어]Spark 완전가이드 를 보며 정리한 내용임. * 서적구매 : https://hanbit.co.kr/store/books/look.php?p_code=B6709029941Test Code6.2 스파크 데이터 타입으로 변환 ( lit )6.3 불리언타입 ( 비교/판별 )6.4 수치형 데이터 타입(pow, count ... )6.5 문자열 데이터 타입()6.5.1 정규표현식 ( regexp_extract, regexp_replace , translate, contains , instr )6.6 날짜와 타임스탬프 데이터 타입 다루기 6.7 null 값 다루기 6.7.1 coalesce 6.7.2 ifnull, nullif, nvl, nvl2 ( SQL 함수 ) 6.7.3 drop6.7.4 fil..

Bigdata/Spark 2022.09.26

Spark Study - week 1 ( Chapter05. 구조적 API )

💡[한빛미디어]Spark 완전가이드 를 보며 정리한 내용임. * 서적구매 : https://hanbit.co.kr/store/books/look.php?p_code=B67090299415. 구조적 API 기본 연산 (CHAPTER 5)5.1 스키마5.2 컬럼과 표현식컬럼표현식DataFrame 컬럼에 접근5.3 레코드와 로우로우 5.4 DataFrame의 트랜스 포메이션5.4.1 Dataframe5.4.2 Select와 selectExpr5.4.3 스파크 데이터 타입 변환5.4.4 컬럼추가(withColumn)5.4.5 컬럼명 변경 (withColumnRenamed)5.4.6 예약 문자와 키워드 ( `(백틱) ) 5.4.7 대소문자구분 (default = false)5.4.8 컬럼 제거하기 (drop)5...

Bigdata/Spark 2022.09.25

데이터엔지니어 채용 공고 살펴보기(네카라쿠배+@ / 22.09.18)

22.09.18 기준 현재 인기있는 IT기업(네카라투배당토, 3N 등)의 공고에 나와있는 요구 기술들을 지극히 개인적으로 작성하였음. * 공고의 경우 작성 시점 기준 각 공식홈페이지에이 있는 공고를 기준으로 하여 나중엔 링크가 제거될 수 있음.1. 채용공고1.1 데이터 플랫폼 엔지니어 데이터 플랫폼 엔지니어 Name공고명Text지원 자격(언어)지원자격(데이터)우대사항비고네이버네이버 광고플랫폼 Data/MLOps Engineer 네이버 커머스플랫폼 Data Engineering … 등LinkJavaPythonScalanode.jsFlinkHadoop eco SystemHiveSparkimpalakafkakuduElasticsearchKubernetesMLOpsMongoDBdruidtrino공고가 여러개이며..

Bigdata/기타 2022.09.18

pyspark 실행 오류 (hostname 문제)

* 개인 히스토리 관리용으로 두서없이 편하게 작성함 맥북 AS이후 잘 사용하던 개발환경이 깨진것같다. spark 세션 생성하는과정에서 에러 발생 * jupyter와, cli에서 pysprk session생성이 전부 안됨. * 설정이 잘못 된게있나 순간 의심했으나, 잘 쓰던 환경이였고, AS이후 크게 설정을 변경한게없는상황이였음. 에러 코드를 확인중 못보던 URL로 접근하는것을 확인하였고, 개인 Local Hostname이 변경되어있는걸 확인하였음. * AS 도중에 호스트네임을 바꿔서 무언가 작업을 한것같은데.. 개인 PC가 아닌 실 개발환경에서 바꼈더라면.. 아찔할것같다 -spark://HeartbeatReceiver@singo_pc.localdomain:51500​ 해결 방법 : mac hostname..

Bigdata/Spark 2022.05.01

Spark Study - week 0 ( 스파크 설치 )

💡 0주차 스터디 (준비 기간) 일시 : 2022.02.06 9pm 장소(?) : 화상회의 내용 : 스터디원 소개 목차 리뷰 및 스터디 방향성 논의 숙제검사/ 어려웠던점 숙제 : 스파크 완벽가이드 서적 구매, 챕터1 참고하여 개인 개발환경 구성 사전 협의사항 : 개발환경은 개별적으로 사용하되 spark 버전은 최신 사용(3.2.1) , (권장)주피터 노트북 사용 스터디준비 * 테스트환경은 Mac BicSur 11.6 환경에서 진행 1. Spark Local 환경 설치 (3.2.1 버전 사용) case1) HomeBrew를 통한 설치 * Mac OS환경에서 설치할경우 이 방법을 사용하면 가장 간단하게 설치가 가능하다. * 타 블로그에 자세한 내용이 있으니 해당방법으로 설치할 경우 참고하여 설치 https:..

Bigdata/Spark 2022.02.12

IntelliJ에서 Gradle 프로젝트 작동안될때(git clone시)

문제1 : Git Clone 으로 받은 Gradle Project 가 정상적으로 작동이 안되는 현상 발생. 해결 : build.gradle 우측버튼 클릭 후 Import Gradle Project 실행 Import 이후 화면 -- 원인 파악이 늦어져 꽤나 시간을 소요하게 되었다. 기본적인 사항이라 관련자료가 많지 않음. -- 참고자료 (stack overflow) https://stackoverflow.com/questions/19596567/intellij-re-import-gradle-project 문제2 . Gradle Project실행 시 에러 발생 - 에러내용 더보기 2:29:51 오전: Executing task 'BerryApplication.main()'... FAILURE: Build f..

알고리즘 2020.02.06

[해커랭크003] Diagonal Difference

Practice>Algorithms>Warmup>Diagonal Difference 포인트 1. 2중 List (기존 List와 유사하게 사용) - 삽입 .add(값) - 사용 .get(INDEX_NUM) - 수정 .set(INDEX_NUM, 수정값) 2. 절대값 함수 - Math.abs(적용값) 정답. import java.io.*; import java.math.*; import java.security.*; import java.text.*; import java.util.*; import java.util.concurrent.*; import java.util.regex.*; class Result { /* * Complete the 'diagonalDifference' function below..

반응형