오늘은 몰라도 내일은 알자
- Data Engineer
- Analytic Engineer
- 지식 공유자
kgw7401@gmail.com
Posts
Search
목차
Under the hood, BigQuery employs a vast set of multi-tenant services driven by low-level Google infrastructure technologies like Dremel, Colossus, Jupiter and Borg.
- Google Cloud Blog 발췌
여러분들은 빅쿼리가 여러 첨단(?) 기술들로 이루어진 구글 기술의 총집합체라는 사실을 알고 계셨나요?
저는 꽤나 오랫동안 Bigquery를 애용하고 있는데요. 문득 자칭 Bigquery 매니아라면서 작동 원리도 모르고 쓰는 것이 굉장히 무례하다는 생각이 들었습니다.
그렇게 개인적인 호기심+리스펙으로 빅쿼리의 내부 아키텍처를 리서치해보았습니다.
Dremel: 논문으로 알아보는 Bigquery 컴퓨팅 핵심
위에서 언급했지만 빅쿼리는 여러 기술들이 사용되었습니다. 그 중 빅쿼리 서버리스 아키텍처의 핵심 포인트는 스토리지와 컴퓨팅이라고 볼 수 있는데요. 빅쿼리는 이 둘을 디커플링하여 독립적으로 유연하게 관리할 수 있다는 장점이 있습니다.
이번 포스팅에서 알아볼 부분은 빅쿼리의 컴퓨팅 아키텍처입니다. 이를 위해서는 Dremel(드레멜)이라고 하는 기술에 대해서 알아야 합니다. 드레멜 아키텍처에 대해서는 오늘 살펴볼 드레멜 논문인 Dremel: Interactive Analysis of Web-Scale Datasets에 아주 자세하게 나와있었습니다. 그래서 이 글에서도 해당 논문의 중요 내용들을 따라가며 천천히 아키텍처를 뜯어보려고 합니다.
물론 저의 첫 논문 리뷰(?)인지라 많은 부분에서 해석을 실수할 수 있어 이 부분은 혹시 틀렸다 싶으시면 댓글로 피드백 주시면 감사드리겠습니다
엔지니어라면 한 번쯤 읽어봐야 할 Bigquery 컴퓨팅 아키텍처
Dremel 논문을 통해 알아보는 Bigquery
Bigquery
2024/10/03
이전 글
들어가며
저번 시간 퇴직 회고에 이어 이번 포스팅에서는 이직기를 풀어보려고 합니다. 요즘 채용시장, 특히 개발자 채용시장이 얼음장처럼 차갑다 보니 저 또한 이직 과정이 순탄치 않았습니다. 그래서 글 제목은 나의 해방일지를 본따 나의 이직일지라고 지어보았습니다. 이 글에서는 그 과정에서 겪은 일들과 느낀 점들을 솔직담백하게 작성하려 합니다.
이직을 결정한 이유
먼저 제가 왜 이직을 결정하게 되었는지부터 설명해야겠습니다. 이전 포스팅에서도 간단하게 언급했지만, 한 마디로 요약하면 더 큰 문제를 풀어내기 위한 새로운 환경을 찾기 위해서라고 할 수 있을 것 같습니다. 이전 직장에서 저는 엄청나게 깊지는 않지만 다양한 스펙트럼의 문제를 정의하고 풀어나갈 수 있었다고 생각합니다. 사회 초년생으로서 이런 기회를 갖게 된 것은 긴 커리어로 봤을 때 매우 좋은 경험이었다고 생각합니다.
하지만 이런 경험들을 하면서 한편으로는 조금 더 큰 문제를 깊게 파보고 싶다는 생각이 들었습니다. 밑에서 언급하겠지만, 이는 이직을 결정하게 된 계기이자 다음 회사를 선택하는 데 가장 중요한 기준이 되었습니다. 어찌됐든 꽤 예전부터 이런 생각을 했었고, 조금씩 이직 준비를 하면서 이따금 면접도 보았습니다.
이직 준비 초기에는 이직이 처음이기도 하고 처음에는 이 정도면 괜찮겠지라는 막연한 낙관 마인드로 이직 시장을 쉽게 봤는데, 역시나 차가운 시장은 저에게도 예외가 아니었습니다 그리고 그 과정에서 수많은 좌절과 시행착오를 겪다 보니 무엇이 잘못됐고 무엇을 준비해야 하는지 어느 정도는 감을 잡아갔던 것 같습니다.
나의 이직일지
회사 기준
먼저 저는 아무 생각 없이 이직을 준비하고 싶지 않았습니다. 많은 사람들이 첫 회사가 중요하다고 말하고 저 또한 그 의견에 일정 부분 동의하는데, 얼마 전 우연히 두 번째 직장이 더 중요하다는 글을 보았습니다. 글의 요지는 이직이 당연해지고 중고 신입이 만연해진 요즘, 처음부터 좋은 직장에 가기 위해 의미 없는 공백기를 만드는 것보다 하루빨리 의미 있는 경험을 할 수 있도록 하는 것이 더 낫다는 내용이었습니다.
그리고 여기서 두 번째 직장이 더 중요하다고 한 이유는 중고 신입 포지션으로 가더라도 너무 단기간 여러 회사를 거친 사람보다는 첫 직장을 디딤돌로 삼을 교두보로 삼되, 두 번째 회사부터는 굵직한 경험을 하면서 성장을 할 생각을 갖는 것이 더 중요해진 시점이 아닌가라는 의견이었습니다. 직장에 대한 패러다임이 바뀌고 있는 요즘 굉장히 와닿는 글이었고, 정확히 제가 처한 상황이었기에 더더욱 다음 회사를 신중하게 정해야겠다고 생각했습니다.
그래서 명확한 기준을 세우고 이를 최대한 지키고자 노력했습니다. 그리고 제가 세운 기준은 다음과 같습니다.
만 2년차 데이터 엔지니어의 첫회사, 첫퇴직 그리고 첫이직 (2) - 나의 이직일지
첫번째 이직을 준비하며
Footprint
2024/06/22
해당 포스트는 원 글인 BigQuery is much cheaper than you think에서 중요한 부분만 요약하여 번역한 글 입니다. 온전한 이해를 원하신다면 원문을 읽으시는 것을 추천드립니다.
빅쿼리는 최신 클라우드 분석 데이터베이스이지만 가격이 비싸다는 평판이 많았습니다. 하지만 이것은 더 이상 아니라고 이야기할 수 있습니다. 빅쿼리 가격 계산 정책이 바뀌면서 구글은 2023년에 굉장히 흥미로운 업데이트를 가지고 왔습니다.
여기서는 그에 대한 3가지 주제를 다룰 예정입니다.
•
스토리지 가격 모델 선택이 청구서에 미치는 영향
•
멀티 프로젝트 사용을 통해 반복되는 파이프라인 처리량을 늘리기
•
세분화된 쿼리 실행 가격 전략
1. 피지컬 스토리지 가격 모델을 사용하세요
2022년 8월, 빅쿼리 테이블 저장이 저렴해졌습니다. 정확히는 적절한 가격이 되었다고 표현하는 것이 맞을 것 같네요. 이전에는 공식문서에 이런 식으로 선언하고 있었습니다.
2022년 8월 이전: 스토리지 가격은 압축되지 않은 상태에서 테이블에 저장된 데이터양을 기준으로 책정됩니다.
아래는 각자 다른 압축 정도를 가진 테이블입니다.
Different commpression ratios (9x vs 3x)
90일의 지속시간을 가지고 있는 첫번째 데이터셋을 보면 로지컬에서 피지컬 가격으로 전환하였고 이는 보시다시피 가격이 아래 그림처럼 112,212$에서 27,324$로 내려가는 것을 보실 수 있습니다.
[번역] 빅쿼리는 생각보다 쌉니다
몇가지 규칙만 알고 있다면 빅쿼리는 최고의 가성비입니다
Bigquery
2024/05/24