본문 바로가기

전체 글50

5 Data Ingestion Methods 모든 데이터 엔지니어가 알아야 할 5가지 데이터 수집 방법데이터가 실제로 파이프라인에 들어오는 방법 — 풀 로드, 증분, CDC, 스트리밍, API를 Python 코드와 함께변환 코드를 작성하기 전에, 예측 모델을 만들기 전에, Spark 파이프라인을 실행하기 전에, 가장 먼저 해야 할 일은 데이터를 가져오는 것이다.데이터가 어디에 있든 그곳에서 끌어와 작업할 수 있는 곳에 안착시키는 그 첫 단계가 데이터 수집(Data Ingestion)이다.단순하게 들린다. 하지만 항상 그렇지는 않다.변환 로직이 틀려서가 아니라 수집 방법이 맞지 않아서 파이프라인이 무너지는 것을 본 적이 있다. 누군가는 증분 로드가 필요한 상황에서 풀 로드를 사용했다. 누군가는 거의 실시간 처리가 필요한 데이터에 배치 작업을 만들었다.. 2026. 6. 18.
OLAP Tools 3가지 비교 : Databricks, Snowflake, BigQuery 이 글에서는 Databricks, Snowflake, BigQuery를 나란히 비교해본다. 아키텍처, 가격, 강점, 약점, AI 기능, 오픈소스 현황, 그리고 각각을 언제 사용해야 하는지. 아키텍처: 세 가지 완전히 다른 철학기능과 가격을 비교하기 전에, 이 플랫폼들이 사용할 때 왜 그렇게 다르게 느껴지는지 설명하겠다. 모든 것이 아키텍처에서 비롯된다.💡 초보자 설명: 아키텍처는 시스템이 내부적으로 어떻게 설계되어 있는지를 뜻한다. 같은 데이터 처리 기능을 제공하더라도 설계 방식에 따라 사용법, 비용, 한계가 완전히 달라진다.Databricks는 레이크하우스(Lakehouse) 아키텍처를 사용한다. 데이터는 S3, ADLS, GCS 같은 자신의 클라우드 스토리지에 Delta Lake 같은 오픈 형식으로.. 2026. 6. 4.
LangGraph 입문 완전 정복 LangGraph 설명서들의 문제점내가 본 대부분의 튜토리얼은 LangGraph를 어떻게 사용하는지는 설명한다.하지만 그것이 왜 존재하는지를 설명하는 것은 거의 없다.그래서 우리 중 많은 사람들이 코드를 외우려고 하고, 노드와 엣지를 복사 붙여넣기 하고, 2주 후에 전부 잊어버린다.이 글은 그것들을 고치고자 한다.끝까지 읽으면:LangGraph가 실제로 무엇인지 이해한다LangChain이 이미 존재하는데도 왜 LangGraph가 존재하는지 안다프롬프트가 아닌 그래프로 생각하는 법을 익힌다LangGraph를 머릿속에 영구적으로 각인시킬 미니 프로젝트를 만든다처음부터 시작해보자.LangGraph는 어떤 문제를 해결하는가?일반적인 LLM 앱을 보자.이렇게 생겼다.사용자 → 프롬프트 → LLM → 답변간단한 챗.. 2026. 6. 2.
천만 건 문서의 RAG 파이프라인 설계 방법 (할루시네이션 없이) 대부분의 RAG 튜토리얼은 "임베딩을 벡터 데이터베이스에 저장하고 컨텍스트를 GPT에 전달하세요."이 정도 선에서 멈춘다. 이 아키텍처는 데모에서나 작동한다.이는 1,000만 건 문서에 대해서는 엉망이 된다.규모가 커지면 검색은 노이즈로 가득 차고, 레이턴시는 증가하고, 관련 없는 청크가 도처에 나타나고, 할루시네이션은 훨씬 더 통제하기 어려워진다.프로덕션 RAG 시스템의 진짜 과제는 답변을 생성하는 것이 아니다.올바른 정보를 일관성 있게 검색하고, 그 답변이 실제 데이터에 근거하고 있음을 증명하는 것이다.이 글에서는 하이브리드 검색, 리랭킹, 검증 레이어, 인용 강제를 사용해서 할루시네이션을 최소화하면서 수백만 건의 문서를 처리할 수 있는 프로덕션 수준의 RAG 아키텍처를 설계한다.기본 RAG 파이프라.. 2026. 6. 1.
전문가급 대시보드를 만드는 10가지 핵심 Streamlit 디자인 팁 Streamlit은 Python으로 데이터 애플리케이션을 만드는 방식을 혁신했다. 그 천재성은 단순함에 있다. HTML도 없고, JavaScript도 없고, 그냥 순수한 Python뿐이다. 몇 분 안에 Jupyter 노트북을 완전히 작동하는 웹 앱으로 변환하고, 땀 한 방울 흘리지 않고 Streamlit Cloud, Heroku, Railway에 배포할 수 있다.하지만 문제가 있다. Streamlit은 기능을 미관보다 우선시한다. 기본 위젯은 기능적이지만 기본적이다. 솔직히 말하면 대부분의 Streamlit 앱은 "아, Streamlit으로 만들었구나"가 한눈에 보인다.하지만 꼭 그럴 필요는 없다. 이 가이드의 팁들을 적용하면 이런 말을 들을 수 있다."잠깐, 이걸 Streamlit으로 만든 거야?" 시.. 2026. 5. 26.
에이전틱 AI 입문 가이드: 제로에서 첫 번째 AI 에이전트까지 2026년은 AI 분야에서 Agentic AI가 화두이다. 질문에 답하는 것 이상을 할 수 있는 AI를 상상해보자. 작업을 완료하는 것을 도와줄 수 있는 AI다. 예를 들어, 여행에 무엇을 챙길지 알려주는 것에 그치지 않고, 체크리스트를 만들고, 목적지 정보를 수집하고, 계획을 단계별로 정리해줄 수 있다. 그것이 에이전틱 AI의 기본 개념이다.AI 에이전트, LLM vs AI 에이전트, 에이전틱 AI 워크플로우 같은 용어를 들으면서 조금 헷갈렸다면 걱정하지 않아도 된다. 이 가이드는 입문자를 위해 쓰여졌다. 시작하는 데 실제로 필요한 것에만 집중해서, 단순하고 실용적으로 설명한다.에이전틱 AI란 쉽게 말하면에이전틱 AI는 목표를 향해 행동할 수 있는 AI다. 일반 챗봇은 물어보는 것에만 답한다. AI 에.. 2026. 5. 18.