Data Engineering/AI

Data Engineering/AI

[AI] Datahub의 구조

모델-우선 메타데이터 구조1. Entity데이터셋, 파이프라인, ML 모델, DashBoard 등 “실체”를 식별하는 최상위 타입 2. AspectEntity에 붙는 버전 가능한(immutable-append) 하위 스키마.예를 들면, schemaMetadata, ownership, dataPlatformInstance 3. URNurn:li:::: 형식의 전역 식별자 4. MCP / MCLMetadataChangeProposal (요청)과 MetadataChangeLog (실행 결과).둘 다 Avro 스키마로 직렬화돼 Kafka 토픽에 기록됨. 왜 Aspect 설계가 중요한가?column 추가 같은 잦은 스키마 진화를 Table 단위가 아니라 Aspect 단위로 versioning → API와 스토리지..

Data Engineering/AI

[AI] LLM 페르소나 개념

페르소나란 무엇인가?1. 개념LLM이 대화 내내 일관된 성격, 어조, 지식 범위, 행동 규칙을 유지하도록 하는 역할(Role) 또는 캐릭터(Character) 메타데이터 2. 표현 층① 프롬프트(system/role), ② 파라미터 (LoRA·Adapter), ③ 외부 메모리 (Vector DB), ④ 정책 레이어 (Tool 권한) 3. 목적브랜드-보이스, NPC·챗봇 역할극, 도메인 전문 비서, 사용자-맞춤 UX 등에서 일관성(consistency)·몰입감(immersion)을 확보 연구 커뮤니티는 이를 “Personality/Persona Alignment”라고 지칭함.일반적 휴먼 밸류 정렬과 달리 특정 성격에 맞게 모델을 맞추는 문제로 분리함. 기술 스택 - 4 Layer Persona Stack1..

Data Engineering/AI

[AI] LLM 에이전트 개념

용어 정리 - "대화형 모델"과 "에이전트"의 경계1. 기본능력1-1. LLM (언어 모델)입력 → 텍스트 생성1-2. LLM Agent목표 달성을 위해 외부 환경과 반복적으로 관찰-사고-행동(Act) 2. 상태2-1. LLM (언어 모델)무상태(stateless)‧프롬프트 의존2-2. LLM Agent능동적 메모리(Episodic/Vector DB) 유지 3. 도구3-1. LLM (언어 모델)없음(텍스트만)3-2. LLM AgentAPI, DB, 파일시스템, 브라우저 등 Tool API 호출 4 루프4-1. LLM (언어 모델)1-shot 또는 대화 turn4-2. LLM AgentObserve → Think → Act → (optional) Reflect → … 즉 Agent는 LLM에 행동 실행기,..

Data Engineering/AI

[AI] LLM 개념

LLM의 정의와 탄생 배경LLM은 수십억~수조 개 파라미터를 가진 거대 신경망이 자연어(그리고 점차 멀티모달 신호)를 언어 모델링 확률 분포로 학습한 뒤, 질의응답, 번역, 코드 생성 등 범용 언어 과제를 수행하도록 특화한 “기반(Foundation) 모델”임.GPT, PaLM, Llama 계열처럼 디코더(autoregressive) Transformer를 주축으로 등장했으며, 대량의 웹, 문서, 코드 코퍼스를 자기지도 학습으로 사전학습(pre-training)하여 “다음 토큰” 확률을 예측하는 방식으로 언어 지식을 획득함. 핵심 아키텍처: Transformer의 역할 1. 멀티-헤드 자기어텐션(Self-Attention)입력 시퀀스의 모든 토큰 쌍 상호작용을 O(n²)로 계산해 장-단기 의존성을 동시에..

Data Engineering/AI

[ML] 경사하강법(Gradient Descent) 이란?

경사하강법이란? - 경사하강법은 머신러닝, 딥러닝에서 알고리즘을 훈련시킬 때 많이 사용됨 선형회귀란? - 선형적으로 분포된 데이터를 가장 잘 나타낼 수 있는 일차함수를 찾는 것 - 최적의 기울기와 y절편을 찾기 위해 사용되는 것이 경사하강법 경사하강법 의미? - 함수 값이 낮아지는 방향으로 독립 변수의 값을 변경시켜 최종적으로 최소 함수를 갖도록 하는 독립변수의 값을 찾는 방법 경사하강법 목적? - 함수의 최소값을 찾는 문제 경사하강법 사용하는 이유? - 함수의 미분계수가 0인 지점을 최대값 또는 최소값으로 확인하면 되지만, 머신러닝, 딥러닝에서의 함수는 굉장히 복잡해 근을 계산하기 어려움 경사하강법 순서 - 각 데이터 사이의 평균제곱오차(MSE) 를 구함 - 이 평균제곱오차를 비용함수라고 한다 - 비용..

Data Engineering/AI

[AI, ML, DL] 선형함수, 비선형함수란?

선형함수 - 그래프가 직선의 형태 비선형함수 - 그래프가 직선의 형태가 아닌 것

Data Engineering/AI

[AI, ML, DL] 단층 퍼셉트론이 동작하는 방식

입력 데이터A > 뉴런A 입력 데이터B > 뉴런A 뉴런 = (입력데이터A * 가중치A) + (입력데이터B * 가중치B) + 편향 -> 활성화함수 -> 활성/비활성 1. 뉴런에 들어온 여러 입력데이터의 가중합을 구함 2. 그 가중합을 활성화 함수의 임계치와 비교 3. 임계치보다 크면 그 뉴런은 활성화, 임계치보다 작으면 그 뉴런은 비활성화

Data Engineering/AI

[AI, ML, DL] 계단함수란?

h(x) = 0 (x 0) 값이 0 이하면 0을 출력하고, 값이 0 초과하면 1을 출력한다.

Data Engineering/AI

[AI, ML, DL] 인공지능 활성화 함수란?

활성화 함수 (Activation Function) - 입력 신호의 합을 출력 신호로 변환하는 함수 - 입력 받은 신호를 얼마나 출력할지 결정 - 비선형함수 (Nonlinear Function) - 입력 신호의 총합이 활성화를 일으키는지 정하는 역할 활성화 함수 종류 - 계단 함수 (Step Function) - 시그모이드 함수 (Sigmoid Function) - 하이퍼볼릭탄젠트 함수 (Hyperbolic Tangent Function) - 렐루 함수 (ReLU) - 리키 렐루 함수 (Leaky ReLU) - 소프트맥스 함수 (Softmax Function) 뉴런A > 뉴런B - 뉴런A 에서 뉴런B 로 신호를 전달할 때, 임계점을 경계로 출력값에 큰 변화를 줌 입력 데이터 > 활성화 함수 > 출력 데이터

Data Engineering/AI

[AI, ML, DL] 인공신경망 가중치와 편향이란?

가중치 = Weight (상수) 편향 = Bias (상수) "입력데이터A > 뉴런A > 출력데이터" 뉴런A = (입력데이터A * 가중치) + 편향 "입력데이터A > 뉴런A > 출력데이터" "입력데이터B > 뉴런A > 출력데이터" 뉴런A = (입력데이터A * 가중치A) + (입력데이터B * 가중치B) + 편향

박경태
'Data Engineering/AI' 카테고리의 글 목록