deepseek

2025년 02월 04일 golgol 0

https://github.com/deepseek-ai/DeepSeek-V3 소개와 방법 DeepSeek-V3는 671B 매개변수와 37B 활성화된 토큰을 가진 강력한 Mixture-of-Experts 언어 모델입니다. Multi-head Latent Attention과 DeepSeekMoE 아키텍처를 채택하고, 보조 손실 프리 로드 밸런싱 […]

LLM(거대언어모델)

2024년 07월 16일 golgol 0

LLM(거대언어모델, Large Language Model)은 대규모 텍스트 데이터를 바탕으로 학습된 인공지능 모델로, 자연어 처리(NLP) 작업을 수행하는 데 사용됩니다. 이 모델은 텍스트 생성, 번역, 요약, 질의응답, 문법 […]