“잠깐, 이 방식이 낫겠어요” 中 AI ‘딥시크’ 스스로 생각하며 배운다
newsare.net
저비용·고효율 대형언어모델(LLM)을 구현해 올해 초 전 세계를 놀라게 한 중국의 인공지능(AI) 모델 ‘딥시크-R1’의 훈련 방식이 공개됐다. 딥시크는 사람이 만든 학습 샘플 없이 순수 강화 학습(rei“잠깐, 이 방식이 낫겠어요” 中 AI ‘딥시크’ 스스로 생각하며 배운다
저비용·고효율 대형언어모델(LLM)을 구현해 올해 초 전 세계를 놀라게 한 중국의 인공지능(AI) 모델 ‘딥시크-R1’의 훈련 방식이 공개됐다. 딥시크는 사람이 만든 학습 샘플 없이 순수 강화 학습(reinforcement learning)만으로 추론 능력을 향상시킨 것으로 나타났다. 인간의 개입을 크게 줄이면서도 복잡한 문제 해결 능력을 강화했다는 점에서 주목된다. 량원펑 연구원을 포함한 딥시크-AI 연구팀은 딥시크의 구체적인 훈련 방식을 국제학술지 ‘네이처’에 17일(현지 시간) 처음으로 자세히 기술했다. 사실 AI가 사람처럼 문제를 단계적으로 사고하는 능력을 학습시키는 것은 오랫동안 난제였다. 수학이나 코딩 같은 복잡한 문제를 풀 때 AI 모델이 중간 과정을 스스로 만들어 내기 어렵기 때문이다. 사람이 ‘단계별로 생각하라’는 지시를 내리거나 사람이 작성한 추론 예시 데이터를 제공해야 했다. 방대한 계산 자원과 인력 투입이 필요한 방식이다. 딥시크-R1은 이 과정을 바꿨다. 연 Read more