LLM Workshop 카테고리
잡담
Raspberry Pi 5에 OpenClaw 돌리기 글을 쓴 지 네 달이 되어가는데, 그 사이에 이런저런 재미있는 일들 (AI 사용 측면에서)이 많이 있었다.
우선 그 사이에 굵직한 LLM 모델들이 꽤 나왔다. OpenClaw로 처음 agentic AI를 경험할 때만 해도 Kimi-K2.5를 썼는데, 그 후 GLM-5를 쓰고, DeepSeek 4도 나오고, Claude도 업데이트 되고 등등… 현재는 Kimi K2.6, Claude, MiMo 2.5를 주력으로 사용하고 있고, 성능이 필요한 일들은 Claude, 적당한 성능과 적당한 가성비가 필요한 일은 Kimi K2.6, MiMo는 토큰 떨어졌을 때 백업용으로 사용하고 있다.
그 동안 썼던 LLM에 대한 간략한 평가를 하자면,
- GLM-5, GLM-5.1: GLM Coding Plan으로 썼었는데, 솔직히 말하자면 오픈소스 모델들 중에는 제일 성능이 마음에 들었다. 다소 느리기는 한데, 한글 처리도 잘 하고 OpenClaw에서 쓸 시 페르소나 놀이도 꽤 잘 해줬다. 가장 큰 문제점은 명목상 표기된 컨텍스트가 그렇게 믿을만하지 않아서, 절반 정도를 넘기면 수동 compact해야한다는 점 (그러지 않으면 출력이 다 깨진다).
- Kimi K2.6: GLM 다음으로 넘어온 선택지 중 하나였는데, 일단 성능 자체는 overthinking이 굉장히 심한 것을 제외하면 평이하다. 토큰 출력 속도도 GLM보다는 낫지만 overthinking으로 갉아먹는 경향이 강하다. 문제는 블로그 작업 보조용으로 쓸 때 발생했는데, 한글 문서 학습을 덜 했는지 자꾸 한글이 깨진다. 문제는 예를 들어서 Edit 툴을 쓰는 과정에서, old string에 잘못된 한글을 넣는 바람에 Edit 툴이 실패하고, 그걸 보면서도 계속 똑같은 시도를 하는 일이 반복되었다. 가령 “같은”이라는 단어를 “갋은” 같이 이상한 단어로 잘못 쓴 후, Edit tool의 old string에 “갋은”을 써서 실패하고, 그 사실 자체는 인지하지만
"갋은"이 아니라 "갋은"을 써야 합니다... 같은 식으로 계속 헛된 시도를 반복한다. - MiMo 2.5: MiMo 모델을 예전에 MiMo 2 때도 썼었는데, 그 때도 생각보다는 괜찮았던 걸로 기억한다. 다만 Kimi와 비슷한 느낌으로 한글이 깨져나오는 경우가 많다. Edit 툴 사용에서는 크게 문제는 안 일어나는 것 같은데 (즉 이미 있는 string을 그대로 쓰는 것에는 문제가 없다) 출력이 한글, 중국어, 심지어 일본어까지 다채롭게 나오는 문제가 있다. 그래도 툴 사용 문제가 있지는 않으니 그나마 reliable한 편…
- MiniMax M2.7: 출력이 섞여 나오는 현상이 MiMo보다 심하다. 사실 DeepSeek도 어느정도 그런 현상이 있었고, 한글 학습 덜 된 모델들에게는 필연적인 일 같기는 한데 얘는 좀 선을 넘었다.
결국 GLM이 제일 나았다. 여기서 바꾸게 된 이유는 모델 성능 외적인 게 제일 큰데, (1) 우선 coding plan에서 OpenClaw 사용시, 피크타임에 속도 제한한 것. 간단한 workaround가 있긴 했지만 (LiteLLM으로 프록시) 꽤나 괘씸했다. (2) Coding plan 가격 인상. 사실 이게 제일 큰데, 가격이 두 배로 뛰어서 거의 Claude Max 급이다. 물론 토큰 사용량은 훨씬 널널하지만 굳이? 그 가격에? 그럴거면 Claude를 쓰지? 싶은 게 제일 컸다. 거기다가 내가 결제 카드를 바꿨는데, 그 과정에서 결제오류가 나서 문의했더니 두 배 오른 가격으로 결제하라는 안내를 받아서 미련없이 해지하고 claude로 갈아탔다.
Claude 외의 모델들의 경우, 경험상 K2.6은 한글 사용 필요없는 부분 (예를 들어 잡다한 코딩작업, 블로그 글 영어로 번역하는 작업 등) 에서 여전히 유용하므로 놔두고, MiMo도 성능 준수하고 무엇보다 Token Plan이 꽤 신기해서 (1달치 크레딧 안에서 맘대로 사용 가능) 백업용으로 유용하게 남겨뒀다. 대충 정리하자면,
- Claude: arXiv 새로 올라온 논문들 읽고 내가 흥미로워할만한 논문들 markdown으로 정리하는 cron job / 블로그 작업 (한글).
- Kimi: Claude가 정리한 markdown 문서들 기반으로 대화할 때 사용 / 블로그 작업 중 한글 작업 필요없는 것 (예를 들어 한글에서 영어파일 정리)
- MiMo: Kimi랑 거의 유사, Quota 간당간당할 때 사용
정도이다.
Claude를 사용하니 확실히 블로그 글의 초안 정도는 맡길 수 있지만, 구성이 너무 교과서적이고 뻔한 건 어쩔 수 없는 것 같다. 내 블로그 글의 목적은 대체로 글을 쓰는 것 자체보다, 그 과정에서 내가 새롭게 알아내거나 재밌는 걸 찾는 게 목적인데 (그래서 굳이 한글로 수학 글을 쓰는 것도 있다) 그것에는 정확하게 반하는 방향의 글쓰기에 특화되어 있어서 여전히 믿고 맡기기에는 조금 부족하다. 대신 확실히 똑똑해서, 예를 들어 수학 글에서 글 중간에 새로운 명제를 추가하면 그 이후 블록들의 번호를 하나씩 밀고, 다른 글들에서 해당 블록들의 번호를 참조하는 링크들을 확인한 뒤 전부 옳게 바꾸는 것 등등 귀찮고 손 많이 가는 일들은 모두 맡길 수 있게 됐다.
큰 변화 중 하나는 OpenClaw를 안 쓰게 되었다는 것으로, 사실 이건 내가 AI를 본격적으로 시작한 게 OpenClaw라서 썼던거지, 누적된 불만은 계속 있었다. 가장 큰 건 시스템 프롬프트가 과도하게 주입돼서 LLM이 주의를 잃기가 너무 쉬웠다는 것이고, 프로젝트가 커지다보니 과하게 무거워지고 내부에서 돌아가는 코드들이 투명하게 보이지 않았다는 것이 너무 컸다. 물론 보려고 작정하면 볼 수 있지만 업데이트도 과하게 잦고 실으려는 기능도 과하게 많은 느낌이었다. 결국 OpenClaw의 역할은 Hermes로 이관하고, 주로 편집할 때 쓰는 툴은 Claude Code로 굳어졌다. 다만 Hermes가 확실하게 좋은 건 WebUI로, Claude Code는 결국 터미널에서 출력을 확인하려면 LaTeX 가독성을 포기해야 하는데 Hermes WebUI에서는 KaTeX를 지원하는지 수식이 아주 잘 보였다. 덕분에 Claude Code가 cron으로 정리해둔 새 논문들을 읽을 때는 주로 Hermes에 Kimi를 물려서 사용하니 아주 깔끔하게 역할분담이 잘 됐다.
그래서 이 카테고리는?
잡담이 길었는데, 결국 나는 이 카테고리를 나의 LLM 사용기처럼 사용할 예정이다. 그러나 나는 본업이 LLM은 아니고, 글을 쓰는데도 시간이 꽤 들다보니 이걸 내가 직접 쓸 생각은 없다. 따라서 나는 이 카테고리의 글들을 AI에게 맡겨보기로 했다. 이 카테고리에서 AI가 쓴 글은 AI 마킹이 달려있고, author도 별도로 할당해주었다.
우선 블로그 개발 카테고리까지는 내가 손봤지만, 이제 블로그 기능 추가는 거의 LLM에게 시키므로 그 부분의 설명을 이 카테고리에서 이어서 한다. 대략적인 구상은 내가 시킨 걸 LLM 페르소나가 구현하고 나서, 툴툴거리는 투로 쓰는 것을 상상했는데 어느정도는 잘 하고 있는 것 같다. 또 다른 방향의 사용?으로, 기존 내가 쓴 수학 글들을 쭉 읽으며 내가 정의 없이 사용한 개념이나 broken link 같은 걸 탐방하는 cron job도 만들어놨다. 아이디어는 내 블로그의 지식만 가지고 글을 읽을 때, 이해가 될 만큼 self-contained인지 체크하는 거기는 한데, 기본적으로 LLM 입장에선 자신이 원래부터 가지고 있는 지식과 내 블로그의 지식을 구별하는 것이 힘든 일이라 크게 기대는 안 하기는 한다. 그래도 일단 독후감 비슷한 느낌으로 달아두게 cron job을 설졍해보기는 했다. 다만 Marvin의 페르소나는 약간 줄이고 (Haiku로 돌려서, context를 늘리면 출력이 불안정할 것이라 생각했다.) 그냥 정직한 독자로 페르소나를 설정하여 넣어두었다.
댓글남기기