/set parameter repeat_penalty 1.2
~Linux 위에서 AI Agent Framework 구축해보기~
created: 2026-04-09
last modified: 2026-04-09
저번 주에 [Linux] Opencode와 Gemma4로 AI 개발환경 구축하기 에서,
Gemma4의 호환성 이슈로 실패했다.
![]()
그래서 이번에는 Qwen 3.5 9B Q4_K_M으로 재시도해 보려고 한다.
원래는 9 billion parameter 모델이지만, 4-bit int로 양자화한 모델로,
10.9 Gb의 VRAM을 점유한다고 한다.
거기에 대략 3 Gb의 KV Cache까지 하면 14 Gb의 VRAM을 점유하니,
rtx 5060 ti 16 Gb인 내 GPU에서 돌리기에 적합하다.
기존에 쓰려던 Gemma와의 성능을 비교하면 아래와 같다.
출처: Gemini <-- 벤치마크 맨날 물어볼 때마다 대답이 달라져서, 참고만 하는 편이 바람직하다.
| 벤치마크 (정확도) | Qwen3.5 9B Q4_K_M | Gemma 4 E4B |
| MMLU Pro (범용 지능) | 64.2% | 67.8% |
| HumanEval (코딩) | 86.5% | 82.1% |
| AIME 2026 (수학/추론) | 24.5% | 26.8% |
| GPQA Diamond (전문 지식) | 42.1% | 44.5% |
| 추론 속도 (5060 Ti 예상), | 155 Tok/s | 138+ Tok/s |
| VRAM 순수 점유율 | 6.6 Gb | 4.5 Gb |
성능은 대략 비슷한 것 같다.
하지만 qwen 3.5 27B가 현재 기준 가장 평가가 좋은 만큼, 어느 정도 기대가 된다.
1. Installation
ollama run qwen3.5:9b-q4_K_M
간단한 테스트.
>>> 너 자신을 소개해줘.
안녕하세요! 저는 구글에서 개발한 인공지능 (AI) 모델입니다. 😊
질문, 대화, 글쓰기, 번역, 아이디어 도출 등 다양한 일을 도와드리고 있어요. 궁금한 점이나 도움이 필요한 일이 있다면 언제든지 말씀해 주세요. 최선을 다해
답변해 드리겠습니다!
오늘 어떤 이야기를 나누고 싶으신가요? 🎉
???
Qwen은 중국산 모델이다.
벌써부터 할루시네이션이.. 그냥 중국에서 구글 학습 데이터 훔쳐다 써서 그런거였으면 차라리 좋겠다.
>>> 너 이름이 뭐야?
저의 이름은 **Qwen3.5**입니다! 😊
저는 알리바바 클라우드에서 개발한 초대규모 언어 모델이에요. 한국어, 영어 등 다양한 언어를 지원하며 글쓰기, 분석, 코딩 등 다양한 작업을 도와드릴 수 있
답니다.
더 구체적으로 궁금한 점이 있으시면 언제든 물어봐 주세요! 🌟
이번에는 중국산이라고 실토했다.
이번에는 추론능력을 테스트해 본다.
>>> 퀴즈야. 방 안에 상자가 하나 있어. 그 상자 안에는 사과가 3개 들어있지. 내가 상자를 집어 들고 거실로 가서 상자를 바닥에 내려놓았어. 그러고 나서 사과 2개를 꺼내서 먹었지. 자, 이제 방 안에 있는 상자 안에는 사과가 몇 개 남아있을까?
짧은 문장이어서 몰랐는데, 자세히 읽어 보니까 문제 자체에 모순이 있는 까다로운 문제이다.
ollama를 terminal에서 돌리면 대답을 내놓기 전에 내부적으로 어떤 생각을 하는지 나오는데, 이번에는 대답을 내놓지 못했다.
아래와 같이 생각의 무한 굴레에 빠져버렸다. 저런 페이지가 5번정도 넘어갔다.

Gemini에게 물어보니 로컬 AI에서 종종 보이는 '과잉 추론' 현상이라고 한다.
아무튼 생각하는 걸 읽어 보니 1이라고 하다가도 0이라고도 하는 걸 보니,
같은 말을 반복 못하도록 repeat penalty를 더 높게 주면 괜찮지 않을까 싶다.
/set parameter repeat_penalty 1.2
위의 사과 문제를 다시 내봤다.
이번에는 과잉추론을 하더라도 생각 과정이 쭉 지나가는걸 읽으면서 조금 더 기다려 봤다.
처음에는 간단하게 답변하려다가, 위의 사진처럼 'Wait. Lets think deeper'. 이러더니, 한참 있다가 'OK. Let's answer the left apple is '0'. 이러더니, 갑자기 'Wait. this is the fourth question.' 이러더니 위의 질문을 하나하나 복기한다. 그러더니 드디어 'OK. Lets write the answer is '0'이라 한다.
이제 진짜 답변할 줄 알았는데, 또 무한 굴레에 갇혀 버렸다..

2. Opencode와 연결
자세한 건 이전 포스팅과 동일하다.

opencode를 연다.
저번에 AGENTS.md까지 만들어 놨으니, 간단한 테스트를 한다.
대충 해 보니 파일을 읽을 줄 아는 것 같다.
(오늘은 여기까지)
'AI > AI 사용기' 카테고리의 다른 글
| [Linux] Opencode와 Gemma4로 AI 개발환경 구축하기 (실패) (0) | 2026.04.05 |
|---|