Google Gemini CLI – Photo Gallery Jaee.net

구글 재미나이 하고 종종 재미나게 놀고 있다. 질문도 하고, 여러 음료에 카페인이 얼마나 들어있나 정리도 해 보고, 그런데 할 때마다 이걸 기억하려면, 정리해서 엑셀에 적어도 복사 붙여 넣기는 해야 한다. 그런데, 만약 이녀석이 파일까지 만들어 준다면? ^^

이런 호기심에서 시작하여 오늘은 내 컴퓨터의 터미널에서 구동하며 파일 생성, 삭제 기능까지 있는 인공지능을 한번 시도해 보았다. 인공지능이 코딩을 해 주면 파이선이나 자바스크립트 등으로 저장까지 자동화 되고, 사용자는 이를 실행만 하면 된다는 결론. 몇시간동안 혼자 재미나이 하고 티키타카 한 결과물을 정리해 보았다. 나름 컴퓨팅의 미래를 보는것 같기도 하고, 좀 무섭기도 하고…. 복잡한 느낌이다.

단번에 좋다 나쁘다 정리가 안되는 상황이고 하여. 여러분도 직접 한번 해 보실 수 있게 정리해 보았다. ^_^ 윈도우 기반 컴퓨터에서 아래 순서대로 따라 해보시면 된다.

노드 JS 설치 https://nodejs.org/ko/download

2. 윈도우 환경에서 터미널이나 파워쉘을 하나 열고 gemini 설치. (윈도우키+R키 누른 후 cmd 누른 후 엔터)

npm install -g @google/gemini-cli gemini

3. 에러 메세지가 나는 경우 웹의 gemini한테 물어보기 또는 아래 명령 실행 및 권한 부여

Set-ExecutionPolicy RemoteSigned

4. 잘 설치 되었고, 최신판 업데이트 하라 하여 나타난 명령 그대로 복사해서 실행. (필수 아님)

5. Gemini 실행. (gemini 타이핑 후 엔터), 이후 이것저것 설정인데 맘대로 엔터 하시고.

5.5 아래와 같은 오류가 나는 경우 npm uninstall -g @google/gemini-cli 명령으로 삭제, npm cache clean –force 명령으로 캐시 지우기, Gemini CLI 다시 설치: npm install -g @google/gemini-cli gemini 명령으로 재설치(커서키 ↑ 연타)

5.6 성공.

6. 구글 로그인 (별도의 크롬이나 창이 뜨면 로그인 하거나 api키 입력.

7. 상단 알림에 프로젝트 폴더를 하나 만든 후 거기에서 작업하라고 하여, 폴더를 하나 만들고 터미널을 해당 폴더에서 실행하고 gemini 실행.

8. 로그인 승인됨.

9. 실행 준비 완료. 이제부터 프롬프트 창에 입력하여 즉시 대화를 시도할 수 있는데, 귀여운 캐릭터 하나 만들어 달라고 함.

10. index.html, script.js, style.css 등을 만들고, 저장할 권한을 달라고 하여 허용함.html파일을 크롬으로 실행하니 아래와 같은 즉석 웹기반 프로그램을 하나 만들어 줌. 마우스 따라 눈이 왔다갔다함. 그런데, 눈알이 얼굴 밖으로 튀어나옴. 잔소리 좀 하니 다시 눈알이 흰자 안에서만 돌아 다님. ^^

11. 이번엔 내가 좋아하는 마이클 하임님의 가상현실의 철학적 의미. 1993. 저자가 직접 공개한 pdf 파일 책을 통으로 한글 번역해 보기로 함. pdf 파일을 작업폴더에 넣어주고. pdf 파일을 번역해서 txt로 만들어 달라고 하니, 즉시 만들어 주었음. 그러나 파일의 앞부분만 일부 번역하여 저장되었음. 왜그런지 물어보니, 너무 내용이 많아서 못한다고 함.

12. 아래와 같이 일부만 저장된 TXT파일은 읽기 좋게 줄바꿈과 띄어쓰기도 잘되어 있었음.

13. 그래서 내 컴퓨터에서 번역할 수 있는 프로그램을 만들어 달라고 함.

14. 파이선 기반 프로그램을 만들어준다고 파이선 설치하라고 하여 설치함.

15. 이후 파이선의 실행경로 path 지정 등의 문제를 해결하기 위해 리부팅 하라고 하여 그리 함. 그러나 리부팅하고 재실행 하였더니, 그간의 대화를 기억 못함. 그래서 아까 만들어 둔 프로젝트 폴더로 이동하여 py 파일 등을 알려주고, 번역 중이라고 이야기 함. 그랬더니 대략 알아듣고 계속 일을 진행함.

16. 이후 계속하라고 하니 알아서 진행 중.

17. 필요한 라이브러리 등을 자기가 알아서 설치하고 문제를 계속 해결함.

18. 여태 작업 과정은 gemini-2.5-pro모델로 진행을 한 모양인데, 1일 사용 가능한 토큰(? 대략 사용량으로 이해하면 됨)이 다 되어 결제하거나, API키 넣거나 저렴한 flash 모델로 진행하거나 하라고 함. 그래서 일단 빠르게 품질이 낮더라도 결과물을 보고자 하여 flash로 진행하라고 함.

19 진행중에 발생한 한글 엔코딩 문제 등을 Gemini 혼자서 씨름해 가며 해결을 함. 5분 넘게 소요됨.

20. 에러는 좀 있다고 하나 일단 txt파일이 모두 생성됨. 페이지 나눔도 안되어 있고 하여 보기가 좀 힘듦. 따라서 pdf로 정리해서 페이지 나누어서 만들어 달라고 함.

21. 나눔고딕체로 만들어 달라고 하니 나눔고딕체 ttf파일을 달라고 하여 프로젝트 디렉토리에 넣어주고 파일명을 알려줌.

22. 작업을 진행하며 자잘한 구문 문제들을 해결해 가며 작업을 진행함.

23. pdf 결과물이 저장됨. 번역 상태는 많이 부족하고, pdf의 정리 상태도 많이 부족하지만. 일단은 완료된 결과물이 도출됨.

24. 앞에서 진행되었던 pro모델로 번역한 결과물의 앞부분

25. 대량 처리 문제로, 끊어서 서버로 전송하는 자체 프로그램을 만든 후 txt파일 생성 결과, 정리가 덜 되어 있고 줄바꿈도 알아 보기 힘듦

26. 완성된 txt를 PDF로 정리 변환 flash모델로 지속 진행. 일일 사용 토큰이 40% 정도 사라짐. 최종 pdf 결과물은 아래와 같음.

27. 총평. 파일을 마음대로 핸들링 하고 실행할 수 있다는 것은, 웬만한 컴퓨터 작업을 다 할 수 있다는 것이므로, 무궁무진한 가능성을 볼 수 있었음. 다만, 인공지능 모델도 구글 서버로 보내서 결과물을 받는 것이 아닌, 자체 컴퓨팅 리소스를 무한으로 사용할 수 있는 상태로 진행하는 것이, 유의미한 결과물 도출에 중요할 것으로 생각됨. 물론 개인 피씨의 용량 문제로 로컬 설치 모델의 능력이 그리 높지 않음도 고려해야 겠지만, 능력 문제보다 단순 반복 대용량 작업을 통해 새로운 사업 구상이나 서비스 설계 등이 가능하려면, 구글 등의 서버에 의존해서는 처리 할 수 없도록 만들어 져 있는 것으로 보임.

결론은… 현재로서는 거의 가장 우수한 인공지능 프로그램이 내 컴퓨터의 로컬 파일을 제어할 수 있다는걸로 만족해야함.

끝.

Leave a Reply Cancel reply