딥러닝

Ollama 에서 이미지 이해시키기

제갈티 2024. 9. 11. 14:24

타겟 이미지

 

ollama 로 이미지 설명을 요청하는 장면

 

- 이미지 분석 요청은 아래 명령처럼 하면 됩니다. 이미지는 저렇게 로컬의 절대경로를 올려주면 되구요. 아마 URL 링크 이미지도 분석이 가능할겁니다.

>>> what's inside in this photo? /Users/m1_16/Desktop/89928895.1.jpg

 

맥미니의 GPU로 ollama 를 추론하는 모습

질문을 던질때 마다 저렇게 실리콘맥의 GPU는 열일을 하게됩니다~

 
 
 
 
- 답변 내용: 

The image shows a ceramic vase that appears to be of historical 

significance or a museum piece. It has a traditional shape with a narrow 

neck and a wider body, which is typical for ancient Chinese pottery. 

There's an intricate decoration on the side that looks like stylized plant 

life, and there is also some text or markings visible on the vase, which 

could indicate its age, origin, or cultural significance. The color of the 

vase is a soft blue-green hue, suggesting it might be made from materials 

rich in cobalt oxide, which was often used to create such colors on 

Chinese ceramics.

- 한글 번역:
이 이미지는 역사적 의미가 있거나 박물관 소장품으로 보이는 도자기 항아리를 보여줍니다. 좁은 목과 넓은 몸체를 가진 전통적인 형태로, 이는 고대 중국 도자기의 전형적인 특징입니다. 항아리 측면에는 양식화된 식물 무늬로 보이는 정교한 장식이 있으며, 항아리에 보이는 텍스트나 표시는 그 나이, 출처 또는 문화적 중요성을 나타낼 수 있습니다. 항아리의 색상은 부드러운 청록색 계열로, 이는 중국 도자기에서 이러한 색상을 만드는 데 자주 사용된 코발트 산화물이 풍부한 재료로 만들어졌을 가능성을 시사합니다.
 
 
- ollama 에서 llava-13빌리언 모델을 로딩하여 이미지 이해능력을 테스트해 보았습니다..
- 자연스런 풍경이나 Semantic한(저는 인문학적인으로 번역합니다.) 이미지는 비교적 잘 분석하는 반면, 개발중인 GUI 코드의 스크린샷 같은 그림들은 잘 분석해 내지 못하네요 ~
 
- 아무레도 비교적 데이타가 적은 CLIP기반 모델이어서 그런듯 해요?
 
- 이미지 이해나 분석 측면에선 ollama 같은 로컬 챗봇은 한계가 있어 보입니다...
 
- 이상 개인 생각이었는데, 여러분들 동의 하시나요?
댓글 부탁 드립니다~