February 28, 2024

Yennefer Cluster c1.8.0

안녕하세요. Mondrian AI입니다. 자사의 AI 연구 플랫폼 Yennefer Cluster는 이번에 대시보드 모니터링 기능에 대한 업데이트를 진행하였습니다. 이번 업데이트에 대해 간단히 소개하려고 합니다.

Yennefer Studio 모니터링 기능 추가

<그림 1 - Yennefer Studio - 모니터링 탭>

모니터링 기능에 대한 업데이트가 진행되면서 Yennefer Studio에서 프로젝트의 자원 활용량을 확인할 수 있도록 모니터링 탭이 추가되었습니다. 기존에는 프로젝트의 관리자 페이지에서만 프로젝트를 하나씩 조회할 수 있었지만 이번 업데이트를 통해 프로젝트 소유자도 자원 활용량을 조회하고 관리할 수 있게 되었습니다. 추후에 추가될 기능에서는 UI 개선과 함께 프로젝트의 더 오래전 정보까지 조회할 수 있도록 추이 그래프를 개선할 예정입니다. [그림 1]

Admin 대시보드 페이지 개선

Yennefer Admin에 접속하시면 가장 먼저 대시보드 페이지를 확인할 수 있습니다. 기존 대시보드의 경우 prometheus로 매트릭을 수집하고 Grafana 대시보드 툴을 사용하여 수집된 매트릭을 보여주었습니다. [그림 2]

<그림 2 - 기존 Yennefer Admin 대시보드>

그러나 수집된 매트릭 정보를 보여줄 수 있는 내용이 한정적이고 원하는 정보를 선택하여 볼 수 있는 필터 등의 기능도 부족하여 직접 대시보드 페이지를 구축하고 개선하게 되었습니다. 기존 대시보드는 노드 상태와 자원 별 사용량, 사용량 추이 등의 그래프가 출력되었지만 실제 사용자들의 사용량과 맞지 않는 부분이 많았고 정보가 뚜렷하지 않았습니다.

이를 개선하기 위해 대시보드 페이지에서 정보를 그룹핑하여 사용자에게 필요한 정보를 풍부하고 명확하게 전달하고자 하였습니다. 개선된 대시보드에서는 Yennefer에 설치된 각 자원의 할당량을 조회할 수 있고 GPU 활용 상태를 조회하여 어느 사용자가 어떤 프로젝트에서 GPU를 사용중인지 조회할 수 있습니다. 또한 각 Storage Disk의 사용량과 노드 상태 등을 조회하여 플랫폼의 전반적인 상황을 조회할 수 있도록 구성하였습니다. [그림 3]

<그림 3 - 개선된 Yennefer Admin 대시보드>

시스템 모니터링 페이지 개선

기존 시스템 모니터링 페이지는 Grafana 상세페이지로 이동하여 현재 Yennefer에서 수집중인 모든 매트릭을 보여주는 방식이었습니다. [그림 4] 이는 다양한 정보를 줄 수 있지만 너무 방대한 자료를 사용자에게 전달하고 사용자에게 해석을 맡기는 불친절한 방식이기 때문에 이를 개선하기 위해 새로운 페이지를 구축하였습니다.

<그림 4 - 기존 Yennefer Admin 시스템 모니터링 페이지>

새로운 시스템 모니터링 페이지는 플랫폼 자원 현황, GPU 활용 현황, 사용자 자원 활용 현황 3가지 페이지로 구성되어 있습니다.

플랫폼 자원 현황

플랫폼 자원 현황 페이지는 현재 플랫폼에 구축된 모든 노드와 자원의 정상 상태 및 활용량 등을 그래프로 표현하고 있습니다. 노드의 정상 비정상 상태를 조회하여 현재 플랫폼에서 각 노드가 문제가 있는지 확인이 가능하며 해당 노드의 상세페이지로 이동하여 노드별 자원 활용 현황 및 추이를 조회할 수 있습니다. 추이 그래프는 실시간, 일간, 주간으로 조회가 가능하며 자원별 활용 데이터를 다운 받아 그보다 더 이전의 데이터도 조회가 가능합니다. [그림 5]

<그림 5 - 플랫폼 자원 현황 페이지>

GPU 활용 현황


기존의 사용자들의 문의 사항 중에서 GPU가 어디에 점유되어 있는지 확인하고 관리하고자 하는 니즈가 있었습니다. 이를 해결하기 위해 GPU 활용 현황 페이지에서는 플랫폼에서 사용중인 GPU의 할당량과 VRAM 활용률을 조회할 수 있고 GPU 자원의 활용 추이 그래프를 조회할 수 있도록 기능을 추가하였습니다. 또한 노드에 구축된 GPU 목록을 조회하여 어떤 프로젝트에서 현재 사용중인지 GPU 하나하나 조회가 가능합니다. [그림 6]

<그림 6 - GPU 활용 현황 페이지>

사용자 자원 활용 현황

사용자 자원 활용 현황 페이지를 새로 추가하였습니다. 이 페이지에서는 사용자가 생성한 프로젝트 수와 그 중 활성화 되어있는 프로젝트 수를 조회할 수 있습니다. 이는 각 사용자별로 어느 정도의 자원을 할당 및 활용하고 있는지 조회하기 위해 추가된 기능입니다. 이를 통해 관리자는 어떤 사용자가 자원을 많이 할당하고 있는지, 적극적으로 사용하고 있는지 조회 및 관리가 가능해졌습니다. [그림 7]

<그림 7 - 사용자 자원 활용 현황 페이지>

프로젝트, 데이터셋 관리

마지막으로 프로젝트 관리 페이지의 테이블 구성이 개선되고 데이터셋 관리 페이지가 추가되었습니다. 우선 기존 프로젝트 관리 페이지의 테이블 구성은 프로젝트에 할당된 자원을 조회할 수 있지만 활용량을 조회하기에는 적절하지 않았습니다. 활용량을 더 쉽고 직관적으로 조회할 수 있도록 테이블 컬럼에서 각 자원들의 사용량을 조회할 수 있도록 개선하였고 원하는 데이터를 기준으로 정렬 및 필터링이 가능하도록 정렬 기능과 필터링 기능을 추가하였습니다. 필터링 기능은 사용성에 맞게 프로젝트 상태, 소유자, GPU 종류에 추가되었습니다. [그림 8]


<그림 8 - 프로젝트 관리 페이지>

또한 기존에 없던 데이터셋 관리 페이지가 추가되었습니다. 데이터셋 관리 페이지는 Yennefer에 생성된 모든 데이터셋을 조회, 관리할 수 있습니다. 데이터셋 이름을 검색하거나 소유자를 필터링하여 데이터셋을 조회할 수 있습니다. 또한 데이터셋의 파일 크기를 확인하여 플랫폼의 Storage 자원을 손쉽게 관리할 수 있습니다. [그림 9]

<그림 9 - 데이터셋 관리 페이지>

우리는 디지털 전환을 넘어, 인공지능 전환을 가속화하여 산업환경에서의 혁신을 주도합니다.
효율적인 프로세스를 통해 복잡한 데이터 속에서 의미를 발견하고 이를 효과적으로 분석 및 표현하여 데이터의 가치를 극대화 합니다.
인공지능 플랫폼 Yennefer(예니퍼)로 비즈니스적 가치를 실현함으로써 고객을 만족시키는 Mondrian AI가 되기 위해 오늘도 힘차게 달려가고 있습니다.

더 나은 미래를 위해 발전해 나가는 Mondrian AI에 많은 기대 부탁드립니다!

Beyond Digital Transformation
We Accelate AI Transformation