예를들어 2006년의 육상경기에 대한 미디어 컨텐츠를 온톨로지 기반으로 구축했을 때 2007년에 다양한 종목으로 확장하거나 새로운 종목이 추가되거나 새로운 비지니스 모델이 요구될 때 또는 공유하고 있는 개념들이 변화할 때 기존의 온톨로지를 유지하는것이 아니라 변화하여 새로운 요구사항과 BM에 맞추어줘야 하기 때문입니다. 이 부분이 예전의 생각과 차이가 있는 부분입니다. 단순히 온톨로지를 한번 구축해 놓으면 인스턴스의 추가만으로 시스템이 유지될 수 있다는 마인드에서 온톨로지(인스턴스 포함) 자체도 진화라는 이름으로 변해야 한다는 개념입니다.
위의 그림이 전체적인 온톨로지 진화를 하기 위한 부트스트랩핑 프로세스입니다. 일단 간략하게 말씀드리면 최초 멀티미디어 컨텐츠가 입력되면 각각의 모달리티 분석기에서 정보추출 단계를 거칩니다. 텍스트, 이미지, 오디오, 동영상 등에서 추출된 단편정보들은 미들레벨 컨셉으로 생성이 되고 여기에 의미적인 어노테이션과 규칙이 적용되면 하이레벨 컨셉으로 바뀌게 됩니다. 최종 온톨로지 진화의 입력에는 미들레벨 컨셉과 하이레벨 컨셉이 입력되게 됩니다.
진화 프로세스는 총 4단계로 변화를 분석하는 단계, 패턴형식으로 정의된 변화패턴을 인지하는 단계, 적용하는 단계, 코디네이션하는 단계로 이루어집니다. 이렇게 진화된 온톨로지는 다시 초기 온톨로지가 되고 다시금 멀티미디어 컨텐츠의 정보추출에 이용되게 됩니다. 이러한 프로세스가 반복적으로 수행됨으로써 진화된 온톨로지는 정보추출을 지원하며 향상된 정보추출은 좀더 높은 수준의 온톨로지 진화를 이끌어 냅니다.
위의 그림은 온톨로지 진화 방법론에 대한 프로세스입니다. boemie 시스템은 완전 자동화가 아닌 온톨로지 전문가가 시스템에서 중요 역할을 수행합니다. 개발 목적에 있어서 휴먼터치를 최소화 할려는 목적이 있었지만 전문가 포함된 프로세스를 구축할 수 밖에 없었군요. 아무튼 진화에 있어서 총 4가지 패턴을 이용하게 됩니다.
1. Population.P1 : 시스템에서 자동으로 타입을 인지하고 기존 개념에 인스턴스로써 추가
하는 패턴
2. Population.P2 : 전문가를 통한 타입결정, 그리고 기존 개념에 인스턴스를 추가하는 패턴
3. Enrichment.P3 : 추출된 어노테이션 정보를 가지고 새로운 컨셉과 속성을 정의하고 인스
턴스를 추가하는 패턴
4. Enrichment.P4 : 불확실한 어노테이션 정보를 가지고 새로운 컨셉과 속성을 정의하여 인
스턴스를 추가하는 패턴
이렇게 인스턴스를 추가하거나 개념을 새로 만들게 되는 작업을 거치면 Coordination 단계에서 연결된 다른 온톨로지들과의 관계, 버져닝등의 조정 작업을 거치고 진화딘 온톨로지를 만들게 됩니다. 이러한 각 단계에서의 작업은 Mapping Knowledge라는 로그를 남기게 되어 다음번의 진화단계에 영향을 주게 됩니다.
여기서 온톨로지 전문가는 개념과 속성의 definition 과 같은 시스템 자동화되기 힘든 부분에 있어서 관여하게 되구요. Population과 Enrichment 단계에서는 일치성 체크를 위한 Reasonning 을 하게 됩니다.
Boemie의 온톨로지 진화 컨트리뷰션은 이러한 온톨로지 진화에 대한 플랫폼과 프로세스를 반자동으로 구축했다는 점과 시스템이 판단하기 힘든 부분을 전문가의 참여(tool에 의한 interaction)라는 요소로 적용했다는 점입니다. 물론 외부 Knowledge를 이용하는 오픈시스템이라는 점, pattern-driven 진화라는 점을 포함해서 입니다.
온톨로지 기반 시스템을 구축함에 있어서 온톨로지(인스턴스) 진화를 고려한 프로세스를 사전 구축하는 것은 매우 중요합니다. 데이터의 변화, 요구사항의 변화에 adaptatiion하기 위해서는 중요한 요소입니다. 단순히 데이터의 갱신, 인스턴스의 추가로 범위를 한정하지 말고 환경변화에 민첩한 시스템을 만들기 위해서는 반드시 이러한 자동화된 진화 프로세스가 필요하리라 생각합니다.
사실 블로그라는 한정된 공간에서 조금은 추상적인 글로 오히려 읽는이를 답답하게 만들지 않을까라는 불안한 마음이 있지만, 같은 이슈에 대한 고민의 장을 만들고자 오늘도 글을 쓰게 되네요. 사실 이쪽 분야에 대한 포스팅을 하는 사람은 극소수이니깐요.
다음 포스팅에는 boemie의 멀티미디어 정보추출쪽과 리즈닝쪽을 살펴보겠습니다.




