이번에는 boemie에서 사용되는 멀티미디어 컨텐츠에 대한 온톨로지에 대해 살펴보겠습니다. 온톨로지는 간략하게 말씀드려서 컨텐츠를 구성하는 리소스들의 관계와 그들의 보케블러리, 계층구조, 구성법칙등이 표현될 수 있습니다.
특히 boemie에서는 멀티미디어 컨텐츠를 대상으로 합니다. 즉, 텍스트, 이미지, 오디오, 동영상을 포함합니다. 그러므로 멀티미디어 온톨로지에는 각 포맷들간의 표준 정보(MPEG-7 등)와 멀티미디어의 대상 도메인 정보(운동경기), 도메인 정보를 명확하게 해주는 기반 지식(시간, 공간), 기 구축된 upper 온톨로지 같은 복합적인 온톨로지로 구성이 됩니다. 당연히 이러한 멀티미디어 온톨로지는 대상 컨텐츠를 의미 레벨까지 표현, 분석, 검색, 통합, 활용하기 위함입니다.
온톨로지의 구축에 있어서는 보통 두가지 방식으로 나뉘는데, Top-down 방식과 Bottom-up 방식이 그것입니다. 탑 다운은 기본적인(Common sense) 상위 레벨의 지식과 계층구조를 모델링하고 여기에 개념들과 속성을 붙여 나가고 확장하는 방식입니다. 버텀업 방식, 혹은 data-driven 방식은 코퍼스나 데이터로부터 이를 분절하고 분석하여 온톨로지 레벨의 지식으로 사용될 개념과 속성을 추출하고 이를 확장하는 방식입니다. 두 방법에 있어서 장/단점이 모두 존재합니다. 이는 온톨로지 구축에 관련된 포스팅으로 다시 한번 다루겠습니다.
boemie에서는 두가지가 mixed되어 어느정도 개념과 속성을 정의하고 컨텐츠로부터 다시 정의된 모델을 변화시키는 방식입니다. 이러한 방법론으로 온톨로지 진화(Ontology Evolution)이라는 프로세스를 정의하고 이용하게 됩니다. (다음포스트 참조)
세부적인 스펙을 살펴보면 온톨로지는 OWL로 작성되었고, SUMO나 Wordnet 같은 Upper 온톨로지들이 이용되었습니다. 멀티미디어쪽으로는 MPEG-7의 멀티미디어의 구성요소를 description하는 사용되는 MDS(Mutimedia Description Schemes)가 계층구조와 관계를 갖고 온톨로지화 되었습니다.
도메인은 운동경기중에서 육상의 뛰기와 관계된 컨텐츠를 대상으로 하여 한정하였습니다. 아쉬운 부분인데, 아무래도 아직은 시맨틱 웹은 한정된 영역에서 시도하는 프로젝트가 많습니다. boemie의 온톨로지는 각 멀티모달리티들에 대하여 1차적으로 정보추출된 미들레벨컨셉(MLCs)과 이들로부터 생성되는 하이레벨컨셉(HLCs)의 표현을 지원하게 됩니다. 예를들어 '운동선수와 수평바와 수직바가 있다면 장대높이 뛰기이다.' 처럼 미들레벨의 여러 조건의 조합이 미리 정의된 하나의 하이레벨의 컨셉이 되는식입니다.
즉, OWL과 SWRL을 이용한(지식표현과 규칙) 지식 모델링을 하고 있습니다. 아쉽게도 아직 온톨로지가 업데이트되어 있지는 않습니다. 링크는 걸려있는데 다운로드가 안되는군요. 몇 가지 example에서 파악한 바로는 도메인에서 꼭 필요한 요소들만 가볍게 구성되어 있는거 같습니다. 아무래도 멀티미디어에서 정보추출을 하고 이를 온톨로지에 매핑하려면 그 매핑될 종류와 수가 성능에 큰 영향을 끼치기 때문인거 같습니다.
그럼 다음 포스팅에서는 온톨로지의 진화에 대해서 boemie의 approach로 살펴보겠습니다.




