태터데스크 관리자

도움말
닫기
적용하기   첫페이지 만들기

태터데스크 메시지

저장하였습니다.

소년 Sb의 어른되기 프로젝트

사용자 삽입 이미지
이번 포스트에서는 시맨틱 기술 연구의 결과물 하나를 소개하고자 한다.

12월 14일, KT 미래기술연구소에서 개발한 STARS(http://stars.paran.com/)라는 국내 최초 의미 기반의 검색엔진이 KTH의 파란(www.paran.com)에 시범 서비스로 오픈됐다.

STARS의 네이밍은 다음과 같다. Semantic Technology bAsed Retrieval System. 말그대로 시맨틱 기술 기반의 검색엔진이다. 언뜻 생각나는게 웹페이지의 어노테이션, 이를 위한 온톨로지와 relation 기반의 추론을 통한 검색?

STARS는 기존의 검색엔진이 갖는 몇가지 한계점과 비교되는 차별성을 갖으며, 그 자신도 기존의 모습을 유지하는 복잡한 엔진이다. 두드러지는 몇가지를 살펴보자면,

1. 새로운 UI의 시도
- 구글의 단순한 검색어 입력창이 아닌 비쥬얼 UI(CUBE)
- 새로운 User Experience(UX) 확장

2. 문장내의 Concept과 Relation 식별 및 검색
- 키워드의 Exact, Partial 매칭이 아닌 관계성 검색
- 문서단위의 링크가 아닌 개념간의 링크 존재

3. 결과 재구성
- Concept과 Relation으로 연결된 결과셋 제공(의미적 클러스터)
- 의미적 연관성으로 Micro content 조명

STARS를 잘 보려면, 검색 마인드부터 바꿔야 할 듯 하다. 단순히 키워드 매칭이 아닌 의미 기반 검색이라 익숙해지기 전까지는 당황스럽다. 그 만큼 큰 변화라 할 만하다. 역으로 단순 매칭을 기대하면서 검색어를 넣어보면 실망할터,,,여기저기 익숙한 트렌드도 보인다. 검색어 확장/한정, 결과 클러스터, 검색어 추천 등 .
 
이러한 속성을 가능하게 하려면, 문서 색인구조부터, 쿼리 처리 방식, 랭킹 모델 등이 기존과 많은 부분 차이를 갖을 것이다. 엔진 코어 부분의 온톨로지는 W3C의 시맨틱 웹 표준 기술을 이용하여 구현됐다고 하니. 앞으로의 확장면에서도 기대해 볼 만 하다.

차후에 기회가 있다면, 얼마전 Semantics Korea에서 언급한 독자적인 방식의 시맨틱 웹 검색 방법론과 빗대어 더 자세히 살펴볼 수 있을 것이다. (여기서, 한마디 하자면 SemanticKorea의 말에는 어패가 있다, 독자적 시맨틱 기술이라면 그게 시맨틱일까? -_-)

아쉬운 점이라면, 너무 한꺼번에 많은 것을 보여주려 했다는 점일까, 오히려 사용자의 포커스를 흐리는 느낌이 난다. 지금은 사라진 첫눈 엔진(snow rank)의 간단한 변화가 가져온 큰 파장을 생각해 보면, 너무 여러 곳에 집중한 느낌이 없지 않다. phase를 두고 적용할 부분도 없지 않아 보이고, 특히 큐브 UI는 사용자들이 바라던 하나의 모습인데 아쉬움이 많다.

사실 우리가 주목해야 할 것은, 시맨틱 기술이 사용되었든, 온톨로지가 사용되었든 기술이 아니라 얼마나 사용자가 원하는 결과를 찾아주는가, 얼마나 검색 서비스로써 매력도가 있는가가 아닐까 한다. STARS를 사용해서 정말 원하는 결과를 빠르게 찾았고, 검색할 때 재미가 있다면 STARS는 기술과 상관없이 성공 할 것이다. 이미 연구개발자 손을 떠나 고객의 손을 넘어간 것이다. gogo stars!

sb는 글의 제목처럼 긍정적인 생각을 하고 싶다. 시맨틱 기술의 구현으로 포털의 시범서비스가 걸리지 않았냐 말이다. 그들의 피땀 어린 노고에 찬사를 보낸다.

여하튼, 요사이 추천(Recommendation)을 하면서 시맨틱 웹은 오히려 명료하지 않나 하는 생각도 드는 이유는 멀까... 감이 떨어졌는지... 추천에서 너무 헤맸는지..

p.s: STARS의 기술 문서가 아닌 sb의 생각대로 읊조렸음.
크리에이티브 커먼즈 라이선스
Creative Commons License
Posted by terrie
연구하는 것/시맨틱 검색 l 2007/12/18 10:08
어제 (27일) 오후 2시 분당의 금융결제원 2층에서 시맨틱스코리아의미검색엔진
KOINEN
의 시연회가 있어서 사전에 신청하고 참가했습니다.
사용자 삽입 이미지

시연회가 열린 금융결제원 분당센터

여담이지만 금융결제원 보안이 살벌하더라구요. 건물 사진도 못찍게 하더군요. -_-;
아무튼 시맨틱 웹을 활용한 검색엔진의 첫선이라고 해서 많은 기대를 갖고 참석했습니다.
대략 참여인원은 20~30명으로 관심도는 낮았습니다. 대부분 시맨틱코리아 관계자분들과 ETRI와 KISTI분들외 몇몇 학생분들이 참석하신거 같았습니다. sb는 일단 KT 미래기술연구소의 이름을 달고 참석했구요.

사용자 삽입 이미지

KOINEN(WHATSS) 시연회

시연회는 중앙일보에서 유비쿼터스 카툰으로 시맨틱웹을 소개한 자료로 시작되었습니다.
http://article.joins.com/article/article.asp?total_id=2770581 '파리'를 검색했더니 곤충 '파리'만 잔뜩 나왔다는 동음이의어, 중의성 해결에 관련된 카툰있었습니다.

이렇게 시맨틱 웹 기술을 이용해서 중의성도 해결하고 사용자의 감정까지 파악해서 알맞은 검색을 한다라는 서론이 있었구요. 본론은 세계의 약 100억개의 웹페이지를 어노테이션한 1,200억개의 시맨틱 웹 페이지를 보유하고 있고, 400억개의 전문 도메인 온톨로지를 구축했으며, 이러한 것들이 로봇에 의해 자동적으로 이루어졌다고 합니다. 온톨로지와 색인어들은 실시간으로 반영되는데, 총 데이터의 색인은 약 한달이 걸리고, 부분적인 업데이트가 가능하기에 실시간 데이터가 반영된다고 합니다. 핵심기술 설명은 보안상 생략하시고 대부분 검색 데모 위주로 진행됐습니다.

KOINEN은 크게 5가지의 검색기능을 갖는거 같더군요.

첫번째는 디렉토리형 검색으로 '바이러스'로 검색했을 때, 생물학적 '바이러스'와 컴퓨터 '바이러스'로 카테고리 구분해서 보여주는 기능입니다. 두번째는 웹 검색으로 '유비'로 검색했을 때, 삼국지의 유비와 관련된 텀들을 보여주고 웹 페이지를 랭크하는 기능입니다. 세번째는 문장검색으로 '구글시가총액'로 검색했을 때, 구글 시가총액의 내용이 나오는 문장을 검색하는 기능이구요. 네번째는 사전검색으로 '말리키'라고 치면 아랍 총리라는 결과가 나오는 기능, 마지막은 개인화검색으로 개인검색패턴, 성향에 맞쳐서 결과를 보여주는 기능입니다. 제가 기능을 맞게 설명했는지 모르겠네요. 아무튼 준비하신 데모에 대한 검색은 비교적 잘 수행되었던거 같습니다.

여기까지가 sb가 보고 듣은 내용을 그대로 적은 부분이구요. 이제부터 sb의 생각을 적어 보겠습니다.

1. 시맨틱 웹에 대한 과도한 이상향을 그리지 않았는가?
- 시연회에 참석한 학생, 그리고 나중에 자료를 보게될 많은 사람들이 이렇게 생각할것이다. '시맨틱 웹이면 다 되는구나! 사용자의 감정상태도 알수 있고, 온톨로지를 구축하면 검색이 알아서 잘 되는구나!' 라고.

그간 몇년간의 시맨틱 웹에 대한 오해, 그리고 과장된 표현들이 이제야 웹2.0을 만나면서 실용적이고 사실적인, 시맨틱 웹이 할 수 있는 부분들을 직시하게 됐는데, 다시 과거 돌아가자는 말로 들린다. '시맨틱 웹이면 다 된다!' 매우 위험한 미사어구라고 생각한다.

물론 시맨틱 웹으로 연관된 텀과 의미를 찾는 검색은 중요한 응용분야라고 생각한다. 하지만 궁금적으로 자동화와 통합, 표준을 생각하지 않는 접근방식은 시맨틱 웹 기술이 아니라고 생각하구요.

더군다나 시맨틱스코리아에서는 RDF/OWL/TRIPLE 등의 표준기술들을 이용하지 않고 시맨틱 웹을 구현했다고 하던데, 그렇다면 향후 정보의 공유와 통합, 상호운영성은 어디서 보장되는지 궁금하다.

2. 과연 시맨틱 웹의 온톨로지가 맞는가?
- 시연회 내내 온톨로지라는 말을 사용했었다. 하지만 sb가 보고 느낀 바로는 온톨로지라기보다 거대한 유의어 사전으로 밖에 보이지 않았다. 시맨틱스코리아는 내내 동음이의어에 관련된 데모만 보여주었다.

그렇다면 'a'와'b'가 유사하고 'b'와 'c'가 유사해서 'a'와 'c'가 유사하다. 또는 'a'와 'd'는 반대여서 'b'와 'd'는 유사하지 않다라는 부분처럼 논리적인 부분이 검색에 이용될 수 었을까? 물론 추론적 기능이 트레이드오프로 제외되었더라도 sb가 배우고 공부한 온톨로지의 모습은 어디에도 없었다. 나름대로의 구조와 방식이 있다면 구별해서 표현했으면 한다. 많은 이들이 혼동을 느낀다.

3. 정말 자동화되었는가? 
- 100억개의 웹페이지, 1,200억개의 어노테이션 페이지, 400억개의 온톨로지, 시연회 내내 숫자를 강조하셨다. 사람이 하면 불가능하지만 로봇이 하면 가능하다라고 하셨다. 맞는 말씀이라고 생각한다. 어찌 사람이 일일이 다할 수 있을까? (우리나라는 하기도 한다;;)

그렇다면 로봇도 새로운 개념이 나오면 정의할 수 있고, 다른 개념과 속성과의 관계도 정의할 수 있는가? 만약 이 부분이 휴먼터치가 있다면 명시해주어야 하며, 자동화가 되었다면 시맨틱스코리아에 박사과정도 고려해야할 듯 하다. 나중에 질답시간의 '거성체조'라는 키워드는 검색이 안되더군요.

4. 검색 랭킹 모델이 존재하는가?
- 시연회 내내 '구글'과의 검색결과 비교를 하셨다. 당연히 다른결과 나올수 밖에 없다. 구글이 곤충 '파리'를 못 찾아서 프랑스' 파리'만 죽어라 상위 랭커에 올리겠는가? 랭킹 모델이 다르기 때문에 그런것이다.

시맨틱 검색을 설명할때 이러한 예는 적절하지 못하다고 생각한다. 시맨틱 검색도 '파리'만을 입력했다면 곤충'파리', 프랑스'파리'라고 나누어 주는 것 밖에는 못한다. 더군다나 문제는 명확한 랭킹모델이 존재하는가에 대한 물음이다.

sb의 질문에는 사용자의 검색성향에 따른 랭킹모델이 존재한다고 했다. 그렇다면 검색 전반적으로 개인화 검색이 되는것인가? 구글이 수십억개의 페이지, 수억 페이지뷰를 갖어도 빠른속도를 갖는것이 클라이언트의 정보를 휘발해 버리기 때문이라고 알고 있다. 매 검색에 있어서 사용자 정보를 탐색해야 한다면, 검색 유료 계정화해도 이윤이 안날것이다. 아무래도 온톨로지상에서 가중치 계산모델, 그리고 랭킹모델에 대한 보완이 필요할 거 같다.

사실 시맨틱 검색, KOINEN(WHATSS에서 개명된거 같음)에 대한 기대가 컸던거 만큼, 실망도 컸던 시연회였던거 같다. 낮은 호응도 또한 나를 화나게 했다. 이렇게 비공개로 쉬쉬 하면서 느지막하게 공개시연회를 한다면 사람들의 관심이 낮을 수 밖에 없다. 요사이 '위키노믹스'라는 책을 읽는데, 시맨틱스코리아분들께도 추천해주고 싶다. 그리고 블로그 검색엔진 '나루'의 시연회와 홍보마인드도 찾아보셨으면 한다.

다소 sb의 포스팅이 냉정하고 비판적일지 모르겠습니다. 하지만 웹에 있어서는 닫혀 있는 기술은 더욱 사람들의 공격을 받게 되있습니다. 아주 스마트하게 하지 않는 이상 말이죠. 이 포스트를 읽고 다른 생각을 갖게 계신분은 트랙백이나 덧글을 남겨주세요.

앞으로 정말 시맨틱 한 검색엔진이 나오길 바라면서 마칩니다.
크리에이티브 커먼즈 라이선스
Creative Commons License
Posted by terrie
연구하는 것/시맨틱 검색 l 2007/06/28 12:26

Social ComputingSocial Software, 내내 이슈화 되었던 웹2.0과 맞물려 약간은 개념적이고 소프트한 구조들이 점점 구체적으로, 결과를 내고 있습니다. 웹에서 커뮤니케이션의 중요성을 인식하게 되고 여기서 나오는 가치를 무시할 수 없게 된 것이죠.

기업들은 신규 서비스 기획 단계에서 블로그를 통한 의견 나눔이 필수적으로 변하고, 의사결정에 있어서 커뮤니티의 의견에 귀를 기울이게 됩니다. 이를 무시했을 때는 상상하지 못할 결과를 초래하기도 합니다. 적절한 예일지 모르겠지만 KCC의 '이상민' 선수의 트레이드 사건을 꼽을 수 있겠습니다. KCC 팬커뮤니티의 생각을 읽지 못했을 때 그들은 과감히 KCC를 등지고 삼성으로 방향을 돌리게 된거죠.

그렇다면 이러한 커뮤니티, 소셜한 움직임을 어떻게 관리하고, 또는 기업 프로세스에 적용할 수 있을까요? 현재까지의 모습으로는 블로그의 모습, 플리커와 딜리셔스 같은 집단 지성, 태깅의 모습으로 보여지고 있는거 같습니다. 특징이나 징후는 발견할 수 있지만, 이렇다할 플랫폼이나 구조는 보여지지 않습니다.

검색영역에서는 어떨까요? 소셜 검색이라는 트렌드가 형성되고 있습니다. 몇몇 실제 검색 사이트도 운영되고 있구요. (http://www.collarity.com , http://www.eurekster.com/)
나와 관계있는 사람, 특정 분야에 전문가인 사람들이 보는 컨텐츠는 나와 관계있는 문서, 그들의 전문성을 반영하는 문서로 볼 수 있겠죠. 소셜 북마킹, 태그클라우드, 위키피디아 등의 서비스의 모습을 띠고 있습니다.

이에 반해 시맨틱 웹 분야는 구체적인 데이터 구조와 스펙, 논리를 제안했습니다. 장기적인 로드맵과 유즈케이스도 제안했죠. 상당한 파급효과가 예상되었지만 예상외로 그 진도는 늦었습니다. 모델링 언어의 버젼업, 또다른 표준안 제안처럼 유저에게 다가서지 못하고 겉만 맴돌았습니다. 웹2.0과 소셜 소프트웨어가 부드럽게 유저에게 다가가는 동안 말입니다.

일각에서는 이러한 웹2.0, 소셜한 움직임에 맞추어 Semantic Web 2.0이라는 용어를 사용하기도 합니다. 거대한 온톨로지를 구축하고 추론으로 차별성을 찾으려 하고 사용자가 참여할 공간은 어디에도 없는 조금은 딱딱한 구조, 시맨틱 웹의 단점들을 극복하고자 web2.0의 개념과 시맨틱 웹의 개념을 융합해서 서비스와 플랫폼을 제안하고 있습니다. 앞서 말씀드린 진도가 늦었던 이유도 여기서 찾을수 있겠습니다. 특히 학교측에서는 이러한 움직임이 쉬운일은 아닌데, 서울대 김홍기교수님의 BiKe랩이 비슷한 맥락으로 연구를 하고 계신듯하여 주목이 됩니다.

다시 검색이야기로 들어가서, 시맨틱 검색의 일반적인 프로세스가 너무 딱딱한겁니다. 도메인 컨텐츠에 대한 온톨로지를 만들고 문서들을 어노테이션하고 이를 저장, 색인하고 추론 및 검색한다. 그럼 누가 어노테이션을 하고 온톨로지는 누가 어떻게 만들어야 할까요? 더군다나 문장단위로 어노테이션한다? 온톨로지가 몇백만 단위다? 과연 검색이 될까요? 서비스가 지속적으로 유지될까요? 많은 영역을 커버할 수 있을까요? 궁극적인 방향은 맞을지 모르지만, 현시점에서 적절한 접근방식인가? 라는 의문점이 듭니다.

물론 현재 지속적으로 데이터마이닝, 정보추출 기술이 발전하고 컴퓨팅 속도도 많이 향상 되었습니다. 하지만 시맨틱 검색을 외골수적으로 접근할 방식은 아직 시기가 아닌것 같습니다.

sb의 생각은 시맨틱 웹의 잘 짜여진 구조에 소셜영역을 맞추어 넣어야 합니다. FOAF와 같은 가벼운 접근방식이 대표적이죠. 사용자로부터 생성되는 컨텐츠(태그)를 이용해야 합니다. 가벼운 텍사노미와 규칙으로 접근해야 하구요. 최대한 자동으로 추출될 수 있는 영역부터 시도해야 합니다. Space, Person, Time, Organization, Media, Event 처럼 자동으로 추출되는 컨텐츠를 가지고 할 수 있는 서비스를 고민해야 합니다. (올라웍스의 Smart Tagging도 좋은 시도라 생각합니다.) 정말 문장단위로 "이명박의 대선공약은?"이라는 질문에 답변할 수 있으면 무슨 필요가 있죠? 내년에도 수동으로 어노테이션할껀가요?
 
아무튼 요사이 시맨틱 검색 프로젝트 진행중에 답답한 생각이 많이 들어서 제 공간에서 넋두리 해봅니다. 너무 어려운 이야기는 논문에서나 해야 겠지요. 소셜진영의 움직임을 보면서 '참 사람을 생각하는구나, 소통하는 서비스구나'라는 생각이 들었습니다. 시맨틱 웹을 연구하고 서비스를 고민하는 사람으로써 앞으로 많은 탈바꿈이 있어야 한다는 다짐을 해봅니다.

사용자 삽입 이미지

구글에서 '적과의 동침' 으로 나온 이미지 - 다정해보이네요 -_-

크리에이티브 커먼즈 라이선스
Creative Commons License
Posted by terrie
연구하는 것/시맨틱 검색 l 2007/06/13 13:47
에픽 슈미츠 구글 CEO가 한국에 왔다. 국내 R&D 센터가 설립되고 본격적으로 구글의 서비스를 국내에 적용할 듯 하다. 한가지에 눈에 띠는 것은 요며칠 사이에 구글의 단조롭던 메인화면이 변경되었다.

한개의 텍스트 검색 박스만 제공했던 구글은 이제 웹문서, 이미지, 뉴스, 블로그, 그룹스 등의 카테고리를 나누어 검색을 제공한다. 하단에는 약간의 디자인이 첨가된 부가서비스들의 아이콘들이 배치됐다.
사용자 삽입 이미지

2007년 구글 메인화면 - 코리아

통합검색이라는 방식이 네이버에서 처음나와 이제는 거의 대다수의 검색엔진이 이러한 총체적인 분류들에 대한 검색을 지원한다. (초기에 네이버에서 특허를 생각을 못했다는 후문)
네이버에서는 검색의 분리보다는 결과화면에서 나뉘어 보여주게 되지만 구글은 사용자가 선택한 카테고리에 대해서 충실하게 결과를 보여준다. 구글스럽다는 말처럼 글로벌하고 가용성이 넓은 방식으로 국내에서 어떤 서비스로 로칼라이징을 어떻게 할지 궁금하다. 이에 대한 첫걸음이라고 보면 될거 같다.

다른 한가지는 구글랩에서 보여준 Experimental Search라는 것이다. 아직은 단조로운 구글의 결과 페이지에 대한 다양한 실험으로 보이는데 간략하게 소개하자면...
사용자 삽입 이미지

타임라인 연동 검색 결과

사용자 삽입 이미지

맵과 연동 검색결과


 첫번째는 타임라인과 맵과 결과를 연동해서 보여주는 방식으로 시간별로 검색 키워드와 연관된 페이지는 타임라인에 요약해서 보여주고, 컨텐츠와 관련된 장소도 지도에 표시하게 된다. 국내 포탈에서는 이미 제공하는 방식이지만 구글의 컨텐츠와 서비스(구글맵)과 연동된다면 검색결과 이해에 있어 많은 도움이될 듯 하다.
사용자 삽입 이미지

숏컷


두번째는 검색 결과 리스트에 단축키를 활용하여 네비게이션을 도와주는 방식으로 쇼컷에 익숙한 유저에게정도 도움이 될 듯하다.
사용자 삽입 이미지

검색 네이비게이션


세번째는 Ask.com 등에서 이미 사용하고 국내 포탈에서도 관련검색어라는 형태로 보여지는 서비스로 사용자가 입력한 검색 키워드에 대해 연관된 검색어와 카테고리를 제안하는 검색 네비게이션이라는 방식이다.
사용자 삽입 이미지

컨텍스츄얼 검색 네비게이션


네번째는 검색 네이게이션과 유사하지만 검색 키워드에 컨텍스트를 고려하여 카테고리나 관련 검색어를 제안하는 방식으로 컨텍스츄얼 검색 네비게이션이라 한다.

페이지랭크라는 신뢰성 있는 검색 가중치 모델로 단순한 텍스트 창과 단조로운 결과 페이지만으로도 지금의 정상에 오른 구글, 이제는 다른 모습으로 변화하고 있는거 같다. 누가 그랬던가, '공룡은 잠자면서도, 꿈을 꾼다고'

그동안 보여주는 면에 있어서 국내서비스들이 잘해왔던게 사실이다. 그래서 구글도 국내시장에 설부른 진입을 못했던거 같고, 하지만 연구결과물과 분석이 이제야 쌓인듯 하다. 국내 검색 서비스 시장에 있어서 '제국의 역습'이 시작된 것이다. :)

그렇다면 여기서 한가지 고민을 해본다. 통합검색을 해주든, 사용자가 원하는 카테고리를 선택해서 검색을 해주든 간에, 검색 결과를 어떻게 보여주는것이 좋을가? 라는 고민이다. 물론 시맨틱한 관점에서 말이다.

예를들어 사용자가 'apple' 이라고 검색했을 때 웹 페이지에서, 블로그에서, 뉴스에서, 이미지에서 'apple' 이란 키워드가 나온 페이지를 통합해서 보여줄 것인가? 아니면 컴퓨터 apple사와 과일 apple을 구분해서 각각을 통합해서 보여줄 것인가? 잘할 수 만 있다면 후자가 당연히 좋을듯한데, 조금 보기에 복잡할 수 도 있겠다. (클러스트링 검색과 약간은 다르다.)

그럼, 문제를 좁혀서 뉴스 검색을 할려고 할 때는 어떻게 보여줄 수 있을까? '김승연' 이라는 키워드로 뉴스 문서를 대상으로 검색을 수행하면 어떻게 보여줄 수 있을까? 물론 김승연이란 키워드가 포함된 모든 뉴스 문서를 검색하고, 날짜순으로 기사 섹션별로 구분해서 보여주는것 ... 그 이상 머가 있을까라는 고민이다. 어떻게 보여주면 좀더 의미적이고 사용자에게 어필할 수 있을까라는 고민... 물론 기술적으로도 가능해야 할 것이다.

일단 의미적으로 태깅된 컨텐츠가 있다면 조금 더 잘 보여줄 수 있을거 같다. '김승연' 사건의 이슈들로 부터 생성된 기사들과 의미적인 태그들, 이들을 이용하면 한화 김승연 회장의 뉴스기사들을 사용자에게 좀더 효과적으로 전달할 수 있을것이다. 물론 사용자가 입력된 태그들과 자동으로 추출할 수 있는 태그들을 전부 이용해야 한다. 그럼 어떤것을 자동으로 뽑아낼 수 있을것인가? 현재의 정보추출 기술로 인물, 장소, 시간, 조직 정도를 뽑아낼 수 있다고 한다.

그럼 '김승연' 이란 키워드로 부터 검색된 뉴스 문서들을 앞서 말한 태그들로 구분해서 보여준다면? 결과는 '김승연'과 관련된 인물들, 장소들, 조직들, 시간순으로 보여주게 된다. 얼핏 상상해보면 그나마 시간 순과 카테고리별로 분류된 기사들 보다는 유익할 거 같다. 그렇다면 적용된 정보추출 기술이 글로벌 할 수 있을까? 그리고 모든 기사들에 공통적으로 적용될 수 있을까? 마지막으로 대용량으로 실시간으로 가능한가?

아직은 기술적으로 미비하다. 정보추출의 시간이 대용량 처리와 실시간으로는 부족하고, 사용자 태그와 자동추출 태그의 연결고리도 난해하다. 현 기술이 미비하고 난해하지만, 우리는 이러한 시맨틱 처리를 위한 인프라를 구축해야 한다. 태그들과 정보추출, 자동태깅을 연결할 온톨로지, 일련의 프로세스를 담당할 글로벌 플랫폼이 바로 그것이다.

아직은 시작단계이다. 하지만 sb는 시맨틱 검색 기술이 구글이 조금씩 변하듯 결과물이 쌓여서 국내 시장에 진출하듯이 조금씩 변하고 쌓여서 세상에 나오리라 생각한다.
크리에이티브 커먼즈 라이선스
Creative Commons License
Posted by terrie
연구하는 것/시맨틱 검색 l 2007/06/04 10:11
블로그 스킨도 바꾸고 해서 이 시점에서 앞으로의 포스팅 계획을 정리하겠습니다.

일단 Boemie 프로젝트의 설명을 마무리 하겠습니다. MeshAcemedia는 향후로 미루어야 하겠습니다. 이들도 아직 연구가 초기 단계라 구체적인 결과가 제시된것이 미미하기 때문입니다.

그리고 시맨틱 검색에 대한 구체적인 이슈와 아이디어를 적어보겠습니다. 현재 필드에서 고민중인 이슈를 구체적으로 말할 수 있었으면 좋겠습니다. 온톨로지 구축에 대한 방법론과 고민들에 대해서도 적어보겠습니다.

또다른 한가지는 현재 웹에 시맨틱 웹과 온톨로지 등으로 검색을 해보면 참조되는 많은 자료들이 있습니다. 특히 국내 블로거들이 많이 펌으로 걸어두고 있는 자료들이 있더군요.

이들 자료들에 대해서 견해가 변한 점이 있다면 2007년 sb의 버젼으로 풀어보도록 하고 웹2.0 등의 새로운 개념이 나온것이 있다면 그러한 새로운 이슈들도 고려하여 말해보도록 하겠습니다. 형식은 원문문서에 어태치하는 형식으로 하겠습니다. 주석정도 형태로 저작권을 침범하지 않도록 하겠습니다.
 
한가지 아쉬운 점은 여기 블로그에 하루 방문자수가 70~100명정도 되는데 의견 소통이 전혀 없다는 점입니다. 아무래도 저의 블로그가 맘에 안드시나 봅니다. -_-; 언젠가는 활발한 소통과 토론이 일어나는 공간이 되리라 소망해봅니다.
사용자 삽입 이미지

감사합니다.
2007. 6. 1, sb
크리에이티브 커먼즈 라이선스
Creative Commons License
Posted by terrie
연구하는 것 l 2007/06/01 16:28
드디어 시맨틱 검색 엔진을 만들려고 합니다.
그 첫번째로 관련 인물들과 Kick-off 회의를 열고
8시간의 긴 회의를 무사히 마쳤습니다. 휴~

참여기관간에 열띤 발표를 하고 많은 의견이 오고 갔습니다.
오랜 시간 집중하느라 피곤했지만 즐거운 자리였습니다.
아직 미해결점들이 이슈사항으로 남았지만, 금주내로
마무리 하려 합니다.

저는 시맨틱 검색 엔진에 대한 서비스 관점에서의
동기 및 이슈, 서비스 컨셉, 그리고 제 생각을 말했습니다.

배운게 기술쟁이라 서비스 논하기가 정말 어렵더라구요.
제 부족함도 많이 느꼈구요.

몇몇분들은
갑자기 철학자가 되었냐,,, 경영발표 같다고,,, 뜬구름 잡는다고;;;
맞습니다. 정말 뜬구름 잡고 있습니다. 그거라고 잡을 수 있다면
잡고 싶구요. 아직 정답이 보이질 않습니다.
하지만 정말 사용될 수 있는 기술, 엔진, 서비스를 만들고 싶습니다.

아직 제 블로그가 시작 시점이라
많은 의견을 나눌수도 없는 곳이지만
일단 쓰고 봅니다. (무플이 악플보다 무섭다는 서드타입님 공감!)

내부 이야기는 제외하고
제 생각이 정리되면 자료를 올리겠습니다.
크리에이티브 커먼즈 라이선스
Creative Commons License
Posted by terrie
연구하는 것/시맨틱 검색 l 2007/04/04 17:59
차세대 검색 엔진은 어떤 모습일까?
과연 차세대 검색 엔진이라는게 필요한건가?

오늘 회의 시간 "차세대 검색엔진"에 대한
막연한 브레인스토밍을 부서원들과 나눴다.

먼가 조금은 지능적인, 3번 찾을걸 한번에 찾아준다?
정말 내가 궁금했던 작은 사건에 대해 낱낱이 파헤쳐준다?
알아서 분류하고 알아서 비교하여 요약해 준다 -_-;

막연하다.
그럼 사용자 입장에서 본다면..
"과연 이효리는 배꼽수술을 한걸까? 했다면 어디서?"
"우리집 근처 셀프세차장은?"

현재 검색엔진에서 검색 안되면 차세대 검색엔진에서는
되야하는걸까? 그렇다면 어떤것은 꼭 되야하는걸까?

얼마전까지는 나는 이렇게 생각했다.
정말 기술적으로... 그것도 검색엔진개발자 그룹에서
목소리 높여 떠들었다.

검개그 토론글 보기