태터데스크 관리자

도움말
닫기
적용하기   첫페이지 만들기

태터데스크 메시지

저장하였습니다.

소년 Sb의 어른되기 프로젝트

사용자 삽입 이미지
이번 포스트에서는 시맨틱 기술 연구의 결과물 하나를 소개하고자 한다.

12월 14일, KT 미래기술연구소에서 개발한 STARS(http://stars.paran.com/)라는 국내 최초 의미 기반의 검색엔진이 KTH의 파란(www.paran.com)에 시범 서비스로 오픈됐다.

STARS의 네이밍은 다음과 같다. Semantic Technology bAsed Retrieval System. 말그대로 시맨틱 기술 기반의 검색엔진이다. 언뜻 생각나는게 웹페이지의 어노테이션, 이를 위한 온톨로지와 relation 기반의 추론을 통한 검색?

STARS는 기존의 검색엔진이 갖는 몇가지 한계점과 비교되는 차별성을 갖으며, 그 자신도 기존의 모습을 유지하는 복잡한 엔진이다. 두드러지는 몇가지를 살펴보자면,

1. 새로운 UI의 시도
- 구글의 단순한 검색어 입력창이 아닌 비쥬얼 UI(CUBE)
- 새로운 User Experience(UX) 확장

2. 문장내의 Concept과 Relation 식별 및 검색
- 키워드의 Exact, Partial 매칭이 아닌 관계성 검색
- 문서단위의 링크가 아닌 개념간의 링크 존재

3. 결과 재구성
- Concept과 Relation으로 연결된 결과셋 제공(의미적 클러스터)
- 의미적 연관성으로 Micro content 조명

STARS를 잘 보려면, 검색 마인드부터 바꿔야 할 듯 하다. 단순히 키워드 매칭이 아닌 의미 기반 검색이라 익숙해지기 전까지는 당황스럽다. 그 만큼 큰 변화라 할 만하다. 역으로 단순 매칭을 기대하면서 검색어를 넣어보면 실망할터,,,여기저기 익숙한 트렌드도 보인다. 검색어 확장/한정, 결과 클러스터, 검색어 추천 등 .
 
이러한 속성을 가능하게 하려면, 문서 색인구조부터, 쿼리 처리 방식, 랭킹 모델 등이 기존과 많은 부분 차이를 갖을 것이다. 엔진 코어 부분의 온톨로지는 W3C의 시맨틱 웹 표준 기술을 이용하여 구현됐다고 하니. 앞으로의 확장면에서도 기대해 볼 만 하다.

차후에 기회가 있다면, 얼마전 Semantics Korea에서 언급한 독자적인 방식의 시맨틱 웹 검색 방법론과 빗대어 더 자세히 살펴볼 수 있을 것이다. (여기서, 한마디 하자면 SemanticKorea의 말에는 어패가 있다, 독자적 시맨틱 기술이라면 그게 시맨틱일까? -_-)

아쉬운 점이라면, 너무 한꺼번에 많은 것을 보여주려 했다는 점일까, 오히려 사용자의 포커스를 흐리는 느낌이 난다. 지금은 사라진 첫눈 엔진(snow rank)의 간단한 변화가 가져온 큰 파장을 생각해 보면, 너무 여러 곳에 집중한 느낌이 없지 않다. phase를 두고 적용할 부분도 없지 않아 보이고, 특히 큐브 UI는 사용자들이 바라던 하나의 모습인데 아쉬움이 많다.

사실 우리가 주목해야 할 것은, 시맨틱 기술이 사용되었든, 온톨로지가 사용되었든 기술이 아니라 얼마나 사용자가 원하는 결과를 찾아주는가, 얼마나 검색 서비스로써 매력도가 있는가가 아닐까 한다. STARS를 사용해서 정말 원하는 결과를 빠르게 찾았고, 검색할 때 재미가 있다면 STARS는 기술과 상관없이 성공 할 것이다. 이미 연구개발자 손을 떠나 고객의 손을 넘어간 것이다. gogo stars!

sb는 글의 제목처럼 긍정적인 생각을 하고 싶다. 시맨틱 기술의 구현으로 포털의 시범서비스가 걸리지 않았냐 말이다. 그들의 피땀 어린 노고에 찬사를 보낸다.

여하튼, 요사이 추천(Recommendation)을 하면서 시맨틱 웹은 오히려 명료하지 않나 하는 생각도 드는 이유는 멀까... 감이 떨어졌는지... 추천에서 너무 헤맸는지..

p.s: STARS의 기술 문서가 아닌 sb의 생각대로 읊조렸음.
크리에이티브 커먼즈 라이선스
Creative Commons License
Posted by terrie
연구하는 것/시맨틱 검색 l 2007/12/18 10:08

웹2.0에 영향에 이어서 검색에 있어서도 버져닝 바람은 분다?
단순한 버져닝은 아니겠고 검색 패러다임에 있어서 새로운 개념과
아이디어가 합쳐 질거 같습니다. 물론 시맨틱 방법론도 들어가겠죠?

솔트룩스에서 돌아오는 8월 29일 Search2.0에 관한 세미나와 신제품 발표회를
갖는다고 합니다. 자세한 내용은 아래를 참조하세요~ 그럼 그날 뵙겠습니다~

사용자 삽입 이미지

Search2.0 세미나 (클릭후에 확대해서 보세요~)

*관련 URL : http://www.saltlux.com/news/View.asp?boardName=board_notice02&page=1&idx=30
크리에이티브 커먼즈 라이선스
Creative Commons License
Posted by terrie
연구하는 것/시맨틱 검색 l 2007/08/09 09:28
어제 (27일) 오후 2시 분당의 금융결제원 2층에서 시맨틱스코리아의미검색엔진
KOINEN
의 시연회가 있어서 사전에 신청하고 참가했습니다.
사용자 삽입 이미지

시연회가 열린 금융결제원 분당센터

여담이지만 금융결제원 보안이 살벌하더라구요. 건물 사진도 못찍게 하더군요. -_-;
아무튼 시맨틱 웹을 활용한 검색엔진의 첫선이라고 해서 많은 기대를 갖고 참석했습니다.
대략 참여인원은 20~30명으로 관심도는 낮았습니다. 대부분 시맨틱코리아 관계자분들과 ETRI와 KISTI분들외 몇몇 학생분들이 참석하신거 같았습니다. sb는 일단 KT 미래기술연구소의 이름을 달고 참석했구요.

사용자 삽입 이미지

KOINEN(WHATSS) 시연회

시연회는 중앙일보에서 유비쿼터스 카툰으로 시맨틱웹을 소개한 자료로 시작되었습니다.
http://article.joins.com/article/article.asp?total_id=2770581 '파리'를 검색했더니 곤충 '파리'만 잔뜩 나왔다는 동음이의어, 중의성 해결에 관련된 카툰있었습니다.

이렇게 시맨틱 웹 기술을 이용해서 중의성도 해결하고 사용자의 감정까지 파악해서 알맞은 검색을 한다라는 서론이 있었구요. 본론은 세계의 약 100억개의 웹페이지를 어노테이션한 1,200억개의 시맨틱 웹 페이지를 보유하고 있고, 400억개의 전문 도메인 온톨로지를 구축했으며, 이러한 것들이 로봇에 의해 자동적으로 이루어졌다고 합니다. 온톨로지와 색인어들은 실시간으로 반영되는데, 총 데이터의 색인은 약 한달이 걸리고, 부분적인 업데이트가 가능하기에 실시간 데이터가 반영된다고 합니다. 핵심기술 설명은 보안상 생략하시고 대부분 검색 데모 위주로 진행됐습니다.

KOINEN은 크게 5가지의 검색기능을 갖는거 같더군요.

첫번째는 디렉토리형 검색으로 '바이러스'로 검색했을 때, 생물학적 '바이러스'와 컴퓨터 '바이러스'로 카테고리 구분해서 보여주는 기능입니다. 두번째는 웹 검색으로 '유비'로 검색했을 때, 삼국지의 유비와 관련된 텀들을 보여주고 웹 페이지를 랭크하는 기능입니다. 세번째는 문장검색으로 '구글시가총액'로 검색했을 때, 구글 시가총액의 내용이 나오는 문장을 검색하는 기능이구요. 네번째는 사전검색으로 '말리키'라고 치면 아랍 총리라는 결과가 나오는 기능, 마지막은 개인화검색으로 개인검색패턴, 성향에 맞쳐서 결과를 보여주는 기능입니다. 제가 기능을 맞게 설명했는지 모르겠네요. 아무튼 준비하신 데모에 대한 검색은 비교적 잘 수행되었던거 같습니다.

여기까지가 sb가 보고 듣은 내용을 그대로 적은 부분이구요. 이제부터 sb의 생각을 적어 보겠습니다.

1. 시맨틱 웹에 대한 과도한 이상향을 그리지 않았는가?
- 시연회에 참석한 학생, 그리고 나중에 자료를 보게될 많은 사람들이 이렇게 생각할것이다. '시맨틱 웹이면 다 되는구나! 사용자의 감정상태도 알수 있고, 온톨로지를 구축하면 검색이 알아서 잘 되는구나!' 라고.

그간 몇년간의 시맨틱 웹에 대한 오해, 그리고 과장된 표현들이 이제야 웹2.0을 만나면서 실용적이고 사실적인, 시맨틱 웹이 할 수 있는 부분들을 직시하게 됐는데, 다시 과거 돌아가자는 말로 들린다. '시맨틱 웹이면 다 된다!' 매우 위험한 미사어구라고 생각한다.

물론 시맨틱 웹으로 연관된 텀과 의미를 찾는 검색은 중요한 응용분야라고 생각한다. 하지만 궁금적으로 자동화와 통합, 표준을 생각하지 않는 접근방식은 시맨틱 웹 기술이 아니라고 생각하구요.

더군다나 시맨틱스코리아에서는 RDF/OWL/TRIPLE 등의 표준기술들을 이용하지 않고 시맨틱 웹을 구현했다고 하던데, 그렇다면 향후 정보의 공유와 통합, 상호운영성은 어디서 보장되는지 궁금하다.

2. 과연 시맨틱 웹의 온톨로지가 맞는가?
- 시연회 내내 온톨로지라는 말을 사용했었다. 하지만 sb가 보고 느낀 바로는 온톨로지라기보다 거대한 유의어 사전으로 밖에 보이지 않았다. 시맨틱스코리아는 내내 동음이의어에 관련된 데모만 보여주었다.

그렇다면 'a'와'b'가 유사하고 'b'와 'c'가 유사해서 'a'와 'c'가 유사하다. 또는 'a'와 'd'는 반대여서 'b'와 'd'는 유사하지 않다라는 부분처럼 논리적인 부분이 검색에 이용될 수 었을까? 물론 추론적 기능이 트레이드오프로 제외되었더라도 sb가 배우고 공부한 온톨로지의 모습은 어디에도 없었다. 나름대로의 구조와 방식이 있다면 구별해서 표현했으면 한다. 많은 이들이 혼동을 느낀다.

3. 정말 자동화되었는가? 
- 100억개의 웹페이지, 1,200억개의 어노테이션 페이지, 400억개의 온톨로지, 시연회 내내 숫자를 강조하셨다. 사람이 하면 불가능하지만 로봇이 하면 가능하다라고 하셨다. 맞는 말씀이라고 생각한다. 어찌 사람이 일일이 다할 수 있을까? (우리나라는 하기도 한다;;)

그렇다면 로봇도 새로운 개념이 나오면 정의할 수 있고, 다른 개념과 속성과의 관계도 정의할 수 있는가? 만약 이 부분이 휴먼터치가 있다면 명시해주어야 하며, 자동화가 되었다면 시맨틱스코리아에 박사과정도 고려해야할 듯 하다. 나중에 질답시간의 '거성체조'라는 키워드는 검색이 안되더군요.

4. 검색 랭킹 모델이 존재하는가?
- 시연회 내내 '구글'과의 검색결과 비교를 하셨다. 당연히 다른결과 나올수 밖에 없다. 구글이 곤충 '파리'를 못 찾아서 프랑스' 파리'만 죽어라 상위 랭커에 올리겠는가? 랭킹 모델이 다르기 때문에 그런것이다.

시맨틱 검색을 설명할때 이러한 예는 적절하지 못하다고 생각한다. 시맨틱 검색도 '파리'만을 입력했다면 곤충'파리', 프랑스'파리'라고 나누어 주는 것 밖에는 못한다. 더군다나 문제는 명확한 랭킹모델이 존재하는가에 대한 물음이다.

sb의 질문에는 사용자의 검색성향에 따른 랭킹모델이 존재한다고 했다. 그렇다면 검색 전반적으로 개인화 검색이 되는것인가? 구글이 수십억개의 페이지, 수억 페이지뷰를 갖어도 빠른속도를 갖는것이 클라이언트의 정보를 휘발해 버리기 때문이라고 알고 있다. 매 검색에 있어서 사용자 정보를 탐색해야 한다면, 검색 유료 계정화해도 이윤이 안날것이다. 아무래도 온톨로지상에서 가중치 계산모델, 그리고 랭킹모델에 대한 보완이 필요할 거 같다.

사실 시맨틱 검색, KOINEN(WHATSS에서 개명된거 같음)에 대한 기대가 컸던거 만큼, 실망도 컸던 시연회였던거 같다. 낮은 호응도 또한 나를 화나게 했다. 이렇게 비공개로 쉬쉬 하면서 느지막하게 공개시연회를 한다면 사람들의 관심이 낮을 수 밖에 없다. 요사이 '위키노믹스'라는 책을 읽는데, 시맨틱스코리아분들께도 추천해주고 싶다. 그리고 블로그 검색엔진 '나루'의 시연회와 홍보마인드도 찾아보셨으면 한다.

다소 sb의 포스팅이 냉정하고 비판적일지 모르겠습니다. 하지만 웹에 있어서는 닫혀 있는 기술은 더욱 사람들의 공격을 받게 되있습니다. 아주 스마트하게 하지 않는 이상 말이죠. 이 포스트를 읽고 다른 생각을 갖게 계신분은 트랙백이나 덧글을 남겨주세요.

앞으로 정말 시맨틱 한 검색엔진이 나오길 바라면서 마칩니다.
크리에이티브 커먼즈 라이선스
Creative Commons License
Posted by terrie
연구하는 것/시맨틱 검색 l 2007/06/28 12:26

Social ComputingSocial Software, 내내 이슈화 되었던 웹2.0과 맞물려 약간은 개념적이고 소프트한 구조들이 점점 구체적으로, 결과를 내고 있습니다. 웹에서 커뮤니케이션의 중요성을 인식하게 되고 여기서 나오는 가치를 무시할 수 없게 된 것이죠.

기업들은 신규 서비스 기획 단계에서 블로그를 통한 의견 나눔이 필수적으로 변하고, 의사결정에 있어서 커뮤니티의 의견에 귀를 기울이게 됩니다. 이를 무시했을 때는 상상하지 못할 결과를 초래하기도 합니다. 적절한 예일지 모르겠지만 KCC의 '이상민' 선수의 트레이드 사건을 꼽을 수 있겠습니다. KCC 팬커뮤니티의 생각을 읽지 못했을 때 그들은 과감히 KCC를 등지고 삼성으로 방향을 돌리게 된거죠.

그렇다면 이러한 커뮤니티, 소셜한 움직임을 어떻게 관리하고, 또는 기업 프로세스에 적용할 수 있을까요? 현재까지의 모습으로는 블로그의 모습, 플리커와 딜리셔스 같은 집단 지성, 태깅의 모습으로 보여지고 있는거 같습니다. 특징이나 징후는 발견할 수 있지만, 이렇다할 플랫폼이나 구조는 보여지지 않습니다.

검색영역에서는 어떨까요? 소셜 검색이라는 트렌드가 형성되고 있습니다. 몇몇 실제 검색 사이트도 운영되고 있구요. (http://www.collarity.com , http://www.eurekster.com/)
나와 관계있는 사람, 특정 분야에 전문가인 사람들이 보는 컨텐츠는 나와 관계있는 문서, 그들의 전문성을 반영하는 문서로 볼 수 있겠죠. 소셜 북마킹, 태그클라우드, 위키피디아 등의 서비스의 모습을 띠고 있습니다.

이에 반해 시맨틱 웹 분야는 구체적인 데이터 구조와 스펙, 논리를 제안했습니다. 장기적인 로드맵과 유즈케이스도 제안했죠. 상당한 파급효과가 예상되었지만 예상외로 그 진도는 늦었습니다. 모델링 언어의 버젼업, 또다른 표준안 제안처럼 유저에게 다가서지 못하고 겉만 맴돌았습니다. 웹2.0과 소셜 소프트웨어가 부드럽게 유저에게 다가가는 동안 말입니다.

일각에서는 이러한 웹2.0, 소셜한 움직임에 맞추어 Semantic Web 2.0이라는 용어를 사용하기도 합니다. 거대한 온톨로지를 구축하고 추론으로 차별성을 찾으려 하고 사용자가 참여할 공간은 어디에도 없는 조금은 딱딱한 구조, 시맨틱 웹의 단점들을 극복하고자 web2.0의 개념과 시맨틱 웹의 개념을 융합해서 서비스와 플랫폼을 제안하고 있습니다. 앞서 말씀드린 진도가 늦었던 이유도 여기서 찾을수 있겠습니다. 특히 학교측에서는 이러한 움직임이 쉬운일은 아닌데, 서울대 김홍기교수님의 BiKe랩이 비슷한 맥락으로 연구를 하고 계신듯하여 주목이 됩니다.

다시 검색이야기로 들어가서, 시맨틱 검색의 일반적인 프로세스가 너무 딱딱한겁니다. 도메인 컨텐츠에 대한 온톨로지를 만들고 문서들을 어노테이션하고 이를 저장, 색인하고 추론 및 검색한다. 그럼 누가 어노테이션을 하고 온톨로지는 누가 어떻게 만들어야 할까요? 더군다나 문장단위로 어노테이션한다? 온톨로지가 몇백만 단위다? 과연 검색이 될까요? 서비스가 지속적으로 유지될까요? 많은 영역을 커버할 수 있을까요? 궁극적인 방향은 맞을지 모르지만, 현시점에서 적절한 접근방식인가? 라는 의문점이 듭니다.

물론 현재 지속적으로 데이터마이닝, 정보추출 기술이 발전하고 컴퓨팅 속도도 많이 향상 되었습니다. 하지만 시맨틱 검색을 외골수적으로 접근할 방식은 아직 시기가 아닌것 같습니다.

sb의 생각은 시맨틱 웹의 잘 짜여진 구조에 소셜영역을 맞추어 넣어야 합니다. FOAF와 같은 가벼운 접근방식이 대표적이죠. 사용자로부터 생성되는 컨텐츠(태그)를 이용해야 합니다. 가벼운 텍사노미와 규칙으로 접근해야 하구요. 최대한 자동으로 추출될 수 있는 영역부터 시도해야 합니다. Space, Person, Time, Organization, Media, Event 처럼 자동으로 추출되는 컨텐츠를 가지고 할 수 있는 서비스를 고민해야 합니다. (올라웍스의 Smart Tagging도 좋은 시도라 생각합니다.) 정말 문장단위로 "이명박의 대선공약은?"이라는 질문에 답변할 수 있으면 무슨 필요가 있죠? 내년에도 수동으로 어노테이션할껀가요?
 
아무튼 요사이 시맨틱 검색 프로젝트 진행중에 답답한 생각이 많이 들어서 제 공간에서 넋두리 해봅니다. 너무 어려운 이야기는 논문에서나 해야 겠지요. 소셜진영의 움직임을 보면서 '참 사람을 생각하는구나, 소통하는 서비스구나'라는 생각이 들었습니다. 시맨틱 웹을 연구하고 서비스를 고민하는 사람으로써 앞으로 많은 탈바꿈이 있어야 한다는 다짐을 해봅니다.

사용자 삽입 이미지

구글에서 '적과의 동침' 으로 나온 이미지 - 다정해보이네요 -_-

크리에이티브 커먼즈 라이선스
Creative Commons License
Posted by terrie
연구하는 것/시맨틱 검색 l 2007/06/13 13:47
에픽 슈미츠 구글 CEO가 한국에 왔다. 국내 R&D 센터가 설립되고 본격적으로 구글의 서비스를 국내에 적용할 듯 하다. 한가지에 눈에 띠는 것은 요며칠 사이에 구글의 단조롭던 메인화면이 변경되었다.

한개의 텍스트 검색 박스만 제공했던 구글은 이제 웹문서, 이미지, 뉴스, 블로그, 그룹스 등의 카테고리를 나누어 검색을 제공한다. 하단에는 약간의 디자인이 첨가된 부가서비스들의 아이콘들이 배치됐다.
사용자 삽입 이미지

2007년 구글 메인화면 - 코리아

통합검색이라는 방식이 네이버에서 처음나와 이제는 거의 대다수의 검색엔진이 이러한 총체적인 분류들에 대한 검색을 지원한다. (초기에 네이버에서 특허를 생각을 못했다는 후문)
네이버에서는 검색의 분리보다는 결과화면에서 나뉘어 보여주게 되지만 구글은 사용자가 선택한 카테고리에 대해서 충실하게 결과를 보여준다. 구글스럽다는 말처럼 글로벌하고 가용성이 넓은 방식으로 국내에서 어떤 서비스로 로칼라이징을 어떻게 할지 궁금하다. 이에 대한 첫걸음이라고 보면 될거 같다.

다른 한가지는 구글랩에서 보여준 Experimental Search라는 것이다. 아직은 단조로운 구글의 결과 페이지에 대한 다양한 실험으로 보이는데 간략하게 소개하자면...
사용자 삽입 이미지

타임라인 연동 검색 결과

사용자 삽입 이미지

맵과 연동 검색결과


 첫번째는 타임라인과 맵과 결과를 연동해서 보여주는 방식으로 시간별로 검색 키워드와 연관된 페이지는 타임라인에 요약해서 보여주고, 컨텐츠와 관련된 장소도 지도에 표시하게 된다. 국내 포탈에서는 이미 제공하는 방식이지만 구글의 컨텐츠와 서비스(구글맵)과 연동된다면 검색결과 이해에 있어 많은 도움이될 듯 하다.
사용자 삽입 이미지

숏컷


두번째는 검색 결과 리스트에 단축키를 활용하여 네비게이션을 도와주는 방식으로 쇼컷에 익숙한 유저에게정도 도움이 될 듯하다.
사용자 삽입 이미지

검색 네이비게이션


세번째는 Ask.com 등에서 이미 사용하고 국내 포탈에서도 관련검색어라는 형태로 보여지는 서비스로 사용자가 입력한 검색 키워드에 대해 연관된 검색어와 카테고리를 제안하는 검색 네비게이션이라는 방식이다.
사용자 삽입 이미지

컨텍스츄얼 검색 네비게이션


네번째는 검색 네이게이션과 유사하지만 검색 키워드에 컨텍스트를 고려하여 카테고리나 관련 검색어를 제안하는 방식으로 컨텍스츄얼 검색 네비게이션이라 한다.

페이지랭크라는 신뢰성 있는 검색 가중치 모델로 단순한 텍스트 창과 단조로운 결과 페이지만으로도 지금의 정상에 오른 구글, 이제는 다른 모습으로 변화하고 있는거 같다. 누가 그랬던가, '공룡은 잠자면서도, 꿈을 꾼다고'

그동안 보여주는 면에 있어서 국내서비스들이 잘해왔던게 사실이다. 그래서 구글도 국내시장에 설부른 진입을 못했던거 같고, 하지만 연구결과물과 분석이 이제야 쌓인듯 하다. 국내 검색 서비스 시장에 있어서 '제국의 역습'이 시작된 것이다. :)

그렇다면 여기서 한가지 고민을 해본다. 통합검색을 해주든, 사용자가 원하는 카테고리를 선택해서 검색을 해주든 간에, 검색 결과를 어떻게 보여주는것이 좋을가? 라는 고민이다. 물론 시맨틱한 관점에서 말이다.

예를들어 사용자가 'apple' 이라고 검색했을 때 웹 페이지에서, 블로그에서, 뉴스에서, 이미지에서 'apple' 이란 키워드가 나온 페이지를 통합해서 보여줄 것인가? 아니면 컴퓨터 apple사와 과일 apple을 구분해서 각각을 통합해서 보여줄 것인가? 잘할 수 만 있다면 후자가 당연히 좋을듯한데, 조금 보기에 복잡할 수 도 있겠다. (클러스트링 검색과 약간은 다르다.)

그럼, 문제를 좁혀서 뉴스 검색을 할려고 할 때는 어떻게 보여줄 수 있을까? '김승연' 이라는 키워드로 뉴스 문서를 대상으로 검색을 수행하면 어떻게 보여줄 수 있을까? 물론 김승연이란 키워드가 포함된 모든 뉴스 문서를 검색하고, 날짜순으로 기사 섹션별로 구분해서 보여주는것 ... 그 이상 머가 있을까라는 고민이다. 어떻게 보여주면 좀더 의미적이고 사용자에게 어필할 수 있을까라는 고민... 물론 기술적으로도 가능해야 할 것이다.

일단 의미적으로 태깅된 컨텐츠가 있다면 조금 더 잘 보여줄 수 있을거 같다. '김승연' 사건의 이슈들로 부터 생성된 기사들과 의미적인 태그들, 이들을 이용하면 한화 김승연 회장의 뉴스기사들을 사용자에게 좀더 효과적으로 전달할 수 있을것이다. 물론 사용자가 입력된 태그들과 자동으로 추출할 수 있는 태그들을 전부 이용해야 한다. 그럼 어떤것을 자동으로 뽑아낼 수 있을것인가? 현재의 정보추출 기술로 인물, 장소, 시간, 조직 정도를 뽑아낼 수 있다고 한다.

그럼 '김승연' 이란 키워드로 부터 검색된 뉴스 문서들을 앞서 말한 태그들로 구분해서 보여준다면? 결과는 '김승연'과 관련된 인물들, 장소들, 조직들, 시간순으로 보여주게 된다. 얼핏 상상해보면 그나마 시간 순과 카테고리별로 분류된 기사들 보다는 유익할 거 같다. 그렇다면 적용된 정보추출 기술이 글로벌 할 수 있을까? 그리고 모든 기사들에 공통적으로 적용될 수 있을까? 마지막으로 대용량으로 실시간으로 가능한가?

아직은 기술적으로 미비하다. 정보추출의 시간이 대용량 처리와 실시간으로는 부족하고, 사용자 태그와 자동추출 태그의 연결고리도 난해하다. 현 기술이 미비하고 난해하지만, 우리는 이러한 시맨틱 처리를 위한 인프라를 구축해야 한다. 태그들과 정보추출, 자동태깅을 연결할 온톨로지, 일련의 프로세스를 담당할 글로벌 플랫폼이 바로 그것이다.

아직은 시작단계이다. 하지만 sb는 시맨틱 검색 기술이 구글이 조금씩 변하듯 결과물이 쌓여서 국내 시장에 진출하듯이 조금씩 변하고 쌓여서 세상에 나오리라 생각한다.
크리에이티브 커먼즈 라이선스
Creative Commons License
Posted by terrie
연구하는 것/시맨틱 검색 l 2007/06/04 10:11

우연하게 발견한 KAIST 정보미디원 경영대학원의 블로그 강의
자주 들여다보는 편이다. 강의 계획을 볼 때 부터 기대가 되었던
검색2.0에 대한 전병국님의 강의 올라와서 깊게 읽고 들었다.

웹2.0에 대한 화두로부터 등장 할 검색2.0의 화두는 이미 예견된 바라고 생각된다.
전병국님은 그것에 대해 어느정도 효율로 대표되는 구조화된 웹(인프라)과 효과로 보여지는
소셜 웹(어플리케이션)의 융합을 말씀하셨다.

그 융합은 여러가지 모양새로 나타나고 있는데 그 융합된 모델에 대한 끊임없는
검증 시도가 이루어지고 있는 단계이다. 다시 말해서 성당안에 있는 개념들이
시장으로 나오기 위해 변화하고 있다고 생각한다.

가벼운(Light-weight) 온톨로지, 온톨로지 진화(Evolution)나 사람과의 인터렉션(Interaction)를
생각하는 부분이나, 비효율적인(Inconsistency) 부분을 수용하는 온톨로지 모델 등 이와 같은
키워드가 그런한 모양새를 보여준다.

역으로 말해서 시장에서도 여러가지 시도가 보여져야 한다고 생각한다. 사용자의 태그(Tag)와 구름(Cloud)을 이용하고, 텍사노미와 폭소노미를 결합하고, 죽은 웹을 생산하는 지난친 휴먼터치를 지양하는 모습이 보여져야 한다. 효과적인 결과를 보여주기 급급하여 가용성(Scalability) 없는 어플리케이션, 비글로벌한 서비스는 스스로 한계에 빠지지 않겠는가? 누가 말했듯이 네이버 뉴스는 한국의 뉴스 서비스지만, 구글의 뉴스는 전세계 뉴스가 커버 가능하지 않느냐 말이다.

전병국님의 마지막 Humans do it better! with machines 라는 슬로건, 가슴에 와 닿는다.
아무래도 현재는 완전 자동화된 기계를 위한 웹으로 가기 보다 한계를 인정하고 바람직한
사람의 참여(Interaction)를 설계해야 하는 단계인 것 같다.

시맨틱 웹을 공부하거나 개발하는 개발자들도 완전 자동화를 꿈꾸면서, 현재는 사람이 있는 사람 냄새가 날 수 있는 기계화된 웹을 꿈꿔야 하지 않을가 생각해 본다. 그럴때 효율과 효과, 사람과 기계가
융합된 검색 2.0이 나오지 않을가 기대해 본다.

크리에이티브 커먼즈 라이선스
Creative Commons License
Posted by terrie
연구하는 것/시맨틱 검색 l 2007/05/14 11:55
ICU 맹교수님의 질의 응답형 정보검색 기술동향이란 페이퍼를 봤다.
질의응답형 정보검색 시스템, 흔히 말하는 QnA 시스템이란 ? 사용자의 질문유형을 적절히
해석하고 문서에서 정답에 해당하는 정보를 추출하여 이를 제시하는 기술로 볼 수 있다.

여기서 일반 정보검색과 QnA 검색의 차이점은 무엇일까?
기존의 정보검색이 정답군에 해당하는 문서셋을 찾아준다면 QnA 시스템은 말 그대로
답(Answer)을 찾아준다는 시스템인데...

그렇다면 우리가 하려는 시맨틱 검색과는 어떤 차이점이 있을까?
맹교수님의 논문에도 나와 있듯이 복잡한 자연어 쿼리, 예를 들어 "한나라당의 대선공략은
무엇인가?" 이런 쿼리에 대해 시맨틱 검색에서도 처리해준다고 말하지 않았는가?
잘은 몰라도 어느 정도 시맨틱 검색이라는 분야에서 QnA 냄새가 나긴한다.

혹, 정밀한 시맨틱 검색이 QnA 시스템을 대신할 수 도 있지 않은가?
반대로 정밀한 자연어 처리가 가능하면 시맨틱(웹) 기술은 필요없는게 아닌가?

요새 들어 의구심, 머리속에 ? 마크만 가득하다.
여기서 또 다시 등장하는 관계병(?), 정답과 정답들과의 관계 ...

QnA 시스템에서의 질문분석->문서검색->단락검색->정답추출의 과정에 있어
시맨틱 웹에 의미 단위의 관계, 추론, 상호운용성을 Adaption 할 수 있다면?
명확하게 정의 못하겠지만 먼가 다르다.

아니다. 일단 가보자. 자연어처리가 먼가 잘하기전에 가보자는거다.

p.s : 자연어 처리 안하면서 시맨틱 웹 할 수 없나?
       -_-;
크리에이티브 커먼즈 라이선스
Creative Commons License
Posted by terrie
연구하는 것/시맨틱 검색 l 2007/04/25 15:31
드디어 시맨틱 검색 엔진을 만들려고 합니다.
그 첫번째로 관련 인물들과 Kick-off 회의를 열고
8시간의 긴 회의를 무사히 마쳤습니다. 휴~

참여기관간에 열띤 발표를 하고 많은 의견이 오고 갔습니다.
오랜 시간 집중하느라 피곤했지만 즐거운 자리였습니다.
아직 미해결점들이 이슈사항으로 남았지만, 금주내로
마무리 하려 합니다.

저는 시맨틱 검색 엔진에 대한 서비스 관점에서의
동기 및 이슈, 서비스 컨셉, 그리고 제 생각을 말했습니다.

배운게 기술쟁이라 서비스 논하기가 정말 어렵더라구요.
제 부족함도 많이 느꼈구요.

몇몇분들은
갑자기 철학자가 되었냐,,, 경영발표 같다고,,, 뜬구름 잡는다고;;;
맞습니다. 정말 뜬구름 잡고 있습니다. 그거라고 잡을 수 있다면
잡고 싶구요. 아직 정답이 보이질 않습니다.
하지만 정말 사용될 수 있는 기술, 엔진, 서비스를 만들고 싶습니다.

아직 제 블로그가 시작 시점이라
많은 의견을 나눌수도 없는 곳이지만
일단 쓰고 봅니다. (무플이 악플보다 무섭다는 서드타입님 공감!)

내부 이야기는 제외하고
제 생각이 정리되면 자료를 올리겠습니다.
크리에이티브 커먼즈 라이선스
Creative Commons License
Posted by terrie
연구하는 것/시맨틱 검색 l 2007/04/04 17:59
후, 많이 쉬었군요.

그동안, 회사 일에 집중하느라 방치된 블로그를 보면서도 엄두가 나지 않더군요. 그런데 이대로 방치하기에 나누어야 할 주제가 너무 많고, 다시 곱씹어야 할 경험도 많이 쌓여 버렸습니다. 앞으로 다룰 포스팅 주제는 원론적인 온톨로..

STARS : KT 의미기반 검색엔진에 대한 긍정적 생각

이번 포스트에서는 시맨틱 기술 연구의 결과물 하나를 소개하고자 한다. 12월 14일, KT 미래기술연구소에서 개발한 STARS(http://stars.paran.com/)라는 국내 최초 의미 기반의 검색엔진이 KTH의 파란(w..

Semantic Web Application - Twine, 과연 어떤 모습인가?

지난달 열린 Web 2.0 Summit에서 Radar networks의 Twine 데모가 있었다. 시맨틱 웹 어플리케이션으로 알려진 Twine, 현재로써 블로그에 올라온 글을 종합하여 어떤 모습인지 빠르게 살펴보자. (bet..

지식의 부족함
지식의 부족함 2007/10/21

요새들어 지식의 부족함을 느낀다. 한동안 마냥 쏟아내어 밑천이 다 떨어진 느낌이다. 큰 결심이 필요할거 같다. p.s: 두달만의 포스트에서 이런 헛소릴...

슈퍼맨? 'SUPER' 프로젝트

SUPER 'Semantic Utilised for Process Management within and between EnteRprises' http://www.ip-super.org 대략적인 내용은 기존의 웹 서비스(Web..

Search 2.0 세미나가 열립니다.

웹2.0에 영향에 이어서 검색에 있어서도 버져닝 바람은 분다? 단순한 버져닝은 아니겠고 검색 패러다임에 있어서 새로운 개념과 아이디어가 합쳐 질거 같습니다. 물론 시맨틱 방법론도 들어가겠죠? 솔트룩스에서 돌아오는 8월 29일..

1 2 

최근에 올라온 글

공지 사항

카테고리