온톨로지(ontology)에 대한 관심이 높아지고 있다. 온톨로지란 어휘나 개념의 정의 또는 명세로서 정보시스템 분야에서는 시스템이 다루는 내용에 해당하는 구성요소(개념)를 의미한다. 분야마다 그리고 전문가마다 정의가 조금씩 차이를 보이고 있으며 또 잘못된 이해를 바탕으로 추상적인 견해를 피력하기도 한다.
◇ 어원 및 기본 개념
온톨로지는 철학에서의 존재론으로 실재(reality)에 대한 정확한 이해를 추구하는 학문이다. 실재, 즉 이 세상을 규정하기 위해 이 세상에 존재하는 실체들에 대한 명확한 이해와 정의가 필요한데, 단순화시켜 말하면 ‘이 세상의 기본이 되는 구성요소에 대한 명확한 이해와 정의’라고 할 수 있다.
컴퓨터 분야에서의 온톨로지 역시 정보시스템의 대상이 되는 분야에 존재하는 개체와 개념에 대한 명세로서 철학적 용어를 빌어 쓰는 데 무리는 없어 보인다. 모든 정보시스템은 정보시스템이 바라보는 적용영역(실재)에 대한 관점(view)의 반영이라 할 수 있는 온톨로지를 갖고 있다. 물론 그것이 독립된 형태로 구축되어 있지 않고 데이터베이스나 프로그램 코드에 스며들어 있을 수는 있으나 어쨌든 해당 응용의 개체나 개념, 프로세스 등은 엄연히 존재한다.
◇ 구성 및 기반 시스템
온톨로지는 의료·기계제조·부동산·금융 등 특정 응용영역에 대해 만들어지는데, 그 분야의 기본 개념에 대한 정의와 그들간의 관계에 대한 명세로 이뤄진다. 가장 단순한 형태로는 어휘사전이나 용어모음을 생각할 수 있지만 컴퓨터가 처리할 수 있을 만큼의 구조성과 구체성을 갖춰야 온톨로지로 불리는 것이 일반적이다.
온톨로지의 기본은 해당 영역에 존재하는 개념들이다. 예를들어 책·컴퓨터·책상·의자·구매·입찰 등이다. 각 개념은 다시 그 개념을 설명하는 속성들을 갖게 되는데, 예를들어 책은 저자·출판사·쪽·가격 등의 속성을 갖고 입찰은 대상·날짜·방식·조건 등의 속성을 가질 수 있을 것이다. 또 개념들은 서로 관계를 가질 수 있는데, 가장 기본적인 관계는 상하포함관계다. 예를들어 동화책은 책에 포함되는 하위개념이 된다. 발전된 온톨로지에서는 속성의 특성, 좀 더 복잡한 형식의 관계 등을 정의함으로써 풍부한 내용을 담을 수 있게 된다.
온톨로지를 독립적인 하나의 중심 구성요소로 보고 이를 개발과 운영의 중심에 놓는 것이 온톨로지 기반의 시스템(ontology-driven system) 또는 시스템 개발인데, 이는 몇가지 측면에서 장점을 갖는다. 대표적인 장점으로는 △정보 콘텐츠의 구조에 대한 명세로서의 역할 △해당 영역의 지식 공유와 재사용 △해당 영역의 제약과 가정에 대한 명시 △지식(정보)과 프로세스의 분리 △요구사항 분석의 기본 단계 등이다.
◇ 적용사례
온톨로지는 정보검색, 의료정보와 바이오정보, 인공지능 및 에이전트, 전자상거래, 지능형 인터넷 등 다양한 기술분야에 적용되며, 이미 분야별로 이에 대한 연구가 활발히 진행되고 있다.
가장 먼저 온톨로지 개념을 적용한 컴퓨터 분야는 역시 지식표현과 활용을 연구하는 인공지능 분야다. 특히 에이전트 분야는 이미 90년대 초부터 분산된 환경에서 에이전트들이 상호작용을 통해 의미있는 문제를 해결하기 위해서는 서로 공유할 수 있는 기본 지식기반의 필요하다는 것을 인식하여 일종의 온톨로지라 할 수 있는 개념 계층도(concept hierarchy) 등을 이용했으며, 지식과 정보를 교환하기 위한 질의어(예 KQML-Knowledge Query and Manipulation Language)와 지식교환형식(예 KIF-Knowledge Interchange Format) 등을 정의했다. 특히 미 국방연구처(DARPA)의 DAML-OIL(DARPA Agent Markup Language - Ontology Inference Layer)은 대표적인 온톨로지 표현언어 및 형식으로 받아들여지고 있다.
또 다른 대표적인 분야는 정보검색이다. 용어모음이나 동의어사전 형태만으로도 불필요한 오류를 방지할 수 있고 검색효율을 높일 수 있다. 예를들어 사용자가 잘못 기재한 ‘불공정 거레’라는 키워드는 온톨로지를 이용해 ‘불공정 거래’로 바로잡아질 것이며, ‘불공정 경쟁, 독점, 덤핑, 정부 보조금’과 같은 유사 또는 관련어를 이용해 더욱 풍부한 검색서비스를 제공할 수 있게 된다. 개방형 디렉터리 프로젝트(ODP http://www.dmoz.com)에서는 자발적으로 참여하는 사람들에 의해 인터넷 정보의 분류체계를 만들고 있으며, 이 분류체계는 구글(http://www.google.co.kr) 등 상용검색사이트를 비롯한 수많은 사이트에서도 사용될 정도로 대표적인 웹정보 분류체계로 받아들여지고 있어 처음 방문하는 사이트에서도 익숙한 분류 카테고리를 이용할 수 있는 경우가 점점 많아지고 있다.
시맨틱 웹(semantic web)의 궁극적 목표는 컴퓨터도 이해할 수 있는 지식의 원천으로서의 웹을 만드는 것인데, HTML 형태의 문서들로 이뤄진 현재의 웹은 사람에게 정보를 주는 역할은 하고 있지만 컴퓨터 프로그램이 각 문서의 내용을 정확히 파악할 수 없다는 문제의식에서 출발한다.
‘불공정 거래에 대한 사례를 열거한 석사 또는 박사 논문’에 해당하는 문서를 컴퓨터 프로그램이 찾을 수 있도록 하기 위해 우선 문서내용에 의미있는 태그(tag)를 붙여야 하며, 각 태그가 의미하는 개념에 대한 온톨로지가 있어야 할 것이다. 시맨틱 웹의 중심에 확장성표기언어(XML)를 기반으로 하는 RDF(Resource Description Framework)와 DAML-OIL을 발전시킨 OWL(Ontology Web Language)이 있는 것은 이러한 이유다.
유비쿼터스 컴퓨팅(ubiquitous computing)은 또 다른 흥미로운 분야다.
휴대형의 작은 무선기기들이 동적으로 임의 네트워크를 형성하는 환경에서 각 기기들이 서로의 서비스 기능을 광고하고 또 인식할 수 있어야 하는데, 서로 다른 시기에 상이한 업체에 의해 제조된 기기들 사이에서 이를 가능하게 하기 위해서는 동적으로 접근이 가능한 온톨로지의 사용이 타당한 대안으로 제시된다.
◇ 전자상거래에서의 온톨로지
온톨로지가 가장 널리 파급될 가능성이 있는 분야는 전자상거래 분야다. 컴퓨터 프로그램이 상거래의 일부 또는 전부를 맡아서 처리하는 것이므로 프로그램이 다양한 상거래 개념을 이해하고 처리해야 할 것이다. 로제타넷과 같은 전자상거래 프래임워크는 종합 온톨로지라 할 수 있는데, 예를들어 로제타넷의 PIP(Partner Interface Process)는 거래 프로세스의 온톨로지로 볼 수 있고 로제타넷비즈니스사전(RNBD)과 로제타넷기술사전(RNTD)은 각각 비즈니스와 기술적인 개념들의 온톨로지로 볼 수 있다. 즉 표준화할 수 있고 일반화할 수 있는 개념들을 컴퓨터가 처리할 수 있는 형식으로 명시함으로써 공유할 수 있고 재사용이 가능한 틀을 제공할 수 있는 것이다.
전자카탈로그 또한 온톨로지와 직접적으로 관련이 있다. 상품분류체계의 표준인 국제상품분류코드체제(UNSPSC)나 HS, e클라스(eClass) 등은 각각 상품이라는 개념들을 나름대로의 관점으로 계층관계를 정의한 단순한 형태의 온톨로지라 할 수 있다. 안타까운 것은 이들 분류체계가 전자카탈로그 구축의 핵심으로 인식되고 있다는 점이다. 예를들어 전자카탈로그 구축작업이 이들 분류체계 밑단에 상품을 달아보려는 노력으로 시작되곤 하는데, 이는 주객이 전도된 경우다.
상품 온톨로지 또는 전자카탈로그 온톨로지의 중심은 상품이며, 그 상품에 어떤 속성이 있는가는 2차적인 문제다. UNSPSC의 어느 부분에 이 상품이 분류되는가는 이 상품을 바라보는 하나의 관점인 속성에 불과할 뿐 이 상품을 결정짓는 핵심사항이 될 수 없는 것이다. 구축하는 전자카탈로그의 질적인 우수성 확보라는 측면에서 온톨로지 기반의 방법론을 권고하는 바다.
◇ 향후 과제
조달청이 국가조달물품을 중심으로 한 온톨로지 구축에 나선다는 것은 매우 고무적인 일이다. 풍부한 상품정보를 기반으로 온톨로지를 구축한다면 앞서 언급한 지식의 공유와 재사용, 시스템 연계 측면에서 G2B뿐만 아니라 민간 B2B 분야에 미치는 긍정적 파급효과가 클 것으로 기대된다.
산업자원부가 추진하는 B2B 시범사업은 벌써 40개 업종에 걸쳐 진행되고 있는 의욕적인 사업으로, 다른 것을 제외하더라도 구축될 엄청난 상품 콘텐츠만으로도 의미있는 사업이라 할 수 있다. 다만 이 상품 콘텐츠의 질적 수준을 확보하는 것이 무엇보다도 중요하며 이를 위해 온톨로지적인 접근방법과 해당기술의 개발·보급이 시급하다고 판단된다. 도서관·박물관 등과 같은 문화정보화사업이나 디지털 콘텐츠 구축사업 역시 결과물인 콘텐츠의 질과 사용편이성을 높여야 할 것이며, 온톨로지 기반의 방법은 이 분야에도 기여할 수 있을 것으로 생각된다.
온톨로지는 분명 콘텐츠다. 하지만 콘텐츠를 어떻게 담고 조작하며 서비스할 것인가는 쉽지 않은 기술적 문제다. 미국과 유럽의 온톨로지 기술에 대한 연구는 90년대 후반부터 본격화됐으며 빠른 속도로 발전하고 있다. 많은 종류의 콘텐츠 개발사업에 바로 적용될 수 있는 온톨로지 응용기술의 개발과 보급이 무엇보다 시급하며, 차세대를 바라보는 중장기적 연구노력도 함께 병행될 수 있어야 할 것이다.
◇ 어원 및 기본 개념
온톨로지는 철학에서의 존재론으로 실재(reality)에 대한 정확한 이해를 추구하는 학문이다. 실재, 즉 이 세상을 규정하기 위해 이 세상에 존재하는 실체들에 대한 명확한 이해와 정의가 필요한데, 단순화시켜 말하면 ‘이 세상의 기본이 되는 구성요소에 대한 명확한 이해와 정의’라고 할 수 있다.
컴퓨터 분야에서의 온톨로지 역시 정보시스템의 대상이 되는 분야에 존재하는 개체와 개념에 대한 명세로서 철학적 용어를 빌어 쓰는 데 무리는 없어 보인다. 모든 정보시스템은 정보시스템이 바라보는 적용영역(실재)에 대한 관점(view)의 반영이라 할 수 있는 온톨로지를 갖고 있다. 물론 그것이 독립된 형태로 구축되어 있지 않고 데이터베이스나 프로그램 코드에 스며들어 있을 수는 있으나 어쨌든 해당 응용의 개체나 개념, 프로세스 등은 엄연히 존재한다.
◇ 구성 및 기반 시스템
온톨로지는 의료·기계제조·부동산·금융 등 특정 응용영역에 대해 만들어지는데, 그 분야의 기본 개념에 대한 정의와 그들간의 관계에 대한 명세로 이뤄진다. 가장 단순한 형태로는 어휘사전이나 용어모음을 생각할 수 있지만 컴퓨터가 처리할 수 있을 만큼의 구조성과 구체성을 갖춰야 온톨로지로 불리는 것이 일반적이다.
온톨로지의 기본은 해당 영역에 존재하는 개념들이다. 예를들어 책·컴퓨터·책상·의자·구매·입찰 등이다. 각 개념은 다시 그 개념을 설명하는 속성들을 갖게 되는데, 예를들어 책은 저자·출판사·쪽·가격 등의 속성을 갖고 입찰은 대상·날짜·방식·조건 등의 속성을 가질 수 있을 것이다. 또 개념들은 서로 관계를 가질 수 있는데, 가장 기본적인 관계는 상하포함관계다. 예를들어 동화책은 책에 포함되는 하위개념이 된다. 발전된 온톨로지에서는 속성의 특성, 좀 더 복잡한 형식의 관계 등을 정의함으로써 풍부한 내용을 담을 수 있게 된다.
온톨로지를 독립적인 하나의 중심 구성요소로 보고 이를 개발과 운영의 중심에 놓는 것이 온톨로지 기반의 시스템(ontology-driven system) 또는 시스템 개발인데, 이는 몇가지 측면에서 장점을 갖는다. 대표적인 장점으로는 △정보 콘텐츠의 구조에 대한 명세로서의 역할 △해당 영역의 지식 공유와 재사용 △해당 영역의 제약과 가정에 대한 명시 △지식(정보)과 프로세스의 분리 △요구사항 분석의 기본 단계 등이다.
◇ 적용사례
온톨로지는 정보검색, 의료정보와 바이오정보, 인공지능 및 에이전트, 전자상거래, 지능형 인터넷 등 다양한 기술분야에 적용되며, 이미 분야별로 이에 대한 연구가 활발히 진행되고 있다.
가장 먼저 온톨로지 개념을 적용한 컴퓨터 분야는 역시 지식표현과 활용을 연구하는 인공지능 분야다. 특히 에이전트 분야는 이미 90년대 초부터 분산된 환경에서 에이전트들이 상호작용을 통해 의미있는 문제를 해결하기 위해서는 서로 공유할 수 있는 기본 지식기반의 필요하다는 것을 인식하여 일종의 온톨로지라 할 수 있는 개념 계층도(concept hierarchy) 등을 이용했으며, 지식과 정보를 교환하기 위한 질의어(예 KQML-Knowledge Query and Manipulation Language)와 지식교환형식(예 KIF-Knowledge Interchange Format) 등을 정의했다. 특히 미 국방연구처(DARPA)의 DAML-OIL(DARPA Agent Markup Language - Ontology Inference Layer)은 대표적인 온톨로지 표현언어 및 형식으로 받아들여지고 있다.
또 다른 대표적인 분야는 정보검색이다. 용어모음이나 동의어사전 형태만으로도 불필요한 오류를 방지할 수 있고 검색효율을 높일 수 있다. 예를들어 사용자가 잘못 기재한 ‘불공정 거레’라는 키워드는 온톨로지를 이용해 ‘불공정 거래’로 바로잡아질 것이며, ‘불공정 경쟁, 독점, 덤핑, 정부 보조금’과 같은 유사 또는 관련어를 이용해 더욱 풍부한 검색서비스를 제공할 수 있게 된다. 개방형 디렉터리 프로젝트(ODP http://www.dmoz.com)에서는 자발적으로 참여하는 사람들에 의해 인터넷 정보의 분류체계를 만들고 있으며, 이 분류체계는 구글(http://www.google.co.kr) 등 상용검색사이트를 비롯한 수많은 사이트에서도 사용될 정도로 대표적인 웹정보 분류체계로 받아들여지고 있어 처음 방문하는 사이트에서도 익숙한 분류 카테고리를 이용할 수 있는 경우가 점점 많아지고 있다.
시맨틱 웹(semantic web)의 궁극적 목표는 컴퓨터도 이해할 수 있는 지식의 원천으로서의 웹을 만드는 것인데, HTML 형태의 문서들로 이뤄진 현재의 웹은 사람에게 정보를 주는 역할은 하고 있지만 컴퓨터 프로그램이 각 문서의 내용을 정확히 파악할 수 없다는 문제의식에서 출발한다.
‘불공정 거래에 대한 사례를 열거한 석사 또는 박사 논문’에 해당하는 문서를 컴퓨터 프로그램이 찾을 수 있도록 하기 위해 우선 문서내용에 의미있는 태그(tag)를 붙여야 하며, 각 태그가 의미하는 개념에 대한 온톨로지가 있어야 할 것이다. 시맨틱 웹의 중심에 확장성표기언어(XML)를 기반으로 하는 RDF(Resource Description Framework)와 DAML-OIL을 발전시킨 OWL(Ontology Web Language)이 있는 것은 이러한 이유다.
유비쿼터스 컴퓨팅(ubiquitous computing)은 또 다른 흥미로운 분야다.
휴대형의 작은 무선기기들이 동적으로 임의 네트워크를 형성하는 환경에서 각 기기들이 서로의 서비스 기능을 광고하고 또 인식할 수 있어야 하는데, 서로 다른 시기에 상이한 업체에 의해 제조된 기기들 사이에서 이를 가능하게 하기 위해서는 동적으로 접근이 가능한 온톨로지의 사용이 타당한 대안으로 제시된다.
◇ 전자상거래에서의 온톨로지
온톨로지가 가장 널리 파급될 가능성이 있는 분야는 전자상거래 분야다. 컴퓨터 프로그램이 상거래의 일부 또는 전부를 맡아서 처리하는 것이므로 프로그램이 다양한 상거래 개념을 이해하고 처리해야 할 것이다. 로제타넷과 같은 전자상거래 프래임워크는 종합 온톨로지라 할 수 있는데, 예를들어 로제타넷의 PIP(Partner Interface Process)는 거래 프로세스의 온톨로지로 볼 수 있고 로제타넷비즈니스사전(RNBD)과 로제타넷기술사전(RNTD)은 각각 비즈니스와 기술적인 개념들의 온톨로지로 볼 수 있다. 즉 표준화할 수 있고 일반화할 수 있는 개념들을 컴퓨터가 처리할 수 있는 형식으로 명시함으로써 공유할 수 있고 재사용이 가능한 틀을 제공할 수 있는 것이다.
전자카탈로그 또한 온톨로지와 직접적으로 관련이 있다. 상품분류체계의 표준인 국제상품분류코드체제(UNSPSC)나 HS, e클라스(eClass) 등은 각각 상품이라는 개념들을 나름대로의 관점으로 계층관계를 정의한 단순한 형태의 온톨로지라 할 수 있다. 안타까운 것은 이들 분류체계가 전자카탈로그 구축의 핵심으로 인식되고 있다는 점이다. 예를들어 전자카탈로그 구축작업이 이들 분류체계 밑단에 상품을 달아보려는 노력으로 시작되곤 하는데, 이는 주객이 전도된 경우다.
상품 온톨로지 또는 전자카탈로그 온톨로지의 중심은 상품이며, 그 상품에 어떤 속성이 있는가는 2차적인 문제다. UNSPSC의 어느 부분에 이 상품이 분류되는가는 이 상품을 바라보는 하나의 관점인 속성에 불과할 뿐 이 상품을 결정짓는 핵심사항이 될 수 없는 것이다. 구축하는 전자카탈로그의 질적인 우수성 확보라는 측면에서 온톨로지 기반의 방법론을 권고하는 바다.
◇ 향후 과제
조달청이 국가조달물품을 중심으로 한 온톨로지 구축에 나선다는 것은 매우 고무적인 일이다. 풍부한 상품정보를 기반으로 온톨로지를 구축한다면 앞서 언급한 지식의 공유와 재사용, 시스템 연계 측면에서 G2B뿐만 아니라 민간 B2B 분야에 미치는 긍정적 파급효과가 클 것으로 기대된다.
산업자원부가 추진하는 B2B 시범사업은 벌써 40개 업종에 걸쳐 진행되고 있는 의욕적인 사업으로, 다른 것을 제외하더라도 구축될 엄청난 상품 콘텐츠만으로도 의미있는 사업이라 할 수 있다. 다만 이 상품 콘텐츠의 질적 수준을 확보하는 것이 무엇보다도 중요하며 이를 위해 온톨로지적인 접근방법과 해당기술의 개발·보급이 시급하다고 판단된다. 도서관·박물관 등과 같은 문화정보화사업이나 디지털 콘텐츠 구축사업 역시 결과물인 콘텐츠의 질과 사용편이성을 높여야 할 것이며, 온톨로지 기반의 방법은 이 분야에도 기여할 수 있을 것으로 생각된다.
온톨로지는 분명 콘텐츠다. 하지만 콘텐츠를 어떻게 담고 조작하며 서비스할 것인가는 쉽지 않은 기술적 문제다. 미국과 유럽의 온톨로지 기술에 대한 연구는 90년대 후반부터 본격화됐으며 빠른 속도로 발전하고 있다. 많은 종류의 콘텐츠 개발사업에 바로 적용될 수 있는 온톨로지 응용기술의 개발과 보급이 무엇보다 시급하며, 차세대를 바라보는 중장기적 연구노력도 함께 병행될 수 있어야 할 것이다.
이상구 서울대 교수
서울대학교 계산통계학과 졸업
미국 노스웨스턴대 석·박사
미국 EDS R&D 연구원
현 서울대 컴퓨터공학부 교수
현 서울대 e비즈니스기술연구센터장
연구분야:데이터베이스, e비즈니스 기술
'웹 Plus+α' 카테고리의 다른 글
온톨로지의 응용 (0) | 2006.08.15 |
---|---|
온톨로지(ontology)의 공학적 의미 (0) | 2006.08.15 |
시맨틱웹 관련 자료 총 정리 (0) | 2006.08.14 |
시멘틱 웹과 온톨로지 (0) | 2006.08.14 |
시맨틱 웹「진정한 차세대 인터넷인가」 (0) | 2006.08.14 |