WordNet – Sieć Słów
W jednym z wcześniejszych wpisów, prezentując lekką ontologię SKOS, wspominaliśmy jak ważne jest używanie wspólnego słownika. Dziś chcielibyśmy Wam pokazać jak taki słownik wygląda na przykładzie projektu WordNet.
WordNet jest rozbudowanym tezaurusem dla języka angielskiego; stanowi on obszerną bazę leksykalną grupującą rzeczowniki, czasowniki, przymiotniki i przysłówki w zbiory synonimów (ang. synset) wyrażających odmienne znaczenia.
Zobaczymy jak działa domyślna usługa udostępniająca ten słownik online. Otwieramy link. Czarne literki, białe tło - jak na razie gorzej niż Web 1.0. Nie zrażamy się tym i wpisujemy najczęściej wyszukiwane słowo w Internecie czyli 'se...', to znaczy 'star', czyli gwiazda. Dostajemy listę z definicjami. Każda definicja lub znaczenie wyrażenia posiada swój identyfikator oraz składa się z synonimów o tym samym znaczeniu. Grupy synonimów są ze sobą połączone tworząc graf połączeń.
Przykład użycia słownika WordNet
Wyobraźmy sobie wyszukiwarkę internetową, która zamiast szukać wszystkich stron zawierających słowo gwiazda w dowolnej formie, w pierwszym kroku pyta nas o jaką gwiazdę nam chodzi - gwiazdę muzyki, czy gwiazdę na niebie. Wyobraźmy sobie system, który zamiast pytać nas o jakie znaczenie słowa nam chodzi, pobiera je z naszego profilu, w którym zapisane jest, że właśnie studiujemy astronomie. I to jest właśnie Web 3.0.
Zainteresowanych zapraszam na stronę projektu. Dowiecie się, że projekt jest opensource, oraz jest darmowy. Powstał kilka lat temu, i można go wykorzystywać jako bibliotekę w dowolnej aplikacji.
Oczywiście słowniki w języku angielskim są raczej mało przydatne do zastosowania w polskiej Sieci Semantycznej. Dlatego przy okazji warto też zwrócić uwagę na dwa projekty, których celem jest dostarczenie rozwiązań podobnych do WordNet ale dla innych języków europejskich: EuroWordNet oraz SłowoSieć (ang. plWordNet).
EuroWordNet dostarcza (a właściwie dostarczał, bo projekt jest zamknięty od prawie 10 lat) słowników dla kilku języków europejskich, takich jak Holenderski, Włoski, Hiszpański, Niemiecki, Francuski, Czeski i Estoński. Niestety korzystanie z bazy słownika nie jest darmowe, a jedyny interfejs WWW (podobny do tego jaki ma WordNet) zbudowany dla języka Hiszpańskiego nie jest już dostępny.
SłowoSieć jest budowana na Politechnice Wrocławskiej. Istnieje możliwość dostępu online do słownika podobnie jak dla WordNet. Niestety, w chwili pisania tego artykułu, słownik nie był jeszcze w pełni gotowy.
Zapytacie, czemu nigdy nie widzieliście systemu korzystającego z tego lub podobnego słownika. Do końca nie rozumiemy tego sami, ale mamy nadzieję zmienić to właśnie... teraz.
WordNet jest niezwykle popularny w rozwiązaniach wymagających przetwarzania języka naturalnego oraz wszelkiego rodzaju wnioskowanie na posiadanej bazie opisów. Powstała nawet wersja RDF tego słownika, tak aby mógł być wykorzystany w systemach semantycznych. W następnym artykule przedstawimy w jaki sposób projekt OpenVocabulary.info udostępnia WordNet oraz inne słowniki dla rozwiązań semantycznych w postaci grafu RDF zgodnego ze standardem SKOS.

