Szkoła Web 3.0 The School of Semantics

23lut/10

Sezamie otwórz się – czyli instalacja Sesame 2.0

Zgodnie z wcześniejszą zapowiedzią (po małej przerwie) w dzisiejszym artykule opiszę jak w kilku krokach zainstalować bazę danych (repozytorium) RDF. Chociaż ten artykuł kierowany jest głównie do programistów, to jednak proces instalacji bazy Sesame jest na tyle prosty, że zachęcam każdego do zrobienia tego. W ten sposób łatwiej będzie wam sprawdzać poznaną wiedzę (szczególnie tę dotyczącą zapytań w języku SPARQL) w praktyce.

16lut/10

SPARQL – cz. 3: SELECT to nie wszystko

Każdemu kto zna SQL fakt, że zapytania SELECT w SPARQL zwracają tablicę wyników wydaje się to oczywiste. Dla tych, którzy znają XQuery - to takie oczywisto już nie jest. SELECT to jednak nie jedyny rodzaj zapytania w SPARQL, i co więcej SPARQL nie zawsze musi odpowiadać tablicą wyników.

12lut/10

Dlaczego Taksonomia to nie Ontologia ?

Odpowiedź na to pytanie przez wiele lat wydawało mi się całkiem oczywista. Kiedy w 2007 roku, w czasie naszego tutoriala o Semantycznych Bibliotekach Cyfrowych w czasie konferencji WWW (w nawiązaniu do slajdu 24), ktoś poprosił nas o dokładne wyjaśnienie różnic, okazało się, że zdefiniowanie odpowiedzi w sposób jednoznaczny nie było takie proste; po kilku latach pracy w tematyce Sieci Semantycznej i bibliotek cyfrowych - niektóre pojęcia przyjmuje się jak aksjomaty.

Ponieważ temat wypłynął niedawno na forum Biblioteka 2.0, postanowiłem zmierzyć się z tym pytaniem.

8lut/10

SPARQL – cz. 1: Wstęp do odpytywania grafów RDF

SPARQL logoW piątek obiecałem, że dziś dowiecie się jak zadawać zapytania na grafie RDF za pomocą języka zapytań SPARQL. Zapowiada się kolejny cykl, tym razem jeszcze dłuższy niż poprzednie, bo chce omówić kolejne aspekty SPARQLa krok po kroku.

Dlaczego warto poznać SPARQL ? Jeszcze kilka lat temu każda baza RDF implementowała swój język zapytań na grafie RDF. Tak zgadliście: próba przeniesienia się z jednego repozytorium do drugiego była koszmarem. Dodatkowo, chociaż nie wiele wówczas serwisów udostępniało publicznie swoje dane, to bez jednego standardu zapytań konieczne było pisanie agentów semantycznych, które potrafiły zadawać zapytania w różnych językach.

Wraz z popularyzacją języka SPARQL przez W3C (SPARQL obchodził niedawno 2 lata od opublikowania jako rekomendacja W2 sytuacja się drastycznie zmieniła: SPARQL jest na tyle popularny, że udostępnianie tzw. SPARQL endpoint jest jednym z de facto standardów funkcjonowania serwisów semantycznych zgodnych z Linked Open Data. Innym ciekawym przykładem wykorzystania języka SPARQL jest projekt sparqlTeX, dzięki któremu możemy automatycznie aktualizować dokumenty PDF w oparciu o dane z serwisów udostępniających SPARQL endpoint.

W chwili obecnej trwają prace nad kolejną wersją języka; napiszemy o proponowanych zmianach pod koniec cyklu.

3lut/10

Semantyczne Biblioteki Cyfrowe – cz. 1: Wprowadzenie

W czasie swojej pracy naukowej często spotkałem się z raczej mało popularnymi w Polsce studiami poświęconymi informacji i bibliotekom (ang. Information Science and Library Studies). Po części pokrywają się one z tym co można się dowiedzieć na piewszych latach studiów informatycznych w Polsce, jednak są silnie ukierunkowane na zarządzanie informacją, szczególnie w kontekście bibliotek cyfrowych.

Pamiętacie zapewne lekką ontologię Dublin Core, którą omawiałem w październiku zeszłego roku. Jest ona jedną z najstarszych i prawdopodobnie najbardziej popularnych ontologii stosowanych nie tylko w Web 3.0, ale i w szeroko rozumianym Internecie. Być może część z Was już wie, że standard Dublin Core wywodzi się tak na prawdę ze środowiska bibliotekarskiego. Inną ontologią ściśle związaną ze środowiskiem bibliotek cyfrowych jest SKOS, o której też pisałem w zeszłym roku.

Te ontologie, jak i inne standardy powstały właśnie w wyniku badań naukowych prowadzonym w ramach projektów bibliotek cyfrowych. Wiele idei, które przyświecały budowaniu Sieci Semantycznej wywodzi się właśnie z tego środowiska; wielu ludzi ściśle związanych z rozwojem Web 3.0 posiadało doświadczenie w pracy nad bibliotekami cyfrowymi. Dziwić więc może, że jeszcze do niedawna oba środowiska nie potrafiły znaleźć wspólnego języka.

15gru/09

Publikujemy w Web 3.0 – część 4: Semantyczny agent rozmawia z naszym serwisem

W poprzednich artykułach cyklu "Publikujemy w Web 3.0" dowiedzieliśmy się w jaki sposób sprawić, aby nasz serwis dostarczał semantyki. W ostatnim odcinku rozważaliśmy potrzebę tworzenia URI tak aby nigdy nie musiały ulegać zmianie. W tym odcinku opiszemy kiedy stosować przekierowania protokołu HTTP czy też adresy URL z tzw. hashtagami.

14gru/09

Czy przyszła Sieć musi być pedantyczna?

dilbertCzasy kiedy podstawowa znajomość HTML wystarczyła, żeby zbudować sobie "profesjonalnie" wyglądającą wizytówkę w Sieci minęły bezpowrotnie. Co jakiś czas trafiamy jeszcze na strony, które wyglądają jak z poprzedniej epoki. Może nie wszystkie strony muszą być jednym wielkim Flashem, może nie muszą mieć całej gamy gadżetów typu Web 2.0; jednak staliśmy się, jako użytkownicy Internetu, dużo bardziej wymagający co do estetyki wyglądu, zawartości i nawigacji serwisów z których korzystamy. Wieść gminna niesie, że podobnie Google krytycznie patrzy na zgodność naszych stron ze standardami W3C.

Nie raz już wspominaliśmy, że Web 3.0 ma być Siecią dla maszyn. Na początku wszystkim nam zależało na tym aby strony i usługi w Sieci dostarczały semantyki: niech tylko pojawi się RDF, a reszta "jakoś magicznie" się sama rozwiąże. Teraz już wiemy, że sam RDF nie jest najważniejszy, że dużo ważniejsze jest współdzielenie ontologii, słowników, i publikowanie połączonych danych.

Ale czy wystarczy ?

30lis/09

Publikujemy w Web 3.0 – część 3: Niezmienne URI

Proper locations emergingDziś zaczniemy od pewnego eksperymentu. Wyobraźmy sobie, że wchodzimy do supermarketu, w którym bywamy co kilka dni, idziemy do stoiska z pieczywem, a tam ... buty. Idziemy do stoiska z mięsem a tam gry wideo, a na stoisku z warzywami - pieczywo. Chyba nikt nie będzie zadowolony z takiej sytuacji, prawda ? Nie pozostaje nam nic innego jak tylko albo obejść cały supermarket albo zapytać sprzedawców, i na nowo "nauczyć się" co gdzie się teraz znajduje.

A teraz, załóżmy, że supermarket to nasz serwis internetowy, a my jesteśmy agentem semantycznym próbującym uzyskać dostęp do poprzednio zidentyfikowanego źródła informacji. W momencie kiedy nasze położenie dokumentów i usług zmienia się na naszym serwisie, nie agent semantyczny (i nie tylko) musi na nowo sporządzić sobie mapę serwisu (czyli zaindeksować go).

Jak możemy ustrzec siebie i nasz serwis przez niestabilnymi URLami, które będą się zmieniały ? Rozwiązaniem promowanym m.in. przez sir Tima Bernersa-Lee są tak zwane "Cool URIs" (czyli "odjazdowe" URI), które nie ulegają zmianie.

16lis/09

Publikujemy w Web 3.0 – część 2: Mój serwis jest Web 3.0

Embedding SemanticsKiedy po wielu dniach czy tygodniach pracy nasz serwis internetowy lub strona internetowa jest gotowa, zastanawiamy się jak uczynić ją popularną. W grę wchodzi wiele rozwiązań zajmujących się optymalizacją strony pod wyszukiwarki (ang. Search Engine Optimization - SEO) czy też marketingiem wspieranym mechanizmami wyszukiwarek internetowych (ang. Search Engine Marketing - SEM). Kilka miesięcy temu Google zapowiedział wsparcie dla technologii semantycznych dzięki indeksowaniu fragmentów stron wzbogaconych o semantykę (ang. rich snippets).

O tworzeniu stron bogatych w semantykę pod kątem indeksowania przez Google napiszemy w kolejnych artykułach.  W tym artykule przedstawimy przegląd technik publikowania semantyki na naszych serwisach internetowych.

12lis/09

Publikujemy w Web 3.0 – część 1: Publiczne, połączone dane

Linked Data logoCzym jest Web 3.0? To pytanie, na które trafiam coraz częściej przeglądając różne czeluści Sieci. Niestety, równie często napotykam odpowiedzi, które są kompletnie niepoprawne.

Bo Web 3.0 to nie Web3D, to nie wyszukiwarki odpowiadające na pytania w języku naturalnym (ang. natural language processing - NLP), to wreszcie nie tylko ontologie i maszyny które z nich korzystają. Web 3.0 to Sieć danych, która w odróżnieniu nie jest tylko dla ludzi (Web 1.0) czy stworzona przez/dla społeczności (Web 2.0), ale jest przede wszystkim dostępna i zrozumiała przez maszyny. Tylko w ten sposób będziemy mogli zbudować narzędzia, które usprawnią nasz dostęp do Sieci, jeżeli będą one miały dostęp do połączonych, zrozumiałych danych.

Takie właśnie założenia dotyczące rozwoju Web 3.0 stały się podstawą do powstania inicjatywy Linked Data, promującej udostępnianie danych w Sieci w postaci grafu powiązań zrozumiałego przez maszyny.