Czy przyszła Sieć musi być pedantyczna?
Czasy kiedy podstawowa znajomość HTML wystarczyła, żeby zbudować sobie "profesjonalnie" wyglądającą wizytówkę w Sieci minęły bezpowrotnie. Co jakiś czas trafiamy jeszcze na strony, które wyglądają jak z poprzedniej epoki. Może nie wszystkie strony muszą być jednym wielkim Flashem, może nie muszą mieć całej gamy gadżetów typu Web 2.0; jednak staliśmy się, jako użytkownicy Internetu, dużo bardziej wymagający co do estetyki wyglądu, zawartości i nawigacji serwisów z których korzystamy. Wieść gminna niesie, że podobnie Google krytycznie patrzy na zgodność naszych stron ze standardami W3C.
Nie raz już wspominaliśmy, że Web 3.0 ma być Siecią dla maszyn. Na początku wszystkim nam zależało na tym aby strony i usługi w Sieci dostarczały semantyki: niech tylko pojawi się RDF, a reszta "jakoś magicznie" się sama rozwiąże. Teraz już wiemy, że sam RDF nie jest najważniejszy, że dużo ważniejsze jest współdzielenie ontologii, słowników, i publikowanie połączonych danych.
Ale czy wystarczy ?
Niedawno rozpoczęła swoją działalność inicjatywa Pedantic Web. Jej celem jest analizowanie istniejących ontologii, słowników i usług pod kątem zgodności ze standardami. Okazuje się bowiem, że nawet te najbardziej popularne ontologie jak SIOC czy FOAF nie są tak do końca stworzone poprawnie.
Skąd właściwie wzięła się potrzeba powstania Pedantycznej Sieci? Pisałem powyżej, że my użytkownicy Inte
rnetu staliśmy się krytyczni co do sposobu prezentacji, zawartości i interakcji z treścią stron i usług internetowych: wybieramy te strony i usługi, które są dla nas bardziej czytelne.
Pomyślmy teraz o tym jak maszyny widzą Sieć. Jeżeli serwowane w niej dane będą niepowiązane, chaotyczne, korzystające z tysięcy różnych i nie powiązanych słowników i ontologii, to będą się "czuły" podobnie zagubione jak kiedy my trafilibyśmy na stronę o słabej nawigacji, wielojęzycznej treści wykorzystującej trudne słownictwo.
Inicjatorzy Pedantycznej Sieci zauważają, że zarówno ontologie, słowniki jak i narzędzia mogą zawierać błędy. Niedoskonałe nadal agenty semantyczne mają duże problemy z "rozumieniem" niedoskonałych treści i usług dostarczanych przez narzędzia zawierające błędy. Celem grupy jest wskazywanie tych niedoskonałości, np.: niepoprawnego wnioskowania wykorzystanego w procesie tworzenia ontologii.
Zachęcam wszystkich zainteresowanych tworzeniem ontologii czy narzędzi semantycznych do subskrypcji listy mailingowej; szczególnie jeżeli chcemy mieć pewność, że stworzona przez nas ontologia czy narzędzie jest zgodne ze ogólnie przyjętymi standardami.

Martwi mnie tylko jedno, podobnie jak w przypadku wszystkich "sił porządkowych" możliwe są dwie opcje: strażnicy (np Irlandzka Gardaí) i policjanci (ang. law enforcement). Wygląda na to, że grupa Pedantyczna Sieć chce być strażnikami standardów; nawet pomimo nieprzyjemnego incydentu, po którym jednemu z jej członków nadano przydomek "Policji Połączonych Danych" (ang. Linked Data Police).


Grudzień 14th, 2009 - 09:24
Google od dawna patrzy na standardy. Ciekaw jestem jak duży wpływ semantyka będzie miała wpływ na “punktowanie” danej strony. To, że sieć będzie dalej zaśmiecona przez strony o wątpliwej jakości kodu (delikatnie mówiąc) jest niestety nieuniknione. Patrząc na to jak się pewne rzeczy rozwijają zadaję sobie np pytanie jakie podejście będzie do stron, które są np poprawnymi dokumentami xml (czyli roboty ładnie to czytają) ale nie będą zawierały “drogowskazów” w postaci np tych popularnych SIOC i FOAF. Pytanie to rodzi się w kontekście realnego zysku z zastosowania bardziej zaawansowanej, a więc w efekcie droższej, technologii.
Grudzień 14th, 2009 - 10:10
O tym, że Google zwraca uwagę na “czystość” kodu to też słyszałem; niestety, niektórzy SEO/SEM twierdzą, że tak nie jest.
O realnych zyskach ze stosowania semantyki napiszemy jeszcze w tym tygodniu. Będzie dość poważny use case :)
Grudzień 14th, 2009 - 10:29
…wraca we mnie wiara w idealistyczne, czyste SEO :D, a tak na serio to można zrobić doświadczenie polegające na ustawieniu dwóch identycznych dokumentów z identyczną zawartością pod dwoma różnymi subdomenami. Jeden jest poprawnym dokumentem xml, drugi nie. Oba dodajemy do google (pierwszy ten niepoprawny). Odczekujemy trochę (kilka dni) i wpisujemy jakieś unikalne zdanie z tych dokumentów, później następne i jeszcze jedno … i widzimy który dokument jest wyżej :) W identyczny sposób działają systemy punktujące www od strony usability i accessibility np.: http://www.silktide.com/siteray
Grudzień 14th, 2009 - 12:11
jestem gotow sprobowac, problem w tym ze przy 100+ algorytmach stosowanych przez Google – moze sie okazac ze to tez niczego nie dowiedzie, bo np. nazwa domeny mu sie bardziej spodoba :)
Jak tylko obrobie sie troche z zaleglymi zadaniami to wroce do tematu!
Grudzień 14th, 2009 - 22:43
W odpowiedzi na Wasze pytania Panowie – wygląda na to, że zmieni :)
Jest już kilka solidnych przykładów “korzystania” z semantyki do podonoszenia rankingu w google (bestbuy używa GoodRelations + RDFa) co im znacznie podniosło ranking poszczególnych stron oraz 30% zwiększyło ruch po dodaniu semantyki. Jest też kilka innych przykładów.
PS. witam kolegę z moich okolic (Włocławka)
Grudzień 15th, 2009 - 00:26
Macieju, dzięki za komentarz. Co do BestBuy – skoro już sprawa wyszła “na jaw” to mogę zdradzić, że opiszemy tę sprawę w piątkowym odcinku :) Stay tuned!
Btw. jeżeli chciałbyś się przyłączyć jako autor – to daj znać w offline :)