het semantisch web, evolueer jij mee?

SEO of search engine optimization, op deze blog zal ik de geheimen van SEO uit de doeken doen. SEO tips and tricks, SEO techniques, alles omtrent dit onderwerp kan je hier terug vinden. Wil je meer weten over google's donkerste geheimen of heb je zelf heel wat tips omtrent SEO. Laat dan maar van je horen! Before I forget, welkom op mijn SEO blog

maandag 27 juli 2009

het semantisch web, evolueer jij mee?

Velen hebben de mond vol van het semantisch web de dag vandaag. Waar spreken ze eigenlijk over? Wat bedoelen ze nu net met het semantisch web of is het weer een “buzz word” zoals “web 2.0” ook veel gebruikt werd door iedereen die het hoorde?

Web 2.0 is een term die de trend omschrijft als: “het gebruik van webtechnologieën dat gericht is op het vergroten van de creativiteit , de uitwisseling van informatie en vooral de samenwerking tussen de gebruikers.” Deze concepten hebben geleid tot de ontwikkeling en evolutie van web gebaseerde gemeenschappen (web based communities) en gehoste diensten als sociale netwerk sites, wiki’s, blogs en folksonomoies.

De term suggereert naar een nieuwe versie van het “World wide web”, maar verwijst naar veranderingen in de manier waarop software ontwikkelaars en eindgebruikers het web gebruiken.

Wat verstaat men nu onder web 3.0 of het semantisch web.
In deze post zal ik proberen zo eenvoudig mogelijk uit te leggen wat het semantisch web is. Dit aan de hand van een fictief voorbeeld, enkel het concept zonder in te gaan op technische details. Alle belangrijke bouwstenen van het semantisch web zullen we even aanhalen en verduidelijken.

Case:
“Ik ben Christophe, ik ben op zoek naar een leuke plaats voor mijn vakantie en heb een budget van 2750 euro. Trouwens, mijn vriendin Isabelle en zoontje Sam, 6 jaar oud gaan ook mee.”

Wat zijn nu mijn opties? Als ik even impulsief zou reageren zijn mijn beide de volgende opties.

Ik kan opzoeken waar ik naartoe wil via het internet. Eventueel een vakantie online boeken.
Ik kan naar een reisbureau gaan en hier eens gaan kijken wat ze voor mijn kunnen doen.

De vraag is nog steeds, wat is nu het semantisch web?
Het web dat mij kent. Een web van data, begrijpelijk voor mensen en software. Het doel van de software is om te voorzien in jouw informatiebehoeftes.

Mijn data is nog steeds:
“Ik ben Christophe, ik ben op zoek naar een leuke plaats voor mijn vakantie en heb een budget van 2750 euro. Trouwens, mijn vriendin Isabelle en zoontje Sam, 6 jaar oud gaan ook mee.”

De data op het web is:

Google begrijpt me ook niet blijkbaar. Alle resultaten die ik krijg variëren van blogs, reisverhalen, villa’s in Tenerif boeken, …. . Kortom, een overmaat aan informatie die niet voor mij relevant is.

Is dit allemaal begrijpelijk voor mensen? Beter nog, is dit allemaal begrijpelijk voor mensen en software? De persoon in het reisbureau begrijpt ons, we kunnen hier stellen, de persoon van het reisbureau begrijpt mijn data en begrijpt alle data op het web. Het reisbureau is als het ware onze semantische vertaalslag, om het zo uit te drukken.

De software die wij nu gebruiken doet NIET aan semantiek. Informatiebehoeftes:

Wij zoeken niet, wij vinden
Hoe relevant is wat wij vinden?
Wat we zoeken en niet vinden is ergens wel aanwezig, maar waar ergens?

Wij hebben hulp nodig, hoe je het ook draait of keert, iemand zal ons moeten helpen om dit allemaal te verwezenlijken. Dan spreken we nog niet over de mensen die een reis kunnen boeken via www.villaspanjehuren.nl ;-).

Zodus, we hebben iemand nodig die mij begrijpt. Iemand die het web kent en begrijpt. Iemand die ook nog eens zijn vrije tijd wil opofferen om mij te helpen mijn vakantie te helpen boeken.

De building blocks van het semantisch web.

Hier vinden we een voorstelling van de bouwstenen van het semantisch web. Als volgende zullen we de blokken die het meest belangrijk zijn hieronder bespreken.

Mijn data is nog steeds:
“Ik ben Christophe, ik ben op zoek naar een leuke plaats voor mijn vakantie en heb een budget van 2750 euro. Trouwens, mijn vriendin Isabelle en zoontje Sam, 6 jaar oud gaan ook mee.”

Mijn data vertaald naar online data voor het web kan er als volgt uitzien.

De woorden die wij gebruiken, (mijn data in dit voorbeeld) zijn niet begrijpelijk voor software. We kunnen deze echter wel begrijpelijk maken voor software. Er moeten regels zijn om te verwezenlijken. RDF wordt de grammatica van het web.

Wat is RDF of Resource Description Framework. Dit is een W3C standard. Oorspronkelijk ontworpen als metadata model maar gaandeweg gebruikt als een format om gegevens in het algemeen voor te stellen en uit te wisselen.

Kenmerken van bronnen worden uitgedrukt in de vorm van een driedelige subject-predicaat-object structuur.

Subject: in essentie de bron die beschreven wordt.
Predicaat: welk kenmerk of aspect van de bron die beschreven wordt.
Object: de waarde van dat kenmerk.

Met RDFS kunnen er relaties tussen concepten gelegd worden.

OWL (Web Ontology Language) geeft mijn data een context binnen een specifiek domein.

Om al onze data te kunnen beredeneren moeten er regels (rules) zijn. Hier komt SWRL in het plaatje.

Als laatste maar zeker niet onbelangrijk. Wij moeten data kunnen zoeken, dit is mogelijk door SPARQL, query language voor RDF. Zoals bv “geef me alle streken in Italie met een gemiddelde temperatuur van 20 graden celcius”.

Korte samenvatting van de punten:

Data in XML
Grammatica in RDF, RDFS en OWL
Regels (rules) in SWRL
Zoeken met SPARQL

Wat zouden de resultaten moeten zijn over enkele jaren? Wat is de context van het semantisch web.

Contextuele navigatie. De gebruiker kiest een stukje tekst of contextuele hyperlink. De applicatie begrijpt ook effectief de data binnen de gekozen tekst en de gebruiker krijgt relevante informatie, waar hij of zij naar op zoek is.

Google is goed genoeg geweest maar iedereen weet dat de resultaten momenteel vaak nog steeds niet voldoende relevant zijn naar de zoekopdracht van de gebruiker.

Werken met semantische databases. Een semantische database is gebouwd naar een relationele structuur voor webdata. Een gepersonaliseerde kennisbase die jou interesses leert kennen. Werken met gebruikers profielen, dit is een basis voor gepersonaliseerde zoekmachine.

Als laatste, waarom is het interessant om software beter data te laten begrijpen? Wat zijn voordelen van het werken met gepersonaliseerde data. Stel, hoe beter mijn “GPS” de betekenis van “bestemming” begrijpt, des te beter kan deze de richting aanwijzen.

Bijvoorbeeld: “Ik wil een conferentie volgen van Google, deze zal doorgaan in Amsterdam.”

Hoe zou dit nu allemaal kunnen verlopen. Ik krijg een mail om me in te schrijven voor deze conferentie. Ipv allerlei formulieren in te vullen moet ik enkel bevestigen dat ik aanwezig zal zijn dmv het klikken op een button.

Hierdoor wordt mijn aanwezigheid automatisch bevestigd.
Mijn online kalender (Google Agenda) wordt automatisch aangepast en krijgt een aantekening met plaats en datum van het event.
Mijn GPS verkrijgt automatisch de coördinaten waar het event zal plaatsvinden.
Als laatste worden in mijn adresboek automatisch alle contactgegevens opgeslagen van alle aanwezigen voor dit event.

Zou dit niet handig zijn, zo ver zijn we nog niet, maar dit zou toch een mooie evolutie zijn, of niet? Ik hoop dat met deze uitleg het concept web3.0 wat duiding gekregen heeft. Wat zou de invloed zijn van deze ontwikkelingen op gebied van SEO, zou dit volledig verdwijnen uiteindelijk, wat denk je?

6 reacties:

Alain Sadon (SEO guru) zei: Dank, christophe, voor je mooie artikel!

Voordat ik een poging kan wagen je vraag te beantwoorden. Heb ik eerst nog een paar wedervragen:

1. Ik begrijp dat de huidige generatie webpagina's primair gericht is op informatieoverdracht aan bezoekers van vlees en bloed. Ik begrijp ook dat het lastig is voor geautomatiseerde verwerkingssystemen (zoals bots) om te begrijpen waar een website of webpagina in de kern over handelt, m.a.w. wat de betekenis of semantiek precies is. Ook aan de andere kant, namelijk die van de zoekvraag, zit een soortgelijk probleem.

Mijn vraag: is web3.0 in jouw ogen een situatie waarbij webbeheerders nu twee definities van een webpagina moeten maken, één in een traditionele definitie (html of iets dergelijk), voor de bezoekers van vlees en bloed, en één in RFD, voor geautomatiseerde systemen? Of wordt alle data dan in RFD gedefinieerd en ligt daar een aparte vormgevingslaag omheen?

2. Meen je dat er ook aan de zoekvraag-kant e.e.a. verandert in web3.0? Waar we bij zoekmachines nu een simpel zoekveld zien, kan ik me voorstellen dat er straks complexere zoekinvoer gegeven kan worden. Bijvoorbeeld dat ook mijn profiel (vriendin, kind, etc.) reeds automatisch meegenomen wordt in het bepalen van de voor mij geschikte antwoorden. Google is daar in feite al volop mee bezig, (bijvoorbeeld via local search waarbij Google al weet dat ik in Amsterdam zit).

3. Op welke termijn meen je dat er zoiets als een semantisch web (voor een belangrijk deel) actief is?

4. Kunnen webontwikkelaars nu al inspelen op deze ontwikkelingen, en zo ja hoe?

Alvast dank voor je antwoorden!; 21 augustus 2009 om 11:19
Ieniemienie zei: Dag Alain,

Om even op al je vragen terug te komen.

1) Je moet RDF niet zien als een xhtml document om pagina's op te maken. RDF is soortgelijk aan RSS (om het zo te stellen), wel is er meer ruimte voorzien om data mee te geven, semantisch. Net zoals nu er veel gebruik gemaakt wordt van feedburner bv, om een rss te koppelen aan je blog en deze te verspreiden. Zal je data in een rdf document geplaatst worden, met bijhorende correcte semantische data en tags.

Het is niet zo dat webdesigners plots documenten in RDF moeten gaan ontwikkelen ;-).

Mooie voorbeelden hiervan is het FOAF project. Je kan hier alle info over terug vinden op http://www.ldodds.com/foaf/foaf-a-matic.nl.html.
Dit zal je een duidelijk beeld geven van de technologie.

2) "Meen je dat er ook aan de zoekvraag-kant e.e.a. verandert in web3.0?" Daar heb ik eerlijk gezegd nog niet bij stil gestaan, maar is wel interessant om eens wat over op te zoeken. Anderzijds, Google staat enorm achter accessibility, (gebruiksvriendelijkheid), zoekmachines zijn zo eenvoudig te gebruiken door iedereen. Het lijkt me logisch dat ze het zoekproces voor de gebruiker niet uiterst complex zullen maken, hiermee zou je enkel gebruikers verliezen.

3)Er zijn reeds heel wat toepassingen omtrent het semantisch web.
- Yahoo en searchmonkey: http://www.techcrunch.com/2008/03/13/yahoo-embraces-the-semantic-web-expect-the-web-to-organize-itself-in-a-hurry/

http://ebiquity.umbc.edu/blogger/2009/02/12/yahoo-adds-rdf-support-to-searchmonkey-and-boss/

FOAF: hierboven vernoemd ;-)

microformats, interessant voor bloggers om een visitekaartje aan je blog te koppelen en op deze manier gevonden te worden.
Het concept, uitleg en dergelijke vind je op http://microformats.org/wiki/hcard

Dit zijn tags, gedefinieerd die je moet meenemen in je xhtml code, je moet in de header van je document een regel opnemen, deze zorgt ervoor dat deze microformats herkend worden en geinterpreteerd door de browser. Dit zijn vaste standaarden en conventies.

Je kan deze vervolgens stylen met css, net omdat je met xhtml div en span tags werkt ;-). Lees maar op http://24ways.org/2006/styling-hcards-with-css

- Dries Buytaert, de man achter Drupal! Drupal heeft reeds RDF geïntegreerd in zijn systeem. Het mooiste voorbeeld hiervan is de Britney Spears website. Deze geef ik steeds als voorbeeld. Je moet Yahoo gebruiken, Google ondersteund dit niet.

Geef maar in "Britney Spears" op Yahoo en op Google, je zal zien dat de resultaten pagina verschillend is. Op Yahoo krijg je bovenaan een box met songs die je kan beluisteren. Hier vind je ook 4 linken, Albums, Lyrics, photos en videos.

Dit is het schoolvoorbeeld van RDF, dadelijk linken aanbieden aan de gebruiker met gerelateerde pagina's, over het zoekonderwerp.

Dit is dankzij de RDF integratie in Drupal, de website van Spears is ontwikkeld in Drupal ;-).

RDF is ook reeds geintegreerd in Firefox, je hebt zelfs een plugin, "operator" genaamd. https://addons.mozilla.org/nl/firefox/addon/4106

Wanneer microformats als hcard en dergelijke gebruikt zijn op een pagina, zal deze plugin dat herkennen. Via de toolbar kan je dadelijk andere informatie bereiken,

Dit allemaal dankzij semantische data, extra informatie meegegeven aan je documenten.

Veel lees genot met bovenstaande linken ;-).; 21 augustus 2009 om 12:38
Alain Sadon zei: Hallo Christophe,

Dank voor je uitgebreide antwoord!

Je hebt me geinspireerd het hele RDF(a) en Microformats verhaal eens goed te bestuderen. En het is me een stuk duidelijker geworden. Ik begrijp nu dat er -in het geval van microformats- via bepaalde class-names in de html-code van een pagina precies kan worden aangegeven welke elementen welke betekenis hebben. Bij RFD is de syntax net weer even anders. Ik ben bijvoorbeeld gaan spelen met de class vcard op de contactpagina (http://www.seoguru.nl/contact.html) van mijn website. Bedrijfsnaam, persoonlijke naam, adres, etc. heb ik (ook weer via class-aanduidingen) opgenomen in de vcard. Via de door jou genoemde firefox plugin kunnen deze gegevens inderdaad perfect worden uitgelezen, bijvoorbeeld in outlook. Ik zie overigens dat ook LinkedIn gebruik maakt van deze functionaliteit, zowel voor persoonsgegevens maar ook voor events.

Terugkomend op je vraag aan het eind van je artikel (welke consequenties heeft dit alles voor SEO?)kan ik nu voor wat betreft Microformats en RFD voorzichtig concluderen dat Google via deze extra informatie nauwkeuriger geinformeerd kan worden over de betekenis van een aantal elementen op de webpagina's. Omdat het aantal class-names waar nu afspraken over bestaan nog beperkt lijken (een totaal-overzicht van classes kan ik trouwens niet vinden, heb jij die?), zal de impact nog niet groot kunnen zijn voor SEO. Maar omdat ik -naar ik begrijp mét jou- verwacht dat we aan het begin van een belangrijke ontwikkeling zitten, lijkt het me zinvol die wel goed bij te houden.

Voor webontwikkelaars is die ontwikkeling in de eerste plaats van belang, omdat webapplicaties via de voorgedefinieerde formaten nu informatie aan elkaar kunnen uitwisselen (zoals tussen mijn contactpagina en outlook). Dat is natuurlijk zeer interessant. Als het aantal algemeen geaccepteerde classnames toeneemt wordt het ook voor SEO interessanter. Je kan dus nog specifieker gaan aangeven waar de pagina inhoudelijk over gaat. Ik kan me voorstellen dat webpagina's waarbij dat goed is uitgevoerd voorrang gaan krijgen boven gelijkwaardige pagina's waarbij dat niet (goed) is uitgevoerd.

Ik kan me verder voorstellen dat Google deze ontwikkeling gaat stimuleren. Ik lees dat Yahoo al wat verder is, maar Google ook al op twee punten RFD promoot:
1. t.b.v. het kunnen construeren van 'rijkere'snippets (http://googlewebmastercentral.blogspot.com/2009/05/introducing-rich-snippets.html)
2. t.b.v. image search
(http://googlewebmastercentral.blogspot.com/2009/08/specifying-images-license-using-rdfa.html)

Tot slot weer een wedervraag: ik krijg de indruk dat jij een voorkeur hebt voor RFD boven microformats. Klopt dat? En waarom?; 24 augustus 2009 om 16:20
Ieniemienie zei: Dag Alain,
Een voorkeur zou ik het niet noemen, op zich zijn microformats webgebaseerde gegevensformaten om metadata toe te voegen aan webpagina's. Deze gebruiken hiervoor bestaande klassen en attributen, gebruikt in html en/of xhtml. Microformats voegen semantiek toe.
Een typisch voorbeeld is de vCard, zoals je aanhaalt in je voorbeeld met de link tussen outlook en je contactpagina.

RDF (Resource Description Framework) is een standaard model voor data uitwisseling op het web. Deze geeft de mogelijkheid om data samen te voegen. RDF is eigenlijk een uitbreiding van de link structuur waar het web mee aan elkaar hangt. Op zich zouden microformats niets betekenen als het RDF model deze niet kan interpreteren. Meer nog, de specifieke betekenis van de links interpreteren.

Het RDF model kan de betekenis van de relatie tussen informatie interpreteren. Op deze manier kan je dus erg specifiek gaan werken, data op een zeer gestructureerde manier gaan benoemen.

Hier komen dan de microformats weer, die semantiek, of een specifieke betekenis kunnen geven aan informatie.

Het is allemaal erg abstract, maar zoals je opmerkt, het zou in functie van SEO interessant zijn. De overvloed aan informatie die je nu aangeboden krijgt in je search resultaten zullen uiteindelijk meer specifiek zijn naar een zoekopdracht, net omdat je meer gerichte informatie en betekenis zal meegeven, die door software, systemen, .... begrepen kunnen worden.

Als laatste een totaal andere vraag om deze discussie even 360 graden te wijzigen. Zal SEO meer een aangelegenheid worden voor mensen met een technische achtergrond en zal de marketeer die er vandaag de mond van vol heeft uiteindelijk stilletjes gaan verdwijnen? Wat denk je?; 31 augustus 2009 om 00:16
Pieter Goyens zei: Christophe, alvast bedankt voor de verduidelijking van het concept "semantisch web" met zijn bouwstenen. Er zijn reeds tal van goede voorbeelden van (business) cases voor het semantische web, maar ik denk dat het nog te vroeg is om hierin te investeren.

Ondanks dat Yahoo! en nakomer Google hiermee onder de motorkap al bezig zijn vind ik de technologie nog te complex en te jong om door iedereen begrepen te worden. Misschien moeten we nog meer duidelijker maken: “Why the future of the web, the semantic web is”. Want daar ben ik wel van overtuigd. Zoekmachines zijn/worden vindmachines.

Jouw vraag: Zal SEO meer een aangelegenheid worden voor mensen met een technische achtergrond en zal de marketeer die er vandaag de mond van vol heeft uiteindelijk stilletjes gaan verdwijnen? Wat denk je?

Helaas ligt SEO vaak nog niet op de bovenste plank en ik heb de indruk dat men de term SEO wel kent, maar het nog geen onderdeel is van de strategie. Zowel marketeers als technische mensen moeten creatief bezig zijn met oplossingen voor SEO vragen. Ook in de toekomst.; 2 februari 2010 om 16:02
Ieniemienie zei: quota: "de technologie nog te complex en te jong om door iedereen begrepen te worden". Van hier mijn vraag, zal dit in de toekomst meer voor techneuten worden :).

Anderzijds, op http://www.seobook.com/archives/000657.shtml vind je een sterk vereenvoudigd artikel omtrent LSO (Latent Semantic Optimization). Persoonlijk stel ik me erg veel vragen omtrent hetgeen hierin geschreven staat, je kan nu eenmaal niet alles vereenvoudigen tot op dummie niveau, als je het mij vraagt :). Een meer interessante benadering kan je vinden op http://www.latentsemanticoptimization.com/.

Je kan het ook anders bekijken, er bestaat namelijk software die van een tekst automatisch samenvattingen kan genereren. Dus is het mogelijk algoritmen te ontwikkelen die betekenis van data kunnen interpreteren. Dit heeft echter niets meer met SEO te maken.

Denk je echt dat zoekmachines hier ver in staan?
Zou het op termijn niet mogelijk zijn dit wel te verwezenlijken?
Wil Google ons misschien blijven wijsmaken dat er iets bestaat als een "duplicate content penalty" misschien, meer hierover in mijn volgende post :)?; 2 februari 2010 om 21:47

SEO blog - SEO tips - search engine optimization

maandag 27 juli 2009