RDFa, overbrugging tussen mens en web.

Bij het schrijven van dit artikel merkte ik snel dat ik nooit alle informatie in 1 post zou kunnen verwerken. Gezien de technische materie zullen sommigen onder jullie snel verveeld geraken. Anderzijds, ik zou persoonlijk ook nooit alles lezen in 1 keer :-).

Daarom heb ik beslist deze post op te splitsen in 2 delen. Hopelijk vind je deze interessant. Straks zal ik je vertellen waar het vervolg over zal handelen.

Deze post is trouwens een meer gedetailleerde technische omschrijving over een eerder gepubliceerd artikel op deze blog, namelijk "het semantisch web, evolueer jij mee?".

Overbrugging tussen mens web.
Het web vandaag is een rijke verzameling van informatie, via hyperlinks verbonden met elkaar. Ook al beginnen we gebruik te maken van data, verstaanbaar voor machines, toch worden deze typisch onderverdeeld in afzonderlijke files met al te vaak verschillende formaten.

Browsers zijn nog erg beperkt hierin, deze zien enkel representatieve informatie. Het gebruik van RDFa kan hier oplossingen bieden.

Wat is eigenlijk RDFa?
RDFa biedt ons een set van xHTML attributen om extra informatie aan visuele data toe te kennen, zodat deze ook beter en meer accuraat door machines zal geïnterpreteerd worden. In deze post gaan we enkele eenvoudige datasets eens meer in detail bekijken.

Geef meer betekenis aan visuele data!
Neem een eenvoudige xHTML pagina, deze is vaak opgebouwd uit een hoofdtitel, subtitel(s), tekst in cursief en enkele tekstblokken, beter gekend als paragrafen. Deze kunnen gevolgd worden door enkele links (tags).
Een browser kan deze data correct weergeven zonder problemen. Toch is er een groot verschil tussen hoe programma’s en mensen deze data kunnen interpreteren.

Links is wat de browser ziet, rechts is wat een gebruiker ziet? Zou het niet interessant zijn om deze kloof wat meer te overbruggen?

Hoofd van het document is de titel.
De subtitel is de auteur.
Tekst in cursief is de publicatie datum.

We kunnen een browser informatie geven over de betekenis van visuele elementen op een pagina. Enkele voorbeelden kunnen zijn:

Een concert op de website van de AB kan je onmiddellijk toevoegen aan je online kalender.
Contact informatie van personen (linkedin) kan je rechtstreeks importeren in je adres boek.
Snel oproepen van eerder gelezen artikels en deze onderverdelen in categorieën, aan de hand van tags.
Een foto die je kopieert op het internet en deze plaatst op jou blog geeft een link terug naar de fotograaf zodat deze zijn vermelding krijgt.

RDFa laat dit toe bij xHTML. Wij kunnen data meegeven in de opmaak van onze pagina die ervoor zorgt dat programma’s deze beter kunnen interpreteren.

Geef betekenis aan je data!
We nemen een typische blog als voorbeeld. Hier kan je een mix terugvinden van artikels, van persoonlijke interesses tot professionele activiteiten etc.. .

Voeg een licentie toe aan je werk.
In de footer van je blog zou je kunnen plaatsen dat je de content vrij overgenomen mag worden, mits de vermelding van je naam (bronvermelding). We kunnen een ‘Creative Commons License’ toevoegen.

Een mens verstaat deze tekst, een browser niet. Hier kunnen we nu wat extra gaan toevoegen zodat we dit ook verstaanbaar kunnen maken voor een programma.
We kunnen gebruik maken van het ‘rel’ attribuut, deze definieert de relatie tussen de huidige pagina en de pagina waar we naar linken. De waarde van het attribuut is ‘license’.

Deze kleine toevoeging zorgt ervoor dat een andere bezoeker zijn browser nu verstaat dat het gekoppelde document verwijst naar "de licentie".

Add some flavor :) aan link die verwijst naar de pagina met "the license". We kunnen deze voorstellen als nodes, met “license” als label.
Informatie over de titel en auteur.
Allemaal goed en wel, maar wat met de titel en auteur van de blog post. We kunnen het bovenstaande verder uitbreiden. We gaan effectieve betekenis meegeven aan ons artikel zodat een browser ook begrijpt dat we werken met een titel, een ondertitel en deze kan interpreteren.

Om aan te tonen dat “h2” staat voor de titel van de pagina en “h3” voor de auteur, moeten we gebruik maken van “@property”, een attribuut geïntroduceerd door RDFa, deze heeft specifiek als bedoeling extra informatie mee te geven in een xHTML pagina.

Waarom maken we gebruik van dc:creator en dc:title? xHTML heeft geen gereserveerde termen voor deze concepten. Je zou kunnen proberen van “property=”title”’ toe te voegen in je de tag, maar waar staat deze voor? Hoe moet een browser of een andere machine dit interpreteren? Verwijst dit naar een titel van een tekst, een aanspreektitel, …. ? En wanneer iedere blogger een eigen term zou gebruiken die staat voor de title (taalgebonden etc), hoe moet het dan allemaal geïnterpreteerd worden.

Om een lange discussie af te sluiten. RDFa verstaat niet property=”title”. Om deze extra informatie ook effectief betekenis te geven moeten we de concepten voor "creator" en "title" importeren. Gelukkig voor ons bestaat er the Dublin Core [DC] community, zij hebben reeds een vocabulaire (vocabulary) om deze nuttige concepten voor het beschrijven van elementen ontwikkeld. Een overzicht van deze elementen kan je terugvinden op hun website.

Dus, hoe gaan we te werk?
We importeren "the Dublin Core vocabulary" met xmlns:dc=http://purl.org/dc/elements/1.1/, hier ook de associatie met de prefix "dc:", we gebruiken "dc:title" en "dc:creator", dit is de shorthand voor de volledige url http://purl.org/dc/elements/1.1/creator, en http://purl.org/dc/elements/1.1/title.

Dit gezegd zijnde over RDFa.
RDF (Resource Description Framework), is de abstracte data representatie zoals je kan zien op de bovenstaande afbeelding. Elke pijl is voorgesteld als het driedelige onderwerp-predicaat-object (subject-predicate-object).

Het onderwerp is voorgesteld aan de eerst node, waar de pijl start. Het predicaat is de pijl zelf en het object is de node aan het einde van de pijl. Deze schematische voorstelling wordt ook wel een "RDF dataset" of "RDF graph" genoemd. Deze zijn opgeslagen in een “triple store”.

De bedoeling van RDF is het aanbieden van een universele taal voor het uitdrukken van data, een betekenis geven kan je wel zeggen. Wanneer je alle data, beter gezegd pagina’s gaat linken aan elkaar met al deze extra informatie toegevoegd is het mogelijk om heel wat informatie extra ter beschikking te stellen aan de gebruiker.

Gebruik makend van SPARQL (RDF query language) kunnen allerlei verbanden geplaatst worden. Bv, een gebruiker kan verder zoeken naar gerelateerde data, op zoek gaan naar vrienden (FOAF, zal uitgelegd worden in een volgende post), zoeken naar gerelateerde onderwerpen, etc .

RDF is een abstracte, machine leesbare data representatie bedoeld voor maximum hergebruik van deze vocabulaires. RDFa is een methode om RDF data toe te voegen in je xHTML.