Revision as of 12:10, 26 April 2014

Other languages:

Cerca semàntica

L'objectiu d'aquesta pàgina no és explicar plenament la tecnologia de la cerca semàntica del KDE i cada detall, però ens donarà una breu visió general, alguns exemples, comparteix el que hi ha al darrere i enllaça a informació pertinent al web.

Si esteu interessat amb el 'Nepomuk' o 'Baloo' (la cerca de nova generació en les aplicacions del KDE 4.13): podeu trobar els detalls tècnics a community.kde.org. Llegiu més detalls sobre els canvis per a les aplicacions 4.13.

Una breu explicació

Tal com esmenta el Glossari, la cerca semàntica tracta la classificació, organització i presentació de les dades. No és una aplicació, sinó un component que poden utilitzar els desenvolupadors dins de les aplicacions.

Proveu en el Dolphin

Per exemple, el gestor de fitxers Dolphin fa ús de la cerca. En les aplicacions del KDE, la cerca semàntica de versions anteriors a la 4.13 han d'estar activada a Arranjament del sistema -> Cerca a l'escriptori. La barra d'informació de Dolphin (Control -> Plafons -> Informació, o premeu F11) presenta informació extreta per la cerca sobre el fitxer seleccionat, i us permetrà assignar etiquetes, valoracions i comentaris als fitxers. Aquesta informació és emmagatzemada i catalogada per la cerca. A continuació, podeu cercar metadades utilitzant la barra de navegació de Dolphin. Feu clic a Cerca o premeu Ctrl + F i cerqueu per noms de fitxer o contingut del fitxer.

Funcionalitats

La cerca semàntica del KDE ofereix diverses «capes» de funcionalitat per a les aplicacions. La primera i més simple d'elles és l'etiquetatge manual, valoracions i comentaris, com s'usen en Dolphin. Això us ajudarà a trobar els fitxers més ràpidament, però també suposa molt treball.

Per a facilitar la cerca de fitxers que continguin un cert text, la cerca ofereix una segona funcionalitat: indexar el text dels fitxers. Podeu cercar fitxers introduint algunes paraules que sabeu que hi són, o simplement el seu títol (o una part d'aquest).

La tercera capa és molt més complexa, i el motiu és que la tecnologia subjacent, Nepomuk, ha estat concebuda com un projecte d'investigació de diverses companyies i universitats de la Unió Europea. Aquí trobareu paraules difícils com «escriptori semàntic» i «ontologies». Bàsicament, es tracta de contextos i relacions.

Indexació de fitxers

La cerca no indexa tots els fitxers que hi ha al disc dur. La seva configuració per omissió en la majoria de les distribucions de Linux exclou alguns patrons comuns per als fitxers de còpia de seguretat i directoris de configuració. Ho podeu canviar a Arranjament del sistema -> Cerca a l'escriptori. Afegiu les carpetes a excloure. Si voleu desactivar completament la indexació dels fitxers, només hi heu d'afegir la vostra carpeta d'inici.

En Arranjament del sistema també podeu controlar si la cerca indexarà els fitxers als suports extraïbles com ara unitats USB i CD-ROM. A les aplicacions del KDE 4.13 això no està disponible, els suports extraïbles no s'indexen. En futures versions s'està planificant el reintroduir aquesta funcionalitat.

Exemples

Permetin-me mirar d'explicar què ofereix la cerca semàntica usant dos exemples. Aquestes característiques encara no estan completament disponibles -la base hi és, però els desenvolupadors d'aplicacions necessiten integrar-la a les seves aplicacions-.

Relacions

Diguem que heu rebut una fotografia d'un amic, fa dues setmanes, i l'heu desada en algun lloc al vostre ordinador. Com trobareu ara aquest fitxer? Tret que sapigueu la ubicació, no té bona pinta.

La cerca semàntica té com a objectiu ajudar-vos. Sabeu que aquest fitxer us el va enviar aquest amic, però el vostre ordinador no. La cerca, no obstant, pot recordar aquesta relació. De manera que en cercar el nom de l'amic aparegui la fotografia!

Una altra possible relació és entre una pàgina web de la qual heu copiat text i el document en el qual l'heu enganxat, o dues imatges mostrant el mateix cotxe. Aquestes relacions de vegades poden ser extretes dels propis fitxers (podeu analitzar fotografies i veure qui o què hi apareix) o proporcionades per les aplicacions involucrades (com en l'anterior exemple sobre correu electrònic). Aquesta part de la cerca està encara sota un fort desenvolupament, i necessita integració amb les aplicacions, per la qual cosa pot trigar uns quants anys fins que de debò brilli.

En conjunt, aquesta part de la cerca semàntica tracta de fer cerques intel·ligents. Pensa sobre com Google intenta ser intel·ligent amb les teves cerques: quan cerqueu un hotel i el nom d'una ciutat, mostra sobre els resultats d'un lloc web un mapa que mostra hotels a la ciutat esmentada. Fins i tot pot suggerir-vos un nom millor en el cas que hageu comès un error ortogràfic. Google també mira de posar la informació més apropiada al començament de la llista de resultats, utilitzant complexos càlculs sobre relacions (enllaços) entre pàgines web. La cerca semàntica serà capaç d'oferir aquest tipus de resultats intel·ligents i ordenar-los segons la seva adequació utilitzant la informació sobre relacions.

Contextos

Aquestes relacions no solament poden ajudar-vos a cercar fitxers, sinó que també tenen influència en les aplicacions i en la informació que presenten. Tingueu en compte que aquesta forma d'usar la cerca és més una visió que una realitat! Molts dels components estan en el seu lloc, però no han estat integrats en les aplicacions ni en l'escriptori en el seu conjunt.

Vet aquí un exemple de com el portar la informació contextual al vostre escriptori pot ajudar-vos a treballar de forma més eficient.

Diguem que esteu treballant per acabar algunes notes agafades en una reunió. Sona el telèfon i algú us demana si podeu cercar el full de càlcul amb preus i adaptar-lo a un client. Després d'algunes interrupcions més descobriu que el vostre escriptori està ple de fitxers i finestres...

Estaria bé poder-ho organitzar tot una mica millor, oi?

Entren en joc les «activitats». Aquestes han estat introduïdes en Plasma, i actualment ofereixen diferents «escriptoris». Són similars als escriptoris virtuals, però on el que canvia és l'escriptori en si, no les aplicacions. Conté diferents estris, fons de pantalla i coses així. Per descomptat, des de Plasma 4.3, cada escriptori virtual pot tenir la seva pròpia activitat, amb els dos en sincronia.

Si les aplicacions i l'escriptori estiguessin al tant de les activitats, podríeu crear una activitat per a cadascuna de les tasques en les quals treballeu regularment. Per tant, si normalment canvieu a un full de càlcul amb preus, podeu crear una activitat per a això: posant un estri de Vista de carpeta (o varis) en l'escriptori, afegint una calculadora i un estri de tasques pendents per a seguir la pista del que encara s'ha de canviar. Potser fins i tot un estri de carpetes de correu electrònic mostrant els correus amb preguntes relacionades amb aquest full de càlcul!

Tan aviat com algú faci una pregunta sobre preus, canvieu a aquesta activitat, i ja podeu treballar amb la vostra aplicació de fulls de càlcul. És conscient de la vostra activitat pel que us mostra fulls de càlcul de preus recents, no la recent llista de l'inventari en la qual esteu treballant en una altra activitat! Kopete, l'aplicació de xat, ens mostra als companys que ho saben tot sobre els preus, ja que són les persones amb les quals parleu sempre que treballeu en aquesta activitat.

Quan acabeu, torneu a l'altra activitat i una vegada més totes les aplicacions ajustaran el seu comportament al que estigueu fent.

Els beneficis d'aquesta forma de treball basada en activitats van més enllà del que pugueu esperar al principi. No solament us ajuda a trobar els vostres fitxers i contactes, també a commutar tasques per si mateix. El cervell humà no és molt bo amb tasques múltiples -a la majoria de la gent li porta uns minuts agafar velocitat després de canviar de tasca-. El canvi d'«entorn» ho agilitza, fins i tot si només esteu a la pantalla. Compareu-ho amb l'alegria de fer les maletes per anar-vos-en de vacances!

Per descomptat, l'anterior sobretot serà apropiat per a la gent que treballa amb el seu ordinador en una oficina o a casa. Un jugador o un usuari informal probablement no utilitzaran aquestes activitats.

L'escenari descrit anteriorment ja s'implementa parcialment en les activitats, però encara queda molta feina per fer.

Preguntes més freqüents

El següent s'ha agafat d'un missatge dels fòrums del KDE. Si us plau, sou lliure d'afegir/treure/modificar els detalls, si teniu temps!

Què és l'escriptori semàntic del Nepomuk, i l'indexador de fitxers de l'escriptori Strigi?

Nepomuk i Strigi formen part de les tecnologies del que ofereixen les capacitats de la cerca semàntica al KDE. Ambdós no són utilitzats directament en l'última generació de la cerca semàntica del KDE (detalls), però, els seus successors comparteixen gran part del seu codi i conceptes. La cerca semàntica proporciona una forma d'organitzar, anotar i construir les relacions entre les dades (no només el nom de fitxer i el contingut, sinó per exemple les aplicacions que utilitzen un determinat fitxer, o com és etiquetat aquest fitxer). Una sèrie d'aplicacions i espais de treball del KDE utilitzen aquesta infraestructura bàsica per oferir característiques com ara l'etiquetatge del correu electrònic (KMail) o l'activitat d'arranjament (Plasma).

La indexació de fitxers permet a les aplicacions, com ara Dolphin poder cercar fitxers basant-se en el contingut, el nom, o altres meta-dades (per exemple, etiquetes) associades als fitxers indexats. Com un indexador també pot indexar fitxers sense text, com fitxers PDF, accedint a les meta-dades contingudes en aquests fitxers (autor, informació sobre publicació, etc.) Alguns components del KDE aporten «analitzadors» addicionals per a més tipus de fitxer.

Per què necessitem Akonadi i la cerca semàntica? No fan el mateix?

En resum, Akonadi proporciona una memòria cau de les dades PIM, com els elements de calendari, contactes i correu electrònic, el qual és utilitzat per les aplicacions com el KMail i KOrganizer, així com pel calendari integrat al Plasma. La cerca semàntica es connecta amb Akonadi per a proporcionar la funcionalitat de cerca. El mètode en el que Baloo ofereix la cerca és en realitat determinat per l'aplicació. En el cas de la informació PIM del KDE, s'utilitza Xapian per a proporcionar la indexació i la cerca.

Com puc deshabilitar l'escriptori semàntic?

La indexació de fitxers es pot desactivar mitjançant l'addició de la carpeta d'inici de l'usuari per a la Arranjament del sistema -> Cerca a l'escriptori -> No cerquis en aquestes ubicacions. L'altra funcionalitat forma part de les aplicacions que l'utilitzen i per tant no es poden deshabilitar sense paralitzar aquestes aplicacions. Per exemple, per no tenir cap cerca al KMail haureu d'esborrar el KMail...

En les versions de les aplicacions KDE abans del 4.13, la cerca semàntica tenia components executant-se independentment de les aplicacions. Aquesta funcionalitat es pot deshabilitar desmarcant Activa l'indexador de fitxers Nepomuk a la secció de Cerca a l'escriptori de Arranjament del sistema. Si voleu desactivar totes les característiques semàntiques, desmarqueu Activa l'escriptori semàntic del Nepomuk. Tingueu en compte que això també desactivarà la cerca al Dolphin.

Tingueu en compte que amb l'última opció alguns programes que utilitzen la cerca semàntica per a les meta-dades oferiran una funcionalitat reduïda: Per exemple, el KMail no serà capaç d'etiquetar el correu o les activitats de Plasma no oferiran característiques addicionals com les icones, o informació de dades als programes.

Baloo/Cerca semàntica és mengen el 100% de la CPU! Què faig?

Simplement espereu. Certs fitxers són molt difícils o fins i tot impossibles d'indexar. Ara mateix, això inclou, per exemple, fitxers de text de més de 50 megabytes .Quan la cerca els troba, ho intentarà durant un temps fix. Quan falla , intentarà esbrinar quin fitxer està forçat i desactivarà la seva indexació en el futur. Com els fitxers són indexats per lots d'uns 40, haurà de trobar el fitxer problemàtic indexant aquest grup en parts: primera part/segona part, la indexació de la part problemàtica es partirà una altra vegada, fins que trobi el fitxer .Això pot trigar fins a 30 minuts d'ús pesat de la CPU. Malauradament, mentre que Baloo no comença a indexar un nou lot de 40 fitxers, quan s'executa amb alimentació per bateria, continuarà intentant determinar el fitxer forçat mentre funciona amb la bateria. Aquest comportament s'ha corregit en les aplicacions del KDE 4.13.1 (aturarà la indexació immediatament quan el cable d'alimentació estigui desendollat) i el temps de la cerca per a cada fitxer s'ha reduït a uns 10 minuts. L'equip de la cerca semàntica està treballant en la millora de les eines d'indexació per a manejar fitxers més difícils.

Per què tinc processos nepomukservicestub tot i que he deshabilitat el Nepomuk?

Podria ser un error. Si us plau, presenteu un informe d'error amb una descripció completa del vostre problema i els passos per a reproduir-lo.

La indexació de fitxers PDF i alguns altres tipus de fitxer no funciona.

La indexació de fitxers PDF és un problema conegut i que s'està rastrejant en aquest bug #231936. Si teniu problemes amb altres fitxers, obriu un error, preferiblement afegint un fitxer d'exemple que mostri el problema.

El programa nepomukservicestub es bloqueja a l'inici.

Un gran nombre de solucions per als bloqueigs han estat solucionades per a la versió 4.7.2 de les àrees de treball i aplicacions del KDE. Si en trobeu més, si us plau, envieu informes d'error amb instruccions detallades sobre com reproduir el problema, ja que de vegades els desenvolupadors no són capaços de provocar-los en les seves configuracions de prova.

El procés virtuoso-t es bloqueja en un 100% de la CPU.

Virtuoso-t és un component clau de la infraestructura del Nepomuk i en algunes ocasions les ordres enviades pels altres components acaben prenent massa temps (per tant, mostra l'efecte amb la CPU al 100%). En Sebastian Trüg (el desenvolupador principal del Nepomuk) ha solucionat la majoria d'aquests problemes en la versió 4.7.1 o posteriors.

Virtuoso is no longer used by Semantic Search starting the Applications 4.13 release.

De vegades el Nepomuk consumeix massa memòria RAM.

Molts d'aquests problemes s'han solucionat, en altres casos, però, els desenvolupadors no són capaços de reproduir els problemes correctament. En aquest cas, el proveir-los d'exemples i casos de prova als informes d'error augmenta les possibilitats d'obtenir una solució.

El Nepomuk accedeix massa al disc durant l'inici.

En les versions 4.7 i posteriors aquest problema s'ha reduït gràcies a un mecanisme de limitació implementat en l'indexador de fitxers.

La meva base de dades de Nepomuk s'ha corromput. Com la netejo?

En el cas extrem que la vostra base de dades estigui molt corrupta i tots els altres intents hagin fracassat, podeu eliminar el directori $KDEHOME/share/apps/nepomuk (on $KDEHOME sol ser .kde o .kde4) mentre no s'està executant el Nepomuk. La base de dades s'esborrarà, però també es perdrà la informació existent, com les etiquetes, les puntuacions i els comentaris.

From KDE Applications 4.13 onwards, Semantic Search no longer uses a single, big database, but separate, specialized databases for each type of data. The search databases can be found in $KDEHOME/share/apps/baloo.

Solució de problemes avançada

Compartir i privacitat

Solament vull afegir una cosa més abans d'indicar altres fonts d'informació: intercanvi de les dades de Nepomuk. Seria genial si les vostres marques, puntuacions i comentaris poguessin ser compartits amb els altres quan els envieu els fitxers. No obstant, si heu marcat un contacte amb alguna marca una mica compromesa («avorrit en el llit») i li envieu aquesta informació de contacte personal a un amic en comú és probable que no vulgueu enviar-li també aquesta marca...

Aquest problema s'està considerant i és un tema important d'investigació per part dels investigadors de Nepomuk. De moment, aquestes preocupacions sobre la privadesa, combinades amb reptes tècnics, són el motiu que la informació de Nepomuk sigui privada. Tingueu la seguretat que l'equip de Nepomuk fa tot el possible per respectar la vostra privadesa.

Enllaços externs

The old Search technology:

@@ Line 93: / Line 93: @@
 ;Baloo/Cerca semàntica és mengen el 100% de la CPU! Què faig?
-:Just wait. Certain files are very hard or even impossible to Index. At the moment, this includes for example text files of over 50 megabyte. When Search finds these, it will try for a fixed time. When it fails, it will try to find out what file is broken and disable indexing it in the future. As it indexes files in batches of about 40, it has to find the problematic file by indexing that bunch in parts: first half/second half, index problematic half in pieces again, until the file is found. This can take up to 30 minutes of heavy cpu usage. Unfortunately, while Baloo will not start to index a new batch of 40 files while on battery power, it continues to determine the broken file while on battery. This behaviour has been fixed in in KDE Applications 4.13.1 (it will stop indexing immediately when the power cord is unplugged) and the time the search for each file can take has been reduced to about 10 minutes. The Semantic Search team is working on improving the indexing tools to handle more difficult files.
+:Simplement espereu. Certs fitxers són molt difícils o fins i tot impossibles d'indexar. Ara mateix, això inclou, per exemple, fitxers de text de més de 50 megabytes .Quan la cerca els troba, ho intentarà durant un temps fix. Quan falla , intentarà esbrinar quin fitxer està forçat i desactivarà la seva indexació en el futur. Com els fitxers són indexats per lots d'uns 40, haurà de trobar el fitxer problemàtic indexant aquest grup en parts: primera part/segona part, la indexació de la part problemàtica es partirà una altra vegada, fins que trobi el fitxer .Això pot trigar fins a 30 minuts d'ús pesat de la CPU. Malauradament, mentre que Baloo no comença a indexar un nou lot de 40 fitxers, quan s'executa amb alimentació per bateria, continuarà intentant determinar el fitxer forçat mentre funciona amb la bateria. Aquest comportament s'ha corregit en les aplicacions del KDE 4.13.1 (aturarà la indexació immediatament quan el cable d'alimentació estigui desendollat) i el temps de la cerca per a cada fitxer s'ha reduït a uns 10 minuts. L'equip de la cerca semàntica està treballant en la millora de les eines d'indexació per a manejar fitxers més difícils.
 ;Per què tinc processos nepomukservicestub tot i que he deshabilitat el Nepomuk?