Navegar Holista

Por Andreas Polyméris, Universidad de Concepción, Chile.

JMMorales

La navegación holista es una estrategia de navegación de repositorios, de artículos que han sido indexados mediante etiquetas. Una estrategia que, como veremos, se diferencia de las más usuales. Porque entiende que la navegación es un proceso interactivo, hombre-máquina, que típicamente sólo al final demanda acuatizar y examinar unos pocos artículos. Que para orientarse durante el proceso, en cambio, basta considerar lo que se va plasmando en el firmamento de las etiquetas.

Permítanme introducir un simple formalismo que ayudará a explicar. Sea A el conjunto (finito) de artículos en el repositorio, y sea B el conjunto (finito) de etiquetas que se usan
para indexar este repositorio. Esta indexación, a su vez, está especificada por una relación binaria R sobre A x B. Es decir, si a es un artículo y b es una etiqueta, entonces decimos que el par (a,b) es elemento de R si y sólo si el artículo a está etiquetado con la etiqueta b. Un mismo artículo a puede relacionarse con varias etiquetas ; un subconjunto de B que denotamos por R(a). Así como una misma etiqueta b puede indexar (o indicar) a muchos artículos ; un subconjunto de A que denotamos por R(b). Además conviene extender este último formalismo a subconjuntos:
Si X es un subconjunto de A, denotaremos por R(X) el subconjunto de B, que contiene las etiquetas que indexan cada uno de los artículos en X.
Si Y es un subconjunto de B, denotaremos por R(Y) el subconjunto de A, que contiene los articulos indexados por cada uno de las etiquetas en Y.

En un ejemplo, que sólo aparentemente es de juguete, podría ser que:

  • A = {a1,a2,a3,a4,a5,a6,a7},
  • B = {b1,b2,b3,b4,b5},
  • y que la relación R reuna los pares (a,b) que corresponden a un 1 en la siguiente matriz de incidencia M:
  • M :  b1  b2  b3  b4  b5
  • a1:    1    0     0    0    0
  • a2 :   0    1     0    1    0
  • a3 :   0    0     1    0    0
  • a4 :   1    1     1    0    1
  • a5 :   1    1     0    0    1
  • a6 :   0    1     0    1    0
  • a7 :   0    1     1    1    1

Una temática de este repositorio estructurado es, desde una perspectiva holista , en primer lugar, un subconjunto Y de etiquetas; que, en segundo lugar, conjuntamente indican el subconjunto de artículos X = R(Y), que es el que caracteriza a la temática desde una perspectiva atomista .

En nuestro ejemplo, si Y = {b1,b2}, entonces R(Y) = {a4,a5}, y R(R(Y)) = {b1,b2,b5}.

La navegación holista que estoy tratando de explicar, es un proceso en que la temática activada Y va evolucionando interactivamente. Al inicio no hay ninguna etiqueta activada;
así que Y es un conjunto vació. En las siguientes iteraciones el navegante puede:

  • o bien desactivar una etiqueta activa b –que por lo tanto es elemento de Y–;
  • o bien activar una etiqueta inactiva b –del complemento B-Y de Y–;
  • o bien interrumpir la navegación para examinar los artículos en R(Y).

Esto último será posible porque, una vez que el navegante ingresa la comprensión holista de la temática, la máquina retorna la correspondiente extensión atomista R(Y) de la temática. También retorna el número de artículos |R(Y)| de la temática indicada. Así que si esta cardinalidad es demasiado grande y no permite un examen exhaustivo, el navegante típicamente activará etiquetas adicionales, provocando de esta manera un zoom-in que acote el subconjunto de artículos indicados. Pero también puede suceder que el examen de los artículos resulte desfraudante, y que por lo tanto el navegante proceda a desactivar algunas de la etiquetas de la temática seleccionada; provocando un zoom-out; un volver a levantar vuelo, para volver a surcar el firmamento de etiquetas y sobrevolar el mar de artículos.

TahiaStrika-web

Hasta aquí, las diferencias con lo que ofrecen los navegadores habituales son más bien sutiles. Usualmente se espera que el navegante caracterice la temática de destino, articulando un subconjunto Y de palabras claves; para que entonces la maquina se encargue de indicar los correspondientes artículos indexados. Puede que no se insista en que todos los artículos indicados deban llevar todas las palabras claves ingresadas; que se use una restricción más laxa; tal vez aplicando el criterio estricto sólo a los primeros artículos de la lista retornada. Es que usualmente se prefiere retornar más que menos. Porque sólo se valoran los artículos, el resultado atomista; y porque se confía totalmente en la máquina. Debido a lo cual se minimiza el diálogo hombre-máquina: la interactividad; que es, por otro lado, lo caraterístico de nuestra estrategia holista .

De hecho, puesto que el resultado atomista final es lo buscado ¿por qué entretenerse en una búsqueda holista? Hay varias respuestas a esta pregunta que a mi me convencen. Una muy importante, que sin embargo no voy a desarrollar aquí, rezaría: Para conocer, no sólo el repositorio, sino también las temáticas del mundo que articulan los artículos del repositorio; y que se reflejan en el espacio de etiquetas. Al respecto, ofrezco algunas reflexiones en un Editorial ya algo antiguo. Aquí sólo me voy a hacer cargo de una segunda respuesta que reza: Porque muchas veces no se sabe, de partida, qué es lo que se busca; ya que —parafraseando a Picasso– eso recién queda claro cuando se lo encuentra. En este caso ¿cómo puede ayudar la interactividad ?

En primer lugar, haciendo que en cada iteración del proceso, cuando se haya activado un subconjunto de etiquetas Y, la máquina no sólo retorne la lista de artículos de R(Y), sino además el subconjunto T(Y) de etiquetas inactivas que no se contradicen con Y; donde entendemos que una etiqueta inactiva b se contradice con Y, si R(Y+b) resulta vacío; es decir, si ningún artículo de la temática R(Y) lleva la etiqueta b. Claro: al navegante le interesa T(Y), porque si quiere efectuar un zoom-in , tendrá que activar una etiqueta de T(Y). El resto de las inactivas no le sirven.

En nuestro ejemplo:

  • al inicio, puesto que Y es vacío, R(Y) = A, R(R(Y)) es vacío y T(Y) = B,
  • si Y = {b1}, entonces R(Y) = {a1,a4,a5}, R(R(Y)) = {b1} y T(Y) = {b2,b3,b5},
  • si Y = {b1,b2}, entonces R(Y) = {a4,a5}, R(R(Y)) = {b1,b2,b5}, T(Y) = {b3,b5},
  • si Y = {b1,b2,b5}, entonces R(Y) = {a4,a5}, R(R(Y)) = {b1,b2,b5}, T(Y) = {b3}.
  • si Y = {b1,b2,b3,b5}, entonces R(Y) = {a4}R(R(Y)) = {b1,b2,b3,b5}T(Y) vacío.

Pero el problema es que frecuentemente |T(Y)| resulta demasiado grande para ser desplegado y examinado exhaustivamente. Es por eso que en la variante que nosotros proponemos, esencialmente nos limitamos a sugerir el subconjunto S(Y) de elementos de T(Y), que no son dominados por otros elementos de T(Y); donde entendemos que b es dominado por b’, si el subconjunto de los artículos de R(Y) que llevan la etiqueta b, está estrictamente incluido en el de los que lleva la etiqueta b’. Podemos limitarnos a las etiquetas sugeridas por S(Y), porque siempre se podrá activar una dominada en varias iteraciones: activando primero todas las etiquetas que la dominan .

Note además que entre las así sugeridas S(Y), se encontrarán siempre también todas las etiquetas implicadas por Y; donde entendemos que una etiqueta está implicada,
si todos los artículos de R(Y) la llevan; es decir, si b es elemento de R(R(Y)): el subconjunto de etiquetas, que incluye Y y que completa la caracterización holista de la temática activada por Y. De hecho siempre se dá uno de dos posibles casos: O bien S(Y) es el subconjunto de todas las etiquetas implicadas –caso en que R(R(Y)) es la unión de Y y S(Y)–; o bien R(R(Y)) = Y, y S(Y) no intersecta a R(R(Y)) –caso más interesante en que cualquier activación de una etiqueta de S(Y) lleva a un zoom-in de R(Y).

En nuestro ejemplo, que no es de juguete porque bien podría corresponder a una fase final de una búsqueda,

  • Al inicio S(Y) = {b1,b2,b3}; porque tanto b4 como b5 son dominadas por b2.
  • Luego de la primera iteración, con Y = {b1}S(Y) = {b2,b5}; porque b3 es dominada por b2 y por b5, que no están dominadas.
  • Luego de la segunda iteración, con Y = {b1,b2}S(Y) = {b5}, que está implicada.
  • Luego de la tercera iteración, con Y = {b1,b2,b5}, S(Y) = {b3}, que no está implicada.
  • Y finalmente, luego de la cuarta implicación, con Y = {b1,b2,b3,b5}, S(Y) es vacío.

Falta una última explicación: Para nuestro O-b-s-e-r-W-e-b, y sobre todo por razones de eficiencia computacional, hemos decidido limitar, en cada iteración, la consideración a los cronológicamente más recientes N = 100 artículos de R(Y). Ello (sólo) puede tener como efecto que se sugieran menos etiquetas que las que se hubieran desplegado sin la limitación en cuestión. Pero puesto que este olvido del pasado remoto sólo limita cuando |R(Y)| es muy grande, o sea típicamente al comienzo de un proceso de búsqueda, no nos parece grave. De hecho incluso tiene ciertas virtudes …, de las que hablaremos en otro lugar.

Sin embargo, aún así, reconocemos que aún no hemos sido capaces de ofrecer una gestion totalmente satisfactoria de los S(Y) que el proceso va generando. Pero no hemos perdido el optimismo. Volveremos a la carga con una propuesta incremental que introduce meta-etiquetas; donde, por definición, cada una domina un subconjunto de las etiquetas propiamente tales. Aún hay mucho que hacer.

VadimStrika-web

Las gráficas usadas son de J.M. Morales, Tahía Strika y Vadim Strika, respectivamente.

 

Agregar un comentario

Su dirección de correo no se hará público. Los campos requeridos están marcados *

Time limit is exhausted. Please reload the CAPTCHA.