Identifying task-based sessions in search engine query logs (Contributo in atti di convegno)

Type
Label
  • Identifying task-based sessions in search engine query logs (Contributo in atti di convegno) (literal)
Anno
  • 2011-01-01T00:00:00+01:00 (literal)
Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#doi
  • 10.1145/1935826.1935875 (literal)
Alternative label
  • Lucchese C., Orlando S., Perego R., Silvestri F., Tolomei, G. (2011)
    Identifying task-based sessions in search engine query logs
    in Fourth ACM International Conference on Web Search and Data Mining, Hong Kong, China, 10-12 Febbraio 2011
    (literal)
Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#autori
  • Lucchese C., Orlando S., Perego R., Silvestri F., Tolomei, G. (literal)
Pagina inizio
  • 277 (literal)
Pagina fine
  • 286 (literal)
Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#altreInformazioni
  • ID Modulo Commessa ICT.P09.006.001 - 074 - Tecnologie avanzate, Sistemi e Servizi per Grid ; Area di valutazione 01 - Scienze matematiche e informatiche. Lucchese, Claudio ; Orlando, Salvatore ; Perego, Raffaele ; Silvestri, Fabrizio ; Tolomei, Gabriele (literal)
Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#url
  • http://portal.acm.org/citation.cfm?doid=1935826.1935875 (literal)
Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#titoloVolume
  • WSDM '11 Proceedings of the fourth ACM international conference on Web search and data mining (literal)
Note
  • PuMa (literal)
  • Scopu (literal)
Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#affiliazioni
  • CNR-ISTI, Pisa, Italy ; Department of Computer Science, University of Venice, Italy (literal)
Titolo
  • Identifying task-based sessions in search engine query logs (literal)
Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#isbn
  • 978-1-4503-0493-1 (literal)
Abstract
  • La sfida di ricerca affrontata in questo lavoro è quella di fornire tecniche efficaci per la scoperta di sessioni di ricerca \"task-based\", ovvero di insiemi di queries, eventualmente non contigue, sottomesse dagli utenti di un Web Search Engine al fine di eseguire una certa attività (task). Per poter valutare e confrontare approcci diversi, abbiamo costruito, attraverso un processo di annotazione manuale, una ground-truth in cui sono state raggruppate in tasks le queries di uno specifico query log. L'analisi di questa ground-truth ha mostrato che gli utenti hanno la tendenza ad eseguire più di un task \"contemporaneamente\", dato che circa il 75% delle queries fanno parte di sessioni di ricerca multi-tasking. Abbiamo definito formalmente Task-based Session Discovery Problem (TSDP) la cui soluzione consiste nel trovare la strategia di partizionamento che approssima in modo migliore i tasks identificati manualmente nella ground-truth. A questo proposito, abbiamo analizzato alcune varianti di noti algoritmi di clustering, così come un'innovativa euristica specificamente proposta per risolvere il TSDP. Inotre, questi algoritmi sfruttano la conoscenza collaborativa resa disponibile da Wiktionary e Wikipedia al fine di accomunare coppie di queries dissimili dal punto di vista del contenuto lessicale, ma \"semanticamente\" correlate. Gli algoritmi proposti sono stati valutati sulla base della ground-truth, mostrando comportamenti spesso migliori degli approcci disponibili allo stato dell'arte, poiché effettivamente in grado di gestire il comportamento multi-tasking degli utenti. (literal)
  • The research challenge addressed in this paper is to devise effective techniques for identifying task-based sessions, i.e. sets of possibly non contiguous queries issued by the user of a Web Search Engine for carrying out a given task. In order to evaluate and compare different approaches, we built, by means of a manual labeling process, a ground-truth where the queries of a given query log have been grouped in tasks. Our analysis of this ground-truth shows that users tend to perform more than one task at the same time, since about 75% of the submitted queries involve a multi-tasking activity. We formally define the Task-based Session Discovery Problem (TSDP) as the problem of best approximating the manually annotated tasks, and we propose several variants of well known clustering algorithms, as well as a novel efficient heuristic algorithm, specifically tuned for solving the TSDP. These algorithms also exploit the collaborative knowledge collected by Wiktionary and Wikipedia for detecting query pairs that are not similar from a lexical content point of view, but actually semantically related. The proposed algorithms have been evaluated on the above ground-truth, and are shown to perform better than state-of-the-art approaches, because they effectively take into account the multi-tasking behavior of users. (literal)
Editore
Prodotto di
Autore CNR
Insieme di parole chiave

Incoming links:


Autore CNR di
Prodotto
Editore di
Insieme di parole chiave di
data.CNR.it