%Aigaion2 BibTeX export from Idiap Publications %Thursday 21 November 2024 11:57:16 AM @TECHREPORT{vinciarelli:rr06-31, author = {Vinciarelli, Alessandro}, projects = {Idiap}, title = {Indexation de Documents Manuscrits}, type = {Idiap-RR}, number = {Idiap-RR-31-2006}, year = {2006}, institution = {IDIAP}, note = {Published in Proceedings du Colloque International Francophone sur l'Ecrit et le Document (CIFED06,',','), article invit{\'{e}}}, abstract = {Les syst{\`{e}}mes de reconnaissance automatique de l'{\'{e}}criture permettent de transfomer des collections de documents manuscrits en archives de documents num{\'{e}}riques. L'avantage n'est pas tellement la r{\'{e}}duction de l'espace n{\'{e}}c{\'{e}}ssaire pour stoquer les donn{\'{e}}es, mais plut{\^{o}}t la possibilit{\'{e}} d'appliquer les technologies de gestion du contenu normalement utilis{\'{e}}es pour des textes num{\'{e}}riques tels que pages web et e-mails. Le probl{\`{e}}me principal dans une telle d{\'{e}}marche est que les transcriptions sont g{\'{e}}n{\'{e}}ralement bruit{\'{e}}es, c'est-{\`{a}}-dire qu'elles sont caracteris{\'{e}}es par un taux d'erreur qui peut atteindre, d{\'{e}}pendemment des cas, les 50 pour cent. Cet article montre que cela ne constitue pas un probl{\`{e}}me majeur dans deux cas importants: Information Retrieval et Text Categorization. Une comparaison des r{\'{e}}sultats obtenus avec les m{\^{e}}mes technologies d'indexation sur les transcriptions manuelles (sans erreur) et automatiques (environ 40\\% de Term Error Rate) des m{\^{e}}mes documents montre en effet que l'impact sur la performance de l'application finale est n{\'{e}}gligeable.}, pdf = {https://publications.idiap.ch/attachments/reports/2006/vinciarelli-idiap-rr-06-31.pdf}, postscript = {ftp://ftp.idiap.ch/pub/reports/2006/vinciarelli-idiap-rr-06-31.ps.gz}, ipdmembership={vision}, }