Rétrodigitalisation et recherche textuelle dans le Glossaire des patois de la Suisse romande

 

Introduction / Contexte / Idée du projet

« Le Glossaire des patois de la Suisse romande (GPSR) est, depuis 1899, un acteur essentiel dans la mise en valeur du patrimoine linguistique romand. Etabli à Neuchâtel, il est l’un des quatre Vocabulaires nationaux de la Confédération helvétique. Tout comme ses confrères alémanique, grison et tessinois, il a pour mission de documenter le plus complètement possible les patois de son domaine linguistique, d’en faire l’analyse lexicologique et de rendre celle-ci accessible au public et au monde scientifique sous la forme d’un dictionnaire dialectal de grande ampleur. »[1]

La constitution du corpus du Glossaire a nécessité un quart de siècle et est formé d’environ 3 millions de fiches manuscrites. Ce fond documentaire est à la base de la rédaction des articles du Glossaire, qui compte à fin 2017 plus de 7000 pages rédigées, représentant plus de 30’000 articles. La rédaction du Glossaire a démarré en 1924 avec la lettre A-. Début 2018, la rédaction des articles de la lettre G- est sur le point de s’achever…

Le GPSR a initié en 2014 le projet Rétrodigitalisation du GPSR : « […] grâce au soutien financier de l’Académie suisse des sciences humaines et sociales (ASSH), ce projet a pour objectif de créer une version rétrodigitalisée du Glossaire des patois de la Suisse romande (GPSR) qui puisse être publiée sur Internet et ainsi être accessible à un vaste public. »[2]

La HEG-Arc et le GPSR sont des partenaires de longues dates puisque la première collaboration a démarrée en 1998.

 

________________________________

[1] Glossaire des patois de la Suisse romande [en ligne]. [Consulté le 10.01.2018]. Disponible à l’adresse : http://www.unine.ch/gpsr

[2] Rétrodigitalisation du GPSR [en ligne]. [Consulté le 10.01.2018]. Disponible à l’adresse : https://www.unine.ch/islc/home/recherche/glossaire-des-patois-de-la-suiss/retrodigitalisation-du-gpsr.html

 

 

Objectifs

L’IDO a été mandatée par le GPSR pour réaliser la mise en ligne de l’intégralité du Glossaire déjà rédigé et d’y permettre d’effectuer des recherches « plein-texte ».

L’accessibilité tant à un large public qu’au monde scientifique est primordial pour mettre en valeur ce patrimoine linguistique de la Suisse romande.

La rétrodigitalisation est assurée par l’Université de Trèves (All.) et se traduit par la mise à disposition du Glossaire au format XML. A partir de là, il nous incombe d’une part de reconstituer les articles pour permettre leur affichage dans un navigateur web et d’autre part d’indexer ces articles pour permettre des recherches de type « plein-texte ».

 

Le GPSR utilise un système de retranscription phonétique très riche, se traduisant par un ensemble de règles typographiques spécifiques. La typographie est porteuse d’informations linguistiques !

Le système phonétique du Glossaire s’appuie sur de nombreux accents standards (définis dans Unicode) mais également spécifiques, qui a nécessité la création de plusieurs polices de caractères qui leur sont propres.

Par conséquent, deux contraintes sont à prendre comptes :

  • La recherche textuelle doit pouvoir s’affranchir de la casse des caractères mais également des nombreux accents exploités.
  • Il est fondamental de garantir la restitution visuelle (règles typographiques) des articles rétrodigitalisés.

La création des polices de caractères a été réalisée par l’ANRT, Atelier National de Recherche Typographique de Nancy (Fr.).

 

Partenaires

 

Résultats

  • Reconstitution d’un corpus de  >30’000 articles avec respect des règles typographiques.
  • Indexation des articles et développement des services de recherche textuelle à l’aide d’Oracle Text et Oracle Apex.

 

Recherche rapide

Destinée au grand public, la recherche rapide est une recherche « traditionnelle » par mots-clés. Les résultats sont les articles du Glossaire contenant les mots-clés, avec mise en contexte et surbrillance de ces mots-clés. L’affichage de l’article dans son intégralité contient aussi les mots-clés en surbrillance mais aussi une navigation entre ces mots trouvés.

 

Recherche personnalisée

Plutôt destinée au monde scientifique (rédacteurs), cette recherche permet entre autre l’utilisation d’opérateurs logiques (AND, OR, NOT) et la recherche de proximité.

Valorisation

  • Pour le monde scientifique : Accès au patrimoine linguistique, mais aussi historique et folklorique de la Suisse romande
  • Pour IDO : Consolidation des compétences en gestion des données semi-structurées, indexation et recherche full-text avec Oracle Text; acquisition de connaissances linguistiques et lexicographiques.

 

Chef de projet

Prof. Fabrice Camus

+41 32 930 20 95

Email: fabrice.camus@he-arc.ch


Liens utiles

https://www.unine.ch/gpsr