EPML 50 : Corpus d'interaction langagière

Animateurs : Anne Lacheret, Daniel Luzzati

réunion du 3 février 2005 :


9.45-10.15 Anne Lacheret & Daniel Luzatti rappel des objectifs de l’EPML50

10.15-11 Lorenza Mondada Présentation du corpus d’étude aux partenaires

11.-11.45 15 Laurent Romary, Mathieu Quignard Utilisation/évolution des directives de la TEI pour la transcription de l’oral

11.45-12.30 Serge Heiden, Michel Jacobson, Emmanuel Schang Proposition d’un mode de fonctionnement pour l’établissement de recommandations de codage et de catalogage au sein de la communauté de l’oral

12.30-14 Déjeuner

14.15-15 Jean-Jacques Girardot Interrogation en langue naturelle de corpus XML

15-15.45 Philippe Martin Plate forme PRAAT-WinPitch

15.45-16.30 Olivier Baude Point sur les questions juridiques

16.30-17.15 Anne Lacheret, Sébastien Monnier DIACOFA : base de données sur les corpus de dialogue francophones accessibles, état d’un chantier

17.15-17.45 Anne Lacheret, Daniel Luzzati Bilan& perspectives

 


Compte-rendu (DL à partir des notes de PB, MQ & ES)

 

Daniel Luzzati & Anne Lacheret : Introduction

-       l’EPML regroupe différentes actions : écoles d’été, BD, corpus prototypique

-       cette journée s’inscrit dans ce cadre : les interventions correspondent peu ou prou aux 5 groupes de travail envisagés, et 2 au moins sont le produit d’un travail collaboratif (aspects juridiques + catalogage/codage)

-       pour la BD corpus, voir l’intervention d’AL & SM

-       pour les écoles d’été, 1 a eu lieu et 2 sont en préparation, organisées ou co-organisées par AL

-       notre pb aujourd’hui est de voir les données proposées par LM et de décider de ce que l’on en fait et de comment on fait

 

Lorenza Mondada & Lukas Balthasar : Présentation du corpus R*ICAR

-       caractérisation des données : naturelles, interactives, en contexte, données non provoquées par chercheurs, francophones natifs

-       caractérisation du dispositif d’enregistrement : dîner filmé, multiscope, 1 caméra cuisine + 2 caméras salle à manger, présence mais non omniprésence du micro ; enregistrement direct sur disque dur (autonomie technique) ; audio analysable + PRAAT (44KHz, 16 bits, fond sonore OK)

-       la situation choisie (1 copain invite 2 autres personnes qu'il connaît mais qui ne se connaissent pas) est « possible » à la différence de situations commerciales comme salon de coiffure ; le passage retenu (qq mn sur 4h d’enregistrement + interruption) l’est en partie pour des raisons de qualité de son

-       garanties juridiques : enregistrement effectué avec l'accord préalable des participants ; autorisations signées par tous ; anonymisation à effectuer par bipage sur piste son

Discussion

-       DL : prendre ces données et développer des outils sur ces données; + travailler sur les données

-       AL : à partir de ce corpus il faut dégager des directions de travail : étude des pauses, tests avec des outils existants, pourquoi ce corpus plutôt qu’un autre…

-       LM : l'idée du salon de coiffure a été abandonnée parce que les autorisations et les conditions de travail (bruit, etc.) ont posé trop de problèmes ; l'avantage du corpus proposé est qu'il a été conçu pour pouvoir circuler

-       CP : qu'est-ce que « posséder » un corpus ? à Lyon, on dispose de 600 heures d'enregistrement à mettre à disposition sous forme de CD ; mettre à disposition de qui et quand ? le corpus peut exister, être répertorié, mais être mis à disposition de tous partout n'est pas l'objectif

-       DL : notre problème est de voir, de faire émerger, à partir du corpus prototypique quels sont les problèmes qui se posent ; il ne s'agit pas de dire qu'on va mettre n’importe quoi à disposition de n’importe qui ; la question est : est-ce que ceux qui vont travailler dessus sont satisfaits du travail fait sur le corpus prototypique ?

-       MJ : il y a tout à faire : codage, catalogage, bref, c’est intéressant

-       SH : l'effort pour nous porte sur l'échange

-       LR : la ressource est riche, on peut déjà échanger ; on a un niveau primaire (le corpus), vont s'ajouter différents niveaux de transcription

-       PM : un corpus est réalisé dans un objectif, les outils dépendent de l'objectif

-       DB : nos outils d'analyse syntaxique ne sont pas faits pour l'oral retranscrit ; des expériences sont menées ; nous sommes au début de ce travail ; élaborer une analyse syntaxique automatique qui pourrait prendre en compte des pauses, des caractéristiques prosodiques est un projet intéressant

 

Laurent Romary & Matthieu Quignard : Utilisation/évolution des directives de la TEI pour la transcription de l’oral

-       présentation de la TEI : état, chantiers, avenir (description du « header » et du « corps »)

-       la P5 repose sur un langage de spécification simple à manipuler pour faire des extensions à un module particulier

-       mettre en place un groupe de travail qui synthétise les besoins et qui travaille à l'élaboration de vraies recommandations : un groupe de travail dans le cadre de l’EPML qui travaille à regarder ce qui manque dans la TEI et élaborer une extension

-       répertorier les bons phénomènes et faire les choix d’annotation qui correspondent

Discussion

-       LR tout récemment nommé à l’IST du CNRS évoque la possibilité des postes + budgets nécessaires à la constitution d’un « centre de compétences », d’une « « unité de service » qui s'appuierait sur des besoins

-       AL : comment une « unité de service » se situerait par rapport à l'ILF ?

-       OB : quel financement aurait ce « centre de compétences » ? qu’est-ce qu’un « centre de compétences » ?

-       LR : jusqu’à présent, il y eu des réticences car il n'y a pas eu de garanties ; il faut proposer un dossier fondé sur un projet, qui s’appuie sur les domaines et les communautés concernés ; cela nécessiterait notamment des postes ITA ; pour avoir des moyens, il faut qu’il y ait un intérêt pour une communauté plus large que les membres dudit « pôle de compétence »

-       DL : comment monter de front un projet qui concerne aussi bien la réalisation de nouveaux corpus (qqch comme un BNC public pour le français) et la dimension patrimoniale de nombreux corpus existants

-       LR : la mission de conservation fait aussi partie de ce que doit faire le CNRS

 

Serge Heiden, M. Jacobson & Emmanuel Schang : codage/catalogage au sein de la communauté de l’oral

-       la question abordée est le codage et le catalogage pour l’échange entre partenaires de l’EPML 50

-       7 documents sont envisagés : grille des champs scientifiques et des notions / base de références biblio pour délim les champs / glossaire termino info/linguistique / conventions de codage => formats / grille de traitements (outils, interfaces, moyens d’actions) / recommandations de catalogage / classement des descripteurs

-       pour faire face à la variabilité des usages, il faut aboutir à un codage optionnel, partiel, à granularité variable, à un contrôle qualité, à des choix de l’unité de corpus et à des liens transcription/enregistrement (via liste de diffusion et site WWW auto édité avec contacts par champ)

-       pour mutualiser personnes/tâches/équipements/compétences, il est nécessaire de créer une « unité de service » qui constitue un « centre de compétences », avec une taille critique suffisante

-       nécessité, avantages et limites de la normalisation

Discussion

La discussion tourne à nouveau autour de la proposition e LR qui trouve (c’est le moins qu’on puisse dire) un large écho dans cette intervention : tout comme il apparaît nécessaire de normaliser pour communiquer, conserver, exploiter…, il est nécessaire de centraliser les ressources humaines et techniques, de favoriser la diffusion d’une pratique “homogène”, d’avoir un unique interlocuteur pour l’international comme pour d’autres partenaires (BNF, INA ?). Pour LR, il faudrait élaborer un dossier-projet en 2 semaines…

 

Jean-Jacques Girardot & Xavier Tannier : Interrogation en langue naturelle de corpus XML

-       interroger des corpus en LN pose pb car les corpus sont hétérogènes (finalités, transcr., degré de finesse…), les requêtes sont contraintes sur un petit nombre d’objets de discours, il faudrait connaître XQuery (concepts et DTD), il faudrait pourvoir traduire les DTD par des ontologies, et on finit par générer 10x la taille du corpus

-       but du travail de XT = construire une base conceptuelle (apprt 100 notions), une BD relationnelle, un dico des objets, une table des corpus et une table des occurrences (position de l’objet dans un corpus)

-       un moteur en C produit requêtes SQL ; si ambiguïté => feed-back à l’utilisateur lui demandant de parenthéser sa requête ou de reformuler

-       système IDS : itératif par requêtes emboîtées ; les requêtes portent pour l’essentiel sur des relations structurelles (≠ sens)

Discussion

-       MQ : que se passe-t-il lorsque la question est ininterprétable ?  => l'utilisateur est sollicité

-       AL : quel est le champ d’application ?

-       CP : IDS est le système que nous utilisons à ICAR ; il procède par cumul, mais il n'y a pas de requête en langue naturelle comme celui de JJG

-       LB : c'est intéressant d'avoir un outil qui sert à tout le monde

 

Philippe Martin : Plate forme PRAAT-WinPitch

-       mise en perspective des principaux outils : Praat, WinPitch, WaveSurfer, Transcriber et de leurs fonctionnalités à partir du signal (intensité, courbes mélodiques, spectrogrammes…)

-       l’alignement texte/parole souvent fondé sur des HMM configurés sur de l’écrit fonctionne bien sur radio, TV, discours écrit lu mais pas de base suffisante pour configurer sur l’oral spontané/interactif

-       Transcriber excellent mais sert à transcrire slmt et on ne peut segmenter des chevauchements sur une seule piste, une wish-list en attente…

-       PRAAT :un fichier son + un fichier Txt (format TextGrid non XML) ; plusieurs tires de transcriptions ; possibilité de positionner des marqueurs (points)

-       WPP (Projet IST C-oral-Rom http://lablita.dit.unifi.it/coralrom) permet (96 tires) l’alignement de l’oral multilingue, repérage des chevauchements, entrer la transcription et le signal pour travailler l’alignement, intégration de la vidéo… ; entrées sorties + PRAAT, XML, Transcriber, Excel…

-       WPP (http://www.winpitch.com) ne fonctionne que sur Windows, alors que PRAAT accepte aussi Linux et Mac ; seul WPP intègre aujourd’hui la vidéo

Discussion

-       MQ : sur quelles plateformes tournent ces logiciels ? WinPitch tourne sur Windows uniquement

-       DL : le fait est que l’usage des transcriptions + vidéo avec nécessité de n tires peut faire de WPP un outil particulièrement performant, à condition sans doute qu’une communauté prenne progressivement en charge par ex ces pb de traitement/stylisation de l’image

 

Olivier Baude : Aspects juridiques

-       cadre de travail commun  DGLFLF/EPML/CLAPI => ministère recherche + EN + culture

-       groupe composé d’institutionnels (BNF, INA, Archives), juristes (CNRS-CECOJI), chercheurs…

-       2 questions essentielles : propriété des données (droit moral/patrimonial) pour le dépositaire/prêteur et protection de la vie privée (des participants)

-       démarche en 4 étapes (partir des pratiques + synthèse juridique + proposer des recommandations + édicter des normes/règles) en vue de la rédaction d’un guide des bonnes pratiques (en cours de diffusion par ICAR)

-       les objectifs sont d’avoir une démarche juridique et éthique, de faire évoluer le droit, d’interpeller les institutions, de trouver des réponses au sein de la communauté des chercheurs

-       le statut juridique du corpus dépend fortement de ses conditions d’élaboration : protégé par le droit d’auteur s’il résulte d’une activité créative ; assimilable à une base de données ; régi par le droit patrimonial d’autorisation et d’interdiction de communiquer et reproduire…

-       auteur/responsable = personnes physiques sous le nom desquelles le corpus est diffusé vs l’investisseur (celui qui prend les risques), comme pour les BD ; il doit être loyal (consentement, rien de caché, finalité explicite), non excessif (pas d’infos inutiles) et exact (mise à jour) ; les données doivent être anonymisées (élimination d’infos comme noms, adresses, tél…) sans aller jusqu’à la dépersonnalisation (voix, intonations…) ; les BD doivent être séparées (complète/anonymisée)

-       journée d’étude le 17 mai pour réagir sur le guide et interpeller les institutions

Discussion :

-       OB : faire attention à un consentement « en toute connaissance de cause », pas nécessairement écrit, mais qui avertisse des finalités, effet d’un refus… Bref : chaque situation a son propre formulaire (un formulaire type est forcément menteur), et il ne faut pas diffuser le formulaire mais plutôt un document méta expliquant la démarche

-       AL : risques à prendre identifiés => cela permet d’avancer

-       LM : la dimension éthique est prise en compte (et pas seulement la dimension juridique) : c’est une dimension structurante de ce travail (cf corpus R*ICAR)

 

Anne Lacheret & Sébastien Monnier : BDCOIFA (http://www.unicaen.fr/corpus/)

-       objectif = inciter les détenteurs de corpus à être mentionnés, pointer vers des corpus exploitables, proposer des lieux d’hébergements

-       fonctionnement : BD interactive (l’utilisateur peut corriger les informations de la base), recherche multicritères (par site/par disponibilité/par mots clés…) à partir de fiches, forum

-       COIFA = « corpus d’interactions francophone accessible » => pb de limiter au domaine francophone, de limiter à l’oral interactif / spontané, aux seuls chercheurs + droits…

-       le forum auquel il faut s’inscrire peut servir aux développement de la journée (dossier « pôle de compétence » + exploitation de R*ICAR)

 

Daniel Luzzati & Anne Lacheret : Conclusion

-       le chemin parcouru est conséquent, entre les écoles « corpus », la BDCOIFA, les groupes de travail sur les aspects juridiques, le codage/catalogage, et maintenant R*ICAR qui nous est servi… même si le financement EPML risque de se tarir, il faut en trouver un autre et poursuivre : nous constituons bien une communauté qui travaille ensemble et qui avance

-       on ne sait pas ce qu’il adviendra de la structure EPML, mais il est certain que le RTP perdure : il conviendra éventuellement de faire émerger une nouvelle structure

-       le concept de « centre de compétence », déjà présent dans l’intervention de SH, MJ & ES prend une dimension toute particulière avec LR : à nous de réagir ; les compétences sont là (autour de la table) : LR poussera, mais il faut prendre cela en main, poser les pb, réunir large et faire des propositions

-       il faut maintenant poursuivre (commencer ?) le travail sur R*ICAR (transcriptions, utilisation des outils, catalogage/codage), le but étant non d’aboutir à une absence de pb mais de les faire émerger (on peut mettre cela en valeur dans un colloque/livre) et, éventuellement, d’aboutir à un traitement (recueil, représentation, stockage, consultation, exploitation…) de corpus oraux interactifs stables