572f5cfcf65101bfc64dbe62ab37556f.ppt
- Количество слайдов: 28
Introduction à l’utilisation des corpus 2. Comment constituer un corpus?
Questions abordées 2. Comment constituer un corpus ? Comment trouver des textes ? Ou et comment trouver des ressources (glossaires, dictionnaires, corpus parallèles) ? Comment exploiter au mieux les fonctionnalités des moteurs de recherche? Comment choisir quel texte inclure ou pas dans le corpus ? Sous quelle forme faut-il le stocker pour qu’il soit facilement utilisable ? (rappel : formats de fichiers)
Rappel : quel type de corpus ? On va constituer un mini corpus Électronique Bilingue comparable (quelles langues? ) D’originaux (éviter les auteurs locuteurs non-natifs) Synchronique Annoté? Ou bien forme de textes bruts? Ouvert : constamment enrichi De spécialité. Domaines/sous-domaines couverts ? Exemples : Le volcans de boue Le circuit de l’eau dans les sols Les montagnes
Où trouver des textes? 1/ Science Direct (www. collins. co. uk/corpus/Corpus. Search. aspx) • ¼ de la littérature scientifique, médicale et technique en ligne • plus de 2. 000 journaux, centaines de livres, manuels • accès uniquement sur le campus • droits d’auteur ; -) 2/ PLOS (Public Library of Science) : http: //www. plos. org/ 3/ Liens « périodiques et littérature grise » de Mme Geneviève Bordet. E. x. http: //docinsa-lyon. fr/sapristi/trouver-20. php http: //www. inria. fr/rrrt/index. fr. html
Où trouver des textes? 4/ www. sudoc. abes. fr (recherche de thèses) 5/ ENT de l’université Paris Diderot : - HAL - GEOBASE 6/ Recherche sur Internet
Recherche documentaire sur Internet Comment choisir ? Internet n’est pas une grande bibliothèque. Tout n’est pas crédible. Avant d’inclure un texte récupéré sur Internet vérifier : • la date de mise ajour du site • qui est l’auteur de la page ? • le texte a été écrit par un locuteur natif? • quelle institution cautionne le contenu? Cette information devra, en partie, être incluse dans la source bibliographique de chaque texte inclus dans le corpus !!!
Google : comment l’utiliser au mieux ? Comment cibler au mieux les résultats formuler résultats plus pertinents • http: //sindarin. upf. es/bt/english/index. ht m • Google Hacks - 100 Industrial. Strength Tips & Tricks Tara Calishain, Rael Dornfest, O’Reilly
Google : syntaxe de base pomme de terre (AND implicite) « pomme de terre » Paris OR London hôtel (Paris OR London) Bush -George –president Bush BUSH bush écri* ? ? ? « trois * raisons » caractère joker glossary OR vocabulary OR lexicon ~glossary
Google : syntaxes spéciales Opérateurs google intitle: inurl: intext: inanchor: site: Et plein d’autres!!! link: filetype: related: define: L’ordre des termes de la requête et la répétition peuvent affecter les résultats.
Autres questions • Que faire si une page n’existe plus? • vérifier si elle existe encore en cache (retrouve une page que Google a indexée) • www. webarchive. org • Où trouver des glossaires et corpus parallèles? • http: //www. multilingual. ch
Un dernier Google hack Chercher sur Google le terme hydracefallus et limiter les résultats aux fichiers de type. pdf.
Comment stocker les textes ?
Parenthèse : formats des fichiers Moyen d’encoder de l’information afin de la stocker sur l’ordinateur. IMAGES uniquement : . jpg, . png, etc Formats de fichiers ‘documents’ sans aucun formatage : . txt : uniquement des caractères textuels ordinaires formatés : . doc : formats propriétaires Microsoft . rtf : formats propriétaires Microsoft : Lisible, inter-opérable . odt (Open. Office Text Doc) : logiciel libre sources disponibles . html, . xml : langages à balises EXTENSIONS . pdf : format propriétaire de Adobe Systems, même si ouvert préserve polices, images, graphiques et la mise en forme
Démonstration : comparaison entre les documents de type . txt, . doc, . html, . rtf, . odt (Observer la taille des documents)
A lire : Formats de fichiers (documentation de l’équipe système de l’UFR EILA) : www. eila. univ-paris-diderot. fr/sysadmin/gestion-docs/formats
Fichiers texte /vs/ binaires • Fichiers texte : contenu pouvant être interprété comme du texte. Suite de caractères d’un ensemble donné. – en codage ASCII ou une extension de ASCII (UTF-8, UTF-16 ou extension régionale). Exemples : fichiers. XML ; . txt • Le contenu d'un fichier binaire n'est pas du texte et correspond souvent à un format précis. – fichier exécutable ; – fichier de base de données structuré en enregistrements de taille fixe ou variable ; – document de traitement de texte ; – fichiers multimédias : images, sons, vidéos.
Encodage des caractères • associations entre caractères et un ‘code’ afin de faciliter le stockage et le transfert des fichiers. • Exemples d’encodage : – Le code Morse • Le code ASCII • ISO-8859 -1 • UNICODE
Encodage des caractères • associations entre caractères et un ‘code’ afin de faciliter le stockage et le transfert des fichiers. • Exemples d’encodage : – Le code Morse
Encodage de caractères I – US-ASCII (1967): American Standard Code of Information Interchange – Lettres (alphabète anglais), numéraux, ponct – 7 bits (128 codes) 98 signes définis – Ex : • A : 065, B : 066, C : 067 • a : 097, b : 098, c : 099, etc. – Très limité extensions.
Encodage des caractères II • ISO 8859 (1987) : International Standards Organization • étend US-ASCII en ajoutant les caractères accentués – 8 bits (256 codes) 191 signes définis • ISO 8859 -1 : Europe le l’Ouest – – – 8859 -2 : Latin 2, Europe de l’Est 8859 -3 : Latin 3, Europe du Sud Est 8859 -4 : Latin 4, Scandinavie, Baltique 8859 -5 : cyrillique 8859 -6 : arabe, 8859 -7 : grec, etc
Encodage des caractères III – Approche systématique : UNICODE (norme UNICODE d’encodage) : tous les systèmes d’écriture (100. 000 caractères) permet le mélange de langues – Permet l’encodage de toutes langues vivantes et mortes • UTF-8 (8 -bit UCS/Unicode Transformation Format) UTF-8 un format d’encodage pour UNICODE • UTF-16
Formats des fichiers : comment stocker le corpus ? CORPUS_PRENOM_NOM ANGLAIS SOURCES BAUM_1996. pdf ALLEMAND FRANCAIS Référence biblio dans la BD Termino !!!!! TEXTES BAUM_1996. txt
Comment citer la source ? • Quels champs indiquer pour chaque type de document ? (Jab. Ref) : • Article : Auteur|Auteur et al. (2008). Titre. Revue, Vol, No. , pages • Site web : Titre, (Auteur|institution), Url (localisation), date de consultation. • Livre : Auteur|Auteur et al. (2008). Titre. Maison d’édition (collection)
Comment citer la source ? • Thèse de doctorat : Auteur. (2008). Titre. Ecole. (directeur de recherche) • Actes de colloque : Auteur(2008). Tire. Conférence (Date, Lieu), pages ou adresse URL.
Parenthèse : formats des fichiers • Démonstration : comment stocker les fichiers constituant son corpus ?
Que faire avec les fichiers PDF ? • Portable Document Format • créé par Adobe Systems • préserve la mise en forme (polices, images, objets graphiques…) quelles que soient l'application et la plateforme • PDF est un format ouvert (Adobe Systems autorise des programmes tiers à réutiliser son format), mais se réserve la propriété de nombreux brevets déposés et donc le droit de demander des redevances. • les spécifications sont publiques et utilisables librement et gratuitement (à l'exception de quelques très importantes sociétés commerciales).
Que faire avec les fichiers PDF ? • Si aucun autre format n’est pas disponible (vérifier, écrire des mails, etc !!): • Utiliser les logiciels OCR. Exemple : Omnipage ! Démonstration. • Utiliser la version démo de Acrobat 8 Professional (30 jours seulement!). Démo. • Vérifier l’intégrité du texte scanné (surtout lorsqu’il s’agit de texte en colonnes, avec images).
Quel format pour le stockage ? Créer un répertoire CORPUS_NOM_PRENOM Créer les sous-répertoires ANGLAIS & FRANCAIS (non pas FRANÇAIS) Stocker dans les deux des articles convertis en format . txt, avec l’encodage UFT-8 Nom du fichier : le nom de l’auteur + - + année de publication + UTILISEZ NOTEPAD PLUTÔT QUE a, b, c (optionnel, si plusieurs articles de la même année) + WORDPAD POURQUOI ? ? ? . txt Ex : DUPONT_2006. txt