Plenary speakers

Ana Frankenberg-Garcia

Raising teachers’ awareness to corpora

Ana Frankenberg-Garcia
Instituto Superior de Línguas e Administração, Lisboa - Portugal


Abstract

Keywords : corpora, data-driven learning, user behaviour, teacher training, consciousness-raising

The last decade and a half has seen a dramatic increase in corpus availability and a steady growth in the number of supporters of the use of corpora in language teaching. The very fact that TaLC is at its seventh edition only confirms that the applied use of corpora in the language classroom is here to stay. Yet surveys such as those by Tribble (2001) and Mukherjee (2004) suggest that there is still a long way to go before corpora can be understood and used by language teachers in general. This paper examines some of the problems inexperienced corpus users encounter on their first hands-on contact with corpora and proposes a task-based, consciousness-raising approach to help teachers (who are not corpus linguists) understand the basics of corpora.

With a limited number of language teachers using corpora, it comes as no surprise that there do not seem to be any studies of this kind of user behaviour. Some of the difficulties novice corpus users encounter are however described in Bernardini (2000), Kennedy and Miceli (2001), Frankenberg-Garcia (2005) and Santos & Frankenberg-Garcia (submitted 2005). Although these studies differ quite substantially among themselves, they all converge to suggest that corpus skills which come as second nature to experts are not obvious at all to the untrained. Apart from corpus-specific difficulties in handling different search interfaces and CQLs – and the human-computer interaction issue should not be overlooked – these studies bring to light a number of very basic problems that novice users encounter no matter which corpus they use.

Findings such as the above suggest that language teachers who are new to corpora may find it difficult to grasp that corpora do not work in the same way as the familiar language learning resources – such as dictionaries, grammar books and text books – that they are accustomed to using. I therefore propose a series of consciousness-raising exercises aimed at helping language teachers gauge different types of corpora and discern which ones are best suited to their purposes, develop basic corpus-searching strategies, and get used to interpreting corpus data. The exercises are task-based and, unlike most corpus tutorials available, they are not corpus-specific. The overall idea is not to train corpus linguists, but simply to encourage teachers to become more confident about using corpora in the classroom.


References

Georges Antoniadis

Des machines pour enseigner les langues

Georges Antoniadis
Laboratoire LIDILEM, Université Stendhal de Grenoble, France
Georges.Antoniadis@u-grenoble3.fr


Abstract

Si Thorndike imaginait déjà en 1912 l’apport et l’utilisation des livres manuels mécanisés, le chemin fut long avant que les premiers logiciels d’enseignement des langues ne voient le jour dans les années 70. Ils se consolident dans les années 80 et l’ALAO (Apprentissage des Langues Assisté par Ordinateur) se constitue en tant que domaine. Le développement de la micro-informatique dans les années 80 fut déterminant pour la démocratisation de ces logiciels qui sont proposés et utilisés à tout niveau d’enseignement.
Le plus souvent, ces machines à enseigner des langues, produits informatiques, ont une approche réductrice de la langue qui se limite à une séquence de caractères dépourvue de toute sémantique. Cette approche ne permet pas de considérer bon nombre de facettes de la langue et peut entraîner des apprentissages erronés.
Le premier but de cet exposé est de présenter l’impossibilité pour l’informatique de rendre compte des caractéristiques de la langue et la nécessité de considérer et utiliser les procédures du traitement automatique de la langue (TAL). Cette approche, qui voit le jour dans les années 80, permet de corriger bon nombre d’imperfections des logiciels de l’ALAO.
Le second but de cet exposé est de présenter la problématique de l’intégration du TAL à l’ALAO. Les travaux menés actuellement concernent aussi bien l’évaluation de la plus value pédagogique de l’apport du TAL que l’architecture des systèmes, l’intégration et l’exploitation de corpus ou l’indexation pédagogique des ressources. Nous présenterons quelques systèmes existants et nous illustrerons l’intégration du TAL à l’ALAO à l’aide de la plateforme MIRTO, développé à l’université Stendhal de Grenoble


Bibliographie



Antoinette Renouf

WebCorp Linguist’s Search Engine – the next order of magnitude

Antoinette Renouf
University of Central England, Birmingham


Abstract

Le Web a le potentiel unique parmi des corpus de rapporter des données de large volume sur l'utilisation à jour de langue, malgré imperfections évidentes. Depuis 1998, nous avions développé un outil, WebCorp, pour permettre à des linguistes de corpus de rechercher le rendement linguistique cru et analysé du web. Basé sur des épreuves et la rétroaction d'utilisateur internes a glané de notre emplacement (http://www.webcorp.org.uk/), nous ont établi un système fonctionnant qui soutient des milliers d'utilisateurs réguliers dans le monde entier. Plusieurs des problèmes associés à la nature des textes du web ont été résolus, mais des problèmes demeurent, certains dus à l'non-exécution des normes sur l'Internet, et d'autres de la dépendence des moteurs de recherche commerciaux, quelle médiation ralentit le réponse moyen de WebCorp et place donc des contraintes sur la recherche linguistique.

Pour améliorer les performances de WebCorp, nous sommes en train de créer un moteur de recherche fait à mesure. Ceci sera intégré avec une gamme des outils pour l’analyse langue-analyse et de rendement-formatage pour créer une ressource qui s'améliore de manière significative sur la situation courante de recherches en termes d'exécution et rentabilité. C'est-à-dire, ce sera un Search Engine régulier, mais il linguistique-sera travaillé des manières suivantes : premièrement, des sous-ensembles visés de l'enchaînement seront téléchargés ; deuxièmement, les données seront disponibles en tant qu'une série de textes et lignes de contexte, mais seront également transformées en bases de données linguistiques secondaires contenant l'information telle que de nouveaux mots et modèles typiques de mot ; et troisièmement, les résultats de recherche seront offerts dans une gamme des formats familiers specifiable par le linguiste, qui rendent l'étude et la publication plus commodes.

Cet article décrira l'exécution améliorée du WebCorp qui sera rendu possible par l'integration dans le système des nouvelles connaissances linguistiques, ainsi par le plus grand stockage et traitement fournis par l'installation du nouveau moteur de recherche.)



Bibliography

Mike Scott

Key Words and Key Sections

M. Scott
University of Liverpool


Abstract

This presentation explores the distribution of keywords (KWs) in text. Although Scott & Tribble (2006) explain the notion of KWs and some of their characteristics in texts, the notion is still fairly new and much remains to be done to pin down the elusive quality of keyness.

In particular, we shall be looking at the relationship between KWs and the section of the text in which they are found. A starting point is Katz (1996) who identifies “bursts” – of certain terms in text and Scott (2000) takes this further to distinguish between global and local KWs, but the present paper tries systematically to relate these to the text divisions as identified in BNC and other corpus texts. Thus in terms of scope discussed in Scott & Tribble (2006) we shall be operating both at the “whole text” level and at the “section” level. The aim is to identify any linkage between the two in terms of key lexis and to evaluate the implication of findings for KW theory and the nature of text.

The presentation will be illustrated using WordSmith Tools and outputs from that software suite.

  • Katz, Slava, 1996, Distribution of Common Words and Phrases in Text and Language Modelling, Natural Language Engineering 2 (1), 15-59.
  • Scott, M. 2000, Reverberations of an Echo, in B. Lewandowska-Tomaszczyk & P.J. Melia (eds.) PALC'99: Practical Applications in Language Corpora. Lodz Studies in Language, Volume 1. Frankfurt: Peter Lang., pp. 49-68.
  • Scott, M. & Tribble, C., 2006, Textual Patterns: keyword and corpus analysis in language education, Amsterdam: Benjamins.
Bio-data Mike Scott, publications at http://www.lexically.net/publications/publications.htm, has been a teacher of English as a Foreign Language and of ESP for more years than he wishes to remember, since 1990 at the University of Liverpool and before that at universities and language schools in Brazil and Mexico.

He is the author of WordSmith Tools (http://www.lexically.net/wordsmith). His latest book (written with Chris Tribble) is Textual Patterns: keyword and corpus analysis in language education.