1887
Volume 51, Issue 2
  • ISSN 0035-3906
  • E-ISSN: 1600-0811
USD
Buy:$35.00 + Taxes

Abstract

This paper presents a survey of the diachronic available online for the study of the Romance languages. In the first place the makeup of each is described, indicating the number of texts and tokens included and the manner of classification of the documents following chronological, typological and diatopic criteria. After having examined the problems involved in lemmatization and morphosyntactic annotation, the paper will look at query options with a view to possible research into lexicon, morphology, syntax and semantics. A short conclusion will consist in the presentation of the MIDIA , published in June 2014, which represents the first tool devised for the study of Italian from a lengthy diachronic perspective (from the earliest texts to the mid-twentieth century).

Loading

Article metrics loading...

/content/journals/10.1075/rro.51.2.01sch
2016-11-14
2024-10-04
Loading full text...

Full text loading...

References

  1. CICA (Corpus Informatitzat del Català Antic) : www.cica.cat/
    [Google Scholar]
  2. CORDE (Corpus Diacrónico del Español) : corpus.rae.es/cordenet.html
    [Google Scholar]
  3. Corpus de l’Español : www.corpusdelespanol.org/
    [Google Scholar]
  4. Corpus do Português : www.corpusdoportugues.org/
    [Google Scholar]
  5. Frantext : www.frantext.fr/
    [Google Scholar]
  6. Corpus OVI dell’Italiano antico : www.ovi.cnr.it/index.php?page=banchedati
    [Google Scholar]
  7. MIDIA (Morfologia dell’Italiano in DIAcronia) : www.corpusmidia.unito.it/
    [Google Scholar]
  8. Barbera, M
    (2013a) : Per una soluzione teorica e storica dei rapporti tra grammatica generativa e linguistica dei corpora, in : Id., Molti occhi sono meglio di uno: saggi di linguistica generale 2008-12. Qu.A.S.A.R., Milano, pp.27–45.
    [Google Scholar]
  9. (2013b) : Linguistica dei corpora, in : Iannaccaro, G . (a cura di): La linguistica italiana all’alba del terzo millennio (1997-2010). Società di linguistica italiana, 58, Bulzoni, Roma, pp.581–598.
    [Google Scholar]
  10. (2013c) : Linguistica dei corpora e linguistica dei corpora italiana. Un’introduzione. Qu.A.S.A.R., Milano.
    [Google Scholar]
  11. (2011) : “Partes Orationis”, “Parts of Speech”, “Tagset” e dintorni. Un prospetto storico-linguistico, in : Borghi, G. & Rizza, A . (a cura di): Anatolistica Indoeuropeistica e Oltre - nelle Memorie dei Seminarî offerti da Onofrio Carruba (Anni 1997-2002), al Medesimo presentate. “Antiqui Aevi grammaticae artis studiorum consensus. Series maior” 1, tomo I, Qu.A.S.A.R., Milano, pp.113–145.
    [Google Scholar]
  12. Barbera, M. & C. Marello
    (2001) : L’annotazione morfosintattica del Padua Corpus: strategie adottate e problemi di acquisizione. Revue Romane, 36, 1, pp.3–20.
    [Google Scholar]
  13. Baroni, M
    (2010) : Corpora di italiano, in : Enciclopedia dell’Italiano, consultabile all’indirizzo webwww.treccani.it/enciclopedia/corpora-di-italiano_%28Enciclopedia-dell%27Italiano%29/
    [Google Scholar]
  14. Beggiato, F. , S. Marinetti & S. Marroni
    (2002) : AMIA (Analizzatore Morfosintattico dell’Italiano Antico). La comunicazione, XIII, pp.149–150.
    [Google Scholar]
  15. Bernardi, R. , A. Bolognesi , C. Seidenari & F. Tamburini
    (2006) : POS tagset design for Italian, in : LREC, Proceedings of the Fifth International Conference on Language Resources and Evaluation , 22-28 maggio, ELRA, Genova, pp.1396–1401.
    [Google Scholar]
  16. Clavería, G. & J. Torruella
    (2011) : La clasificación de los modelos tipológicos en los corpus informatizados, in : Actas del II Congreso Internacional Tradición e Innovación: Nuevas perspectivas para la edición y el estudio de documentos antiguos, organitzat pel Grupo Charta (Corpus hispánico y Americano en la Red : Textos antiguos), a la Université de Neuchâtel, els dies 7–9 de setembre 2011, in stampa.
    [Google Scholar]
  17. D’Achille, P. & Grossmann, M
    . (a cura di) (2016) : Per la storia della formazione delle parole in italiano:un nuovo corpus in rete (MIDIA) e nuove prospettive di studio, Cesati, Firenze 2016.
    [Google Scholar]
  18. Davidse, K. , L. Vandelanotte & H. Cuyckens
    (2010) (a cura di) : Subjectification, intersubjectification and grammaticalization. De Gruyter, Berlin / New York. doi: 10.1515/9783110226102
    https://doi.org/10.1515/9783110226102 [Google Scholar]
  19. Davies, M
    (2009) : Creating useful historical corpora. A comparison of CORDE, the Corpus del Español and the Corpus do Português, in : Enrique-Arias, A . (a cura di) : Diacronía de las lenguas iberorrománicas: nuevas aportaciones desde la lingüística de corpus. Iberoamericana / Vervuert, Frankfurt / Madrid, pp.139–169.
    [Google Scholar]
  20. De Roberto, E
    (2012) : Le costruzioni assolute nella storia dell’Italiano. Loffredo, Napoli.
    [Google Scholar]
  21. Frank, B. & J. Hartmann
    (1997) : Inventaire systématique des premiers documents des langues romanes. Narr, Tübingen.
    [Google Scholar]
  22. Frank, B
    (2010) : Traditions discursives et élaboration écrite des langues romanes au Moyen Âge. Aemilianense, II, pp.13–36.
    [Google Scholar]
  23. Fried, M
    (2009) : Representing contextual factors in language change: Between frames and constructions, in : Bergs, A. & Diewald, G . (a cura di): Contexts and constructions. John Benjamins, Amsterdam, pp.63–83. doi: 10.1075/cal.9.04fri
    https://doi.org/10.1075/cal.9.04fri [Google Scholar]
  24. Heidinger, S. & F. Schäfer
    (2008) : On the French reflexive passive and anticausative. A diachronic view from the par-phrase, in : Fagard, B. , Prevost, S. , Combettes, B. & Bertrand, O . (a cura di), Évolutions en français. Études de linguistique diachronique. Peter Lang, Bern, pp.135–152.
    [Google Scholar]
  25. Hug, M
    (2002) : Désambiguïsation automatique d’homographes verbe/nom, in : Morin, A. et Sébillot, P . (éd.): JADT 2002, 6e Journées internationales d’analyse des données textuelles, vol. 1. IRISA, Rennespp, pp.371–379.
    [Google Scholar]
  26. Iacobini, C. & F. Masini
    (2009) : I verbi sintagmatici dell’italiano fra innovazione e persistenza: il ruolo dei dialetti, in : Cardinaletti, A. e Munaro, N . (a cura di), Italiano, italiani regionali e dialetti. Franco Angeli Editore, Milano, pp.115–136.
    [Google Scholar]
  27. Iacobini, C. , A. De Rosa , G. Schirato
    (2014) : Part-of-Speech tagging strategy for MIDIA: A diachronic corpus of the Italian language, in : Basili, R. , Lenci, A. & Magnini, B . (a cura di): Proceedings of the First Italian Conference on Computational Linguistics (CLiC-it) , 9-10 December. Pisa University Press, Pisa, pp.213–218.
    [Google Scholar]
  28. Kabatek, J. , C.D. Pusch & W. Raible
    (2005) : Romance corpus linguistics and language change – an introduction to the present volume, in : Pusch, C.D. , Kabatek, J. & Raible, W . (a cura di): Romanistische Korpuslinguistik II: Korpora und diachrone Sprachwissenschaft / Romance corpus linguistics II: corpora and diachronic linguistics. Gunter Narr Verlag, Tübingen, pp.1–10.
    [Google Scholar]
  29. Koch, P
    (1993) : Pour une typologie conceptionnelle et mediale des plus anciens documents/monuments des langues romanes», in : Selig, M. , Frank, B. et Hartmann, J . (a cura di): Le passage à l’écrit des langues romanes. Gunter Narr Verlag, Tübingen, pp.39–81.
    [Google Scholar]
  30. Legallois, D
    (2007) : Le connecteur histoire (de) au regard de ses occurrences dans Frantext. Syntaxe et Sémantique, 8, pp.61–74.
    [Google Scholar]
  31. Lenci, A
    (2013) : Linguistica computazionale, in : Iannaccaro, G . (a cura di), La linguistica italiana all’alba del terzo millennio (1997-2010). Società di linguistica italiana, 58, Bulzoni, Roma, pp.917–940.
    [Google Scholar]
  32. Macoveiciuc M. & A. Kilgariff
    (2010) : The RoWaC Corpus and Romanian word sketches, in : Tufiş, D. & Forăscu, C . (eds.): Multilinguality and interoperability in language processing with emphasis on Romanian. Romanian Academy Publishing House, Bucarest, pp.149–166.
    [Google Scholar]
  33. Massanell Messalles, M
    (2009) : Beneficios de los corpus informatizados para la investigación diacrónica: el caso del CICA para la GCA y los auxiliares de perfecto, in : Romero Aguilera, L. y Julià Luna, C . (a cura di) : Tendencias actuales en la investigación diacrónica de la lengua. Actas del VIII Congreso Nacional de la Asociación de Jóvenes Investigacores de Historiografía e Historia de la Lengua Española (AJIHLE), Publicacions i Edicions de la Universitat de Barcelona, Barcelona, pp.147–158.
    [Google Scholar]
  34. Montserrat, S
    (2012) : Continuar + gerundi i seguir + gerundi: un estudi de corpus. eHumanista/IVITRA, 2, pp.148–184.
    [Google Scholar]
  35. Muller, C
    (2009) : Une cartographie des indéfinis free choice du français. Syntaxe et sémantique, 10. pp.65–78. doi: 10.3917/ss.010.0065
    https://doi.org/10.3917/ss.010.0065 [Google Scholar]
  36. Oesterreicher, W
    (2001) : La “recontextualización” de los géneros medievales como tarea hermenéutica, in : Jacob, D. y Kabatek, J . (a cura di): Lengua medieval y tradiciones discursivas en la Península Ibérica. Iberoamericana / Vervuert, Frankfurt / Madrid, pp.199–231.
    [Google Scholar]
  37. Onelli, C. , D. Proietti , C. Seidenari & F. Tamburini
    (2006) : The DiaCORIS Project: A diachronic corpus of written Italian, in : LREC, Proceedings of the Fifth International Conference on Language Resources and Evaluation , 22-28 maggio, ELRA, Genova, pp.1212–1215.
    [Google Scholar]
  38. Passarotti, M
    (2003) : La lemmatizzazione. Cos’è, perché si deve fare, come io credo convenga farla. Griselda (www.griseldaonline.it/informatica/3passarotti.htm).
    [Google Scholar]
  39. Petrucci, L
    (1994) : Il problema delle Origini e i più antichi testi italiani, in : Serianni, L. e Trifone, P . (a cura di.): Storia della lingua italiana III: Le altre lingue, Einaudi, Torino, pp.5–73.
    [Google Scholar]
  40. Pountain, C.J
    (2012) : Valores sociolingüísticos y funcionales de los posesivos en el español peninsular del siglo XVI, in : Montero E . (a cura di): Actas del IX Congreso Internacional de Historia de la Lengua Española (Santiago de Compostela, 14-18 de septiembre de 2009), vol. I. Meubook-Unidigital S. L., Santiago de Compostela, pp.1059–1072.
    [Google Scholar]
  41. Rauber, A.L. & M.M.D. Texeira
    (2013) : A variação semântico-funcional de ‘sendo que’ no português europeu entre os séculos XVI a XX, in : IV Simpósio Mundial de Estudos de Língua Portuguesa, 2013, Goiânia. Anais do IV SIMELP: Ultrapassando fronteiras, unindo culturas. Goiânia : UFG,v. 1. pp.1798–1807.
    [Google Scholar]
  42. Renzi, L
    (1985) : Nuova introduzione alla filologia romanza. Il Mulino, Bologna.
    [Google Scholar]
  43. (2002) : Il progetto Italant e la grammatica del corpus. Verbum, IV / 2, pp.271–294.
    [Google Scholar]
  44. Renzi L. & A. Andreose
    (2009): Manuale di linguistica e filologia romanza. Il Mulino, Bologna.
    [Google Scholar]
  45. Salvi, G. & L. Renzi
    (a cura di) (2010) : Grammatica dell’italiano antico, Il Mulino, Bologna 2010.
    [Google Scholar]
  46. Sánchez, C
    (2009) : Corpus diacrónicos y periodización del español. Cahiers d’études hispaniques médiévales, 32, pp.159–180. doi: 10.3406/cehm.2009.2071
    https://doi.org/10.3406/cehm.2009.2071 [Google Scholar]
  47. Sánchez-Marco, C. , G. Boleda , J.M. Fontana & J. Domingo
    (2010) : Annotation and representation of a diachronic corpus of Spanish, in : LREC, Proceedings of the International Conference on Language Resources and Evaluation , 17-23 May, ELRA, Valletta, pp.2713–2718.
    [Google Scholar]
  48. Selig, M
    (2001) : La tipología de los textos primitivos, in : Jacob, D. y Kabatek, J . (a cura di): Lengua medieval y tradiciones discursivas en la Península Ibérica. Iberoamericana / Vervuert, Frankfurt / Madrid, pp.233–248.
    [Google Scholar]
  49. Sosnowski, R
    (2010) : La deissi spaziale: dal sistema ternario al sistema binario – un cambiamento recente, in : Tempo e memoria nella lingua e nella letteratura italiana. Atti del XVII congresso A.I.P.I. (Ascoli Piceno, 22-26 agosto 2006). Civiltà Italiana, 5, vol. I, Pubblicazioni dell’Associazione Internazionale Professori d’Italiano, pp.143–54.
    [Google Scholar]
  50. Tamburini, F
    (2000) : Annotazione grammaticale e lemmatizzazione di corpora in italiano, in : Rossini Favretti, R . (a cura di): Linguistica e informatica: multimedialità, corpora e percorsi di apprendimento. Bulzoni, Roma, pp.57–73.
    [Google Scholar]
  51. Torruella, J
    (2009) : Los ejes principales en el diseño de un corpus diacrónico: el caso del Cica, in : Cantos, P. & Sánchez, A . (a cura di): A survey on corpus-based research / Panorama de investigaciones basadas en corpus. Asociación Española de Lingüística del Corpus, Murcia, pp.21–36.
    [Google Scholar]
  52. Vázquez, I
    (2013) : Estructuras sintácticas construidas con infinitivo. Semejanzas y diferencias entre español y portugués. Limite, 7, pp.181–215.
    [Google Scholar]
  53. Venturi, G
    (2009) : Rassegna comparativa degli schemi di annotazione morfosintattica per la lingua italiana. Rapporto Tecnico TRIPLE - RTT/1, febbraio 2009, disponibile sul sito TRIPLE alla paginahost.uniroma3.it/laboratori/triple/Risorse_Resources.html
    [Google Scholar]
  54. Voghera, M
    (2014) : Tipi di testo e contesto nei processi di grammaticalizzazione: riflessioni basate su corpora. Comunicazione presentata al Convegno DIA III. Strutture e dinamismo della variazione e del cambiamento , Napoli, 24-27 novembre 2014.
    [Google Scholar]
/content/journals/10.1075/rro.51.2.01sch
Loading
  • Article Type: Research Article
Keyword(s): diachronic corpora; lemmatization; query options and linguistic research; tagging
This is a required field
Please enter a valid email address
Approval was successful
Invalid data
An Error Occurred
Approval was partially successful, following selected items could not be processed due to error