Genres journalistiques "1840-1860"

Corpus d'entraînement

1 444 blocs de textes de plus de 100 mots collectés à partir d'une sélection aléatoire de 500 exemplaires de presse numérisés par Gallica entre 1840 et 1860. Le corpus comprend quatre titres actifs sur l'ensemble de la période (le Journal des débats, la Presse, le Siècle et le Constitutionnel), deux titres partiellement publiés (le Pays, créé en 1849 et le Courrier français, disparu en 1851), ainsi que titres avec des numérisations parcellaires sur cette période (le Figaro, la Démocratie pacifique, le Corsaire et l'Estafette)

Du fait de la sélection aléatoire les titres les plus tardifs ou les titres avec un volume de publication plus faibles sont moins représentés (par exemple 5 textes pour l'Estafette avec des archives présentes pour la seule année 1852).

Le corpus a été annoté manuellement par blocs de 250 blocs de textes dans un tableur. En raison des imperfections du processus de numérisation, certains blocs de textes ont été subdivisés (s'ils comportaient plusieurs nouvelles différentes). Les textes difficiles à classifier ont été écartés.

Catégorisation

Après application des paramètres le modèle contient 23 "genres" journalistiques. La visualisation ci-dessous décrit les principaux mots associés à chaque genre à l'issue de l'entraînement du modèle.

Les genres suivants correspondent à des objets éditoriaux précis déjà étiquetés dans le dispositif éditorial de la presse quotidienne française. La plupart des genres identifiés se trouvent dans le feuilleton où tournent différentes rubriques spécialisées selon un rythme hebdomadaire. Par comparaison le "haut de page" du journal reste beaucoup plus informe :
  • Débats politiques : retranscription des débats parlementaires ou de discours politiques. La forme est très présente dans la presse du 19e siècle mais commence à décliner pendant la période couverte par le modèle.
  • Débats judiciaires : retranscription d'affaires judiciaires souvent criminelles. La section s'ouvre généralement sous le titre de la juridiction concernée (Assises, etc.)
  • Roman-feuilleton : roman publié en plusieurs épisodes dans le bas de la page du journal (sous le simple titre "feuilleton").
  • Théâtre : feuilleton théâtral publié dans le même emplacement que le roman-feuilleton (sous le titre Revue des théâtres). La forme peut également intégrer la "liste des spectacles", un court récapitulatif quotidien des représentations données dans les salles parisiennes.
  • Critique musicale : feuilleton musical publié dans le même emplacement que le roman-feuilleton ou la critique théâtrale (par exemple sous le titre Revue musicale).
  • Journalisme scientifique : la vulgarisation scientifique se développe significativement au cours de la période sous la forme de feuilletons hebdomadaires ("Revue des sciences").
  • Bourse : chronique boursière quotidienne ou hebdomadaire généralement publiée en vis-à-vis des cours de la bourse sous les titres "Bourse", "Chronique boursière", "Revue de la Bourse de Paris".
  • Cours de la Bourse : cotation des principales entreprises et obligations à la Bourse de Paris.
Certains genres n'ont pas de rubriques dédiées mais sont fréquemment introduits par un paratexte précis qui laisse peu d'ambiguïté sur la nature du texte :
  • Cérémonie : compte-rendu codifié d'une cérémonie politique, religieuse ou mondaine. La forme est assez fréquente dans le cadre d'un régime monarchique ou impérial.
  • Récit de voyage : compte-rendu d'un voyage fréquemment sous forme de lettres en plusieurs livraisons (Lettres d'Allemagne, Lettres d'Italie, etc.)
  • Bibliographie : compte-rendu d'un ouvrage paru. Cette forme est généralement publiée sous la secton "variété" dans le haut du journal. Le compte-rendu peut avoir une portée publicitaire (ce qui en fait une "réclame").
  • Carnet : série de plusieurs listes référençant les décès, les mariages voire certains événements mondains. Le carnet n'a généralement pas de titre générique mais la succession des listes est facilement reconnaissable.
  • Publicité immobilière : vente de biens immobiliers selon une rédaction très codifiée et facilement reconnaissable.
  • Publicité médicale : vente de médicaments, cosmétiques et autres solutions miracles avec une rédaction toujours très codifiée.
  • Publicité : toutes les autres formes de discours publicitaires, généralement agrégés en dernière page (le "mur").
D'autres catégories enfin sont plus diffuses. Elles ont été distingués à partir de récurrences lexicales et/ou pour "aérer" le modèle en découpant des catégories trop vastes ou trop vagues :
  • Vie politique et Institutions politiques : L'actualité politique prédomine dans les premières pages du journal sans avoir de rubrique ou de sous-rubrique dédié en dehors des "débats politiques". Par convention nous avons distingué l'actualité des institutions politiques (nouvelles loi, débat au parlement…) des autres formes d'actualité politique (élections, idées politiques, vie des partis…).
  • Relations internationales : actualité des négociations diplomatiques entre État. Les textes de ce type font fréquemment référence au concert européen entre grandes puissances.
  • Guerre et campagne militaire : conflit armé entre puissances politiques étrangères. La plupart des textes de ce type sont des reformulations de nouvelles déjà publiées : à cette date les journaux ont encore très peu de correspondants étrangers.
  • Événement révolutionnaire : conflit interne ou guerre civile. Les textes de ce thèmes sont, sans surprise, très fréquents avant et pendant le Printemps des peuples.
  • Commerce : analyse de la politique économique ou de la vie des industries. Généralement cela comprend la plupart des formes d'actualités économiques en dehors de la revue de la bourse.

Paramètres

Évaluation

55-65%. Le taux plus faible est en partie attribuable avec l'utilisation d'une approche plus rigoureuse par rapport au modèle de l'entre-deux-guerre avec l'utilisation d'un corpus aléatoire

Corpus applicable

Le modèle a été appliqué à l'ensemble des archives de presse quotidienne nationale numérisées par la BNF sur la période 1840-1860. Le modèle devrait pouvoir être réutilisé approximativement pour tous les corpus de presse quotidienne francophone de la même période.

Au vu de l'évolution de longue durée des genres journalistiques, le modèle fonctionnera normalement mieux sur le premier XIXe siècle que sur la période  postérieure.

Description

Le modèle 1840-1860 appartient à la série des modèles "générationnels" de Numapresse couvrant les genres journalistiques de la presse quotidienne nationale française du début du 19e siècle à la Seconde Guerre Mondiale.

Modèle

Télécharger le modèle au format R

Corpus

Télécharger le corpus d'entraînement

Format original

Modèle SVM enregistré avec R et Tidysupervise (format .rda)

Auteur

Pierre-Carl Langlais

Citer ce document

Pierre-Carl Langlais, “Genres journalistiques "1840-1860",” Generotheque, consulté le 19 avril 2024, http://numapresse.org/generotheque/items/show/4.