Collection de revues savantes et culturelles

En mars 2024, la collection de la plateforme Érudit contenant des articles provenant de 299 revues savantes et de 43 revues culturelles en sciences humaines et sociales et en arts et lettres du Québec et du Canada.

Informations générales

Ajouté aux Données de la recherche : janvier 2017

Dernière mise à jour : mars 2024

Fréquence de mise à jour : annuellement, en mars

Formats disponibles : PDF, XML EruditArticle, JPG, PNG

Disponibilité des fichiers connexes ? Oui (images, fichiers vidéo et audio)

Disponibilité des métadonnées des documents ? Oui (format XML EruditArticle)

Taille des données : 202 To

Nombre de fichiers : 568 478

Droit d’auteur : les données et toute documentation connexe sont soumises au droit d’auteur. Veuillez consulter le site web du fournisseur de contenu pour plus de détails.

Domaine couvert par les Données : Sciences humaines et sociales

Note

La documentation officielle du schéma XML EruditArticle est disponible sur Documentation officielle d’Érudit

Le schème EruditArticle est disponible sur : http://www.erudit.org/xsd/article/3.1.0/eruditarticle.xsd

Les Données en graphiques

Formats de fichiers disponibles dans l’ensemble « Collection de revues savantes et culturelles ».

Aperçu des Données

L’ensemble de Données « Collection de revues savantes et culturelles » contient des articles qui sont regroupés par numéro puis par revue.

Les sections suivantes décrivent la structure des Données de l’ensemble « Collection de revues savantes et culturelles » et ce que vous trouverez au niveau des revues, des numéros et des articles. Vous trouverez également quelques explications sur le schéma XML EruditArticle ainsi que d’autres informations utiles qui vous aideront à mieux comprendre les données.

La structure des Données

L’ensemble de données « Collection de revues scientifiques et culturelles » a une profondeur de quatre niveaux (en comptant le répertoire des fichiers connexes)

erudit
├── journal directory
│   ├── LOGO
│   ├── PUBLICATIONS.xml
│   ├── THEMES.xml
│   └── issue directory
|       ├── COVERPAGE_HD *
|       ├── COVERPAGE *
|       ├── SUMMARY.xml
|       └── article directory
|           ├── ERUDITXSD300.xml
|           ├── PDF.pdf *
|           ├── INFOIMG.xml *
|           └── assets directory *
|               └── asset files *

Répertoire de la revue

Au premier niveau, vous trouverez un répertoire par revue. Ce répertoire est nommé d’après l’identifiant unique d’une revue chez Erudit (correspond à la valeur de revue@id). Dans ce répertoire, vous trouverez :

PUBLICATIONS.xml : ce fichier XML (aucun schéma disponible) contient la liste de tous les numéros publiés par la revue ainsi que certaines métadonnées de numéro. Les numéros publiés sous un autre nom apparaissent également dans cette liste (lorsque la revue a changé de nom)
THEMES.xml : Ce fichier XML (aucun schéma disponible) contient une liste des numéros thématiques de la revue

Répertoires des numéros

Au deuxième niveau, vous trouverez un répertoire pour chaque numéro d’une revue. Chaque répertoire est nommé en fonction de l’identifiant unique d’un numéro chez Érudit (correspond à la valeur de numero@id). Dans ce répertoire, vous trouverez :

COVERPAGE_HD : si disponible, le fichier de la page de couverture (haute définition)
COVERPAGE : si disponible, le fichier de la page de couverture (basse définition)
SUMMARY.xml : ce fichier XML (aucun schéma disponible) contient les métadonnées utilisées pour construire la table des matières du numéro. La plupart des métadonnées proviennent des fichiers ERUDITARTICLE300.xml (fichier XML des articles)

Répertoires des articles

Au troisième niveau, vous trouverez un répertoire pour chaque article d’un numéro. Chaque répertoire est nommé en fonction de l’identifiant unique d’un article chez Érudit (correspond à la valeur de article@idproprio). Vous trouverez dans ce répertoire :

ERUDITARTICLE300.xml : Ce fichier correspond à l’article en format XML EruditArticle
PDF.pdf : si disponible, vous trouverez également le PDF associé à l’article
INFOIMG.xml : si disponible, vous trouverez un fichier XML (aucun schéma disponible) contenant une liste des fichiers connexes liés à l’article

Répertoire des fichiers connexes

Au quatrième niveau, si disponible, vous trouverez un répertoire contenant les fichiers connexes d’un article (principalement des figures et des tableaux).

Disponibilité des PDF

La grande majorité des articles sur Érudit possèdent un fichier PDF qui leur est associé, bien que ce ne soit pas le cas pour tous les articles en traitement « complet ». Cependant, chaque article en traitement « minimal » devrait en avoir un.

Disponibilité des métadonnées

Tous les articles Érudit sont associés à un fichier XML dans le format EruditArticle.

Traitement minimal versus traitement complet

La chaîne de production d’Érudit est chargée de produire une version numérique des articles fournis par les revues. Ce processus de numérisation consiste à convertir les fichiers DOCX, InDesign, JATS, PDF et autres dans le format XML (selon le schéma EruditArticle).

En fonction de la nature des revues et de certains autres aspects techniques, les articles disponibles sur Érudit sont produits en utilisant l’un de ces deux types de traitement :

« minimal » : metadata + references bibliographiques (pas de texte intégral)
« complet » : minimal + corps du texte structuré (texte intégral)

La principale différence entre ces deux types de traitement concerne le traitement du corps de l’article où, d’une part, la version « complet » comprend le texte intégral entièrement balisé et, d’autre part, la version « minimal » qui ne comprend que les métadonnées du document et ses références bibliographiques.

Pour connaître le type de traitement d’un article, inspectez la valeur de l’attribut article@qualtraitement.

Type de traitement	Fichier	Valeur de l’attribut	Chemin XML
minimal	ERUDITXSD300.xml	minimal	article@qualtraitement=”minimal”
complet	ERUDITXSD300.xml	complet	article@qualtraitement=”complet”

Disponibilité du texte des articles

Le texte de l’article est toujours disponible, que ce soit en traitement « minimal » ou en traitement « complet ». Par contre, sa qualité varie.

Traitement « complet » : le corps de l’article est structuré en XML. Chaque partie du corps est identifiée sémantiquement (section, paragraphe, liste, notes de bas de page, etc.).
Traitement « minimal » : pour le traitement minimal courant (nouveaux numéros), le texte de l’article est extrait du fichier source envoyé par la revue (principalement des fichiers DOCX ou InDesign). Le texte brut de l’article est conservé pour l’indexation et balisé à l’intérieur d’un élément « texte ». Cet élément contient l’attribut @typetexte=”libre”. La valeur « libre », signifie que le texte est non structuré (brut).
- projets d’archives : Tous les projets d’archives sont en traitement « minimal ». La majorité de ces projets sont réalisés à partir de PDF dont le contenu a été obtenu par reconnaissance optique des caractères (« ROC », ou « OCR » en anglais). La qualité du texte brut obtenu par OCRisation et conservé pour l’indexation est moindre. Le contenu OCRisé peut être identifié avec l’attribut @typetexte=”roc”.

Production	Attribut / valeur	Chemin XML
courante	typetexte=”libre”	article.corps@typetexte=”libre”
archive	typetexte=”roc”	article.corps@typetexte=”roc”

Types d’articles

Les articles de l’ensemble de données « Érudit - Collection de revues savantes et culturelles » sont classés selon quatre types d’articles possibles :

article : type réservé aux articles évalués par les pairs
note : type utilisé pour différents types de notes : note de recherche, note critique, note de synthèse, etc.
compterendu : type utilisé pour les comptes rendus
autre : type utilisé lorsque les trois autres types ne conviennent pas.

Le type d’un article est balisé avec l’attribut @typeart

Chemin XML : article@typeart=””

Revues culturelles versus revues savantes

Revues culturelles : suite à un projet de numérisation en collaboration avec le milieu culturel québécois, un certain nombre de revues et magazines culturels ont été ajoutés à la collection d’Érudit.

La principale particularité des revues culturelles, par rapport aux revues savantes, est que, pour ces revues, le type « article » ne se limite pas aux articles évalués par les pairs et qu’il est plutôt utilisé par un large éventail d’articles.

Notez également que ces revues :

Sont toutes produites en traitement « minimal »

N’ont pas de références bibliographiques balisées

La seule façon de savoir si un article appartient à une revue savante ou culturelle est de regarder son identifiant.

L’identifiant des articles de revues culturelles se termine par « ac ».
L’identifiant des articles de revues savantes se termine par tout ce qui est différent de « ac ».

Type de revue	Fichier	Exemple d’ID	Chemin XML
culturelle	ERUDITXSD300.xml	12345ac	article@idproprio= »12345ac »
savante	ERUDITXSD300.xml	1234567ar	article@idproprio= »1234567ar »

Note

L’identifiant d’un article savant se termine généralement par « ar », mais certains articles ne suivent pas cette norme. Tous ces articles appartiennent à des revues savantes.

Quelques particularités

Bien qu’ils soient disponibles dans la base de données Érudit, les articles du fond « Centre for Digital Scholarship », présentent quelques particularités.

Les fichiers XML des articles de ce fond n’ont pas été générés par Érudit et leur qualité peut varier puisqu’aucun contrôle qualité n’a été effectué sur ces derniers.

De plus, une partie importante des articles de ce fond ne sont pas conformes à la nomenclature Érudit pour les identifiants. Cependant, toutes les revues de ce fond sont des revues savantes.

Par ailleurs, les fichiers PDF ne sont actuellement pas disponibles pour une grande partie des articles de ce fond.

Enfin, les fichier XML les plus récents des revues de ce fond ont été produits par Érudit. Pour ces articles, les fichiers PDF sont disponibles et les identifiants des articles suivent la nomenclature d’Érudit.

Références bibliographiques

Si un article contient des références, celles-ci sont disponibles dans le XML, soit dans le texte de l’article (balisé pour l’indexation), soit balisé avec un élément XML.

Pour les revues savantes, si un article contient des références bibliographiques, chacune d’elle est balisée séparément avec l’élément XML refbiblio.

Cependant, les références ne sont pas structurées : Érudit n’identifie que le début et la fin d’une référence.

Enfin, pour les revues culturelles, si un article contient des références, celles-ci se trouvent dans le texte de l’article.

Note

Veuillez noter qu’il existe un petit nombre d’articles scientifiques pour lesquels il n’a pas été possible de baliser les références en raison de problèmes techniques (bien que les références soient disponibles avec le texte de l’article).

FAQ

Que contiennent l’ensemble de Données « Érudit - Collection de revues savantes et culturelles » ?

Les Données « Érudit - Revues scientifiques et culturelles » comprennent les revues publiées sur Érudit, y compris les revues d’archive qui ont cessé de paraître. Dans la liste des revues, ces revues sont celles qui se trouvent à la fois dans les fonds « Érudit » et « Centre for Digital Scholarship » (les revues de ces deux collections sont disponibles par défaut sur le site web d’Érudit).

Qu’est-ce que les fichiers connexes ?

Q : Quels sont les fichiers connexes dans les Données « Érudit - Collection de revues savantes et culturelles » ?

R : les fichiers connexes (traduction, du terme anglais « assets ») sont les fichiers associés à un article. Les Données « Érudit - Collection de revues savantes et culturelles » donnent accès aux images, vidéos et autres fichiers associés aux articles, lorsque disponible.