Logo

ORC

Définition

ORC (Optimized Row Columnar) est un format de fichier hautement efficace pour le stockage de données en colonnes, optimisé pour les opérations de lecture intensive dans les environnements Big Data.

Fonction Principale

Permet un stockage compact et des performances élevées lors de l'analyse de grandes quantités de données, en particulier avec des systèmes comme Apache Hadoop et Apache Hive.

Caractéristiques

  • Stockage efficace des données en colonnes.
  • Compression élevée pour réduire l'espace de stockage.
  • Indexation pour accélérer les opérations de lecture.
  • Compatibilité avec les systèmes de traitement de données distribués.

En Pratique

Exemple d'utilisation du format ORC pour stocker des données dans Hadoop :

1. Convertissez vos données au format ORC pour bénéficier de la compression et de l'indexation.

2. Chargez les fichiers ORC dans Hadoop Distributed File System (HDFS).

3. Utilisez Apache Hive ou Apache Spark pour interroger les données de manière efficace.

Logo