Heavy SNOW : Le flocon de neige est-il adapté à votre environnement ?

Photo de Michael Nixon
4 min lire

La technologie d'entrepôt de données la plus en vogue depuis longtemps est Snowflake.

L'introduction en bourse de la société devrait être l'une des plus importantes introductions en bourse de logiciels jamais réalisées, voire la plus importante. la si ce n'est la plus importante, Snowflake et ses réalisations font l'objet d'une attention particulière. À juste titre. Au cours des cinq dernières années, l'entreprise a insufflé une nouvelle vie au secteur des entrepôts de données et des technologies d'analyse, par ailleurs statique, un domaine qui n'a pas connu d'innovation révolutionnaire depuis la création de l'entreprise. Bill Inmon a introduit le concept d'entrepôt de données il y a plus de 40 ans.

Si le chiffre d'affaires de l'entreprise avant l'introduction en bourse (408 millions de dollars pour les quatre derniers trimestres, selon le document S1) et les prévisions de croissance (133 % pour le premier semestre 2020) se confirment, Snowflake atteindra un chiffre d'affaires annuel d'un milliard de dollars d'ici deux ans. Pour remettre les choses dans leur contexte, il faut savoir qu'aucune des entreprises basées sur Hadoop qui ont été lancées il y a plus de dix ans, à l'époque d'Hadoop (la dernière grande effervescence dans le domaine de l'"analytique"), n'a jamais atteint un milliard de dollars de chiffre d'affaires. De plus, d'ici quelques années, la seule entreprise indépendante de base de données/entrepôt de données susceptible d'être plus importante que Snowflake est Oracle. 

Si vous n'avez pas encore adopté Snowflake et que vous entendez parler de cette société, vous vous demandez peut-être si sa technologie est adaptée à votre environnement de données. 

En tant que fournisseur d'intégration de données et d'applications plateforme , SnapLogic propose des connecteurs prédéfinis pour Snowflake et pour la plupart des bases de données courantes. D'après notre expérience en matière d'intégration, voici quelques macro-facteurs à prendre en compte :

  • Prévoyez-vous de mettre en œuvre une solution d'entrepôt de données sur site ou sur le site cloud? Snowflake est une solution cloud-only, software as a service. Si vous recherchez une solution d'entrepôt de données basée sur cloud, Snowflake peut vous convenir.
  • Avez-vous des politiques d'entreprise contre les environnements multi-locataires ?
    Si ce n'est pas le cas et que vous voulez être sur le site cloud, Snowflake est fait pour vous. Si, par contre, vous avez des politiques d'entreprise contre les environnements multi-tenants, Snowflake offre une solution à locataire unique (Snowflake Virtual Private Snowflake (VPS)).
  • Quelle est la nature, ou le format, des données que vous souhaitez stocker et analyser ?
    Snowflake peut ingérer (charger) et exploiter en mode natif des données semi-structurées telles que JSON et XML, et interroger ces données de manière entièrement relationnelle, tout aussi facilement qu'avec des données structurées. Cette caractéristique, ainsi que la séparation du calcul et du stockage, qui facilite la mise à l'échelle, sont les atouts de ces systèmes. À noter que la taille des données semi-structurées est limitée à 16 Mo. Les magasins de données Parquet, Avro ou ORC peuvent également être chargés dans Snowflake. La taille maximale optimale pour ces types de fichiers est d'environ 1 Go (nous vous encourageons à diviser les fichiers plus volumineux). 

    Les données non structurées telles que les fichiers .pdf, les images et les fichiers audio ne peuvent pas être chargés dans Snowflake. Vous aurez besoin d'un stockage séparé plateforme pour ces types de fichiers. Toutefois, si ces types de fichiers sont convertis ou représentés sous forme de fichiers binaires ou de chaînes de caractères (par exemple, VARCHAR) à des fins d'analyse, ils peuvent être chargés dans Snowflake. Notez que la taille des fichiers binaires est limitée à 8 Mo, tandis que celle des chaînes de caractères est limitée à 16 Mo, sans compression pour les deux.

  • Quelles sont les performances d'écriture ou transactionnelles requises pour votre cas d'utilisation spécifique ?
    Snowflake n'est pas une base de données transactionnelle ou OLTP. Bien que Snowflake puisse être capable de gérer une quantité symbolique de capacités transactionnelles, vous devrez tester Snowflake pour déterminer la limite de votre cas d'utilisation particulier. Pour des besoins d'écriture ou transactionnels exigeants, vous pouvez avoir besoin d'une base de données NoSQL en amont de Snowflake ou d'une base de données OLTP complètement séparée en plus de Snowflake.
  • Avez-vous besoin d'un support de données en continu pour votre entrepôt de données ?
    Snowflake prend en charge les données en continu, avec une latence d'environ 1 minute. Testez Snowflake pour vous assurer que vos exigences en matière de latence peuvent être satisfaites.
  • Avez-vous besoin de capacités d'apprentissage automatique et d'IA ?
    Snowflake n'offre pas nativement de bibliothèque d'apprentissage automatique. La solution ML/AI Snap de SnapLogic peut apporter cette amélioration en complément de Snowflake.
  • Vos équipes chargées des données préfèrent-elles SQL, Python ou Java ?
    SQL est le langage natif d'accès aux données et d'interrogation de l'environnement Snowflake. Python, Java et d'autres langages de script sont pris en charge via des options de connectivité.

Si vous êtes novice en matière de concept et d'expérience Snowflake, voici les macro-questions à considérer pour évaluer si Snowflake, du point de vue de l'architecture, est le bon choix pour votre environnement. Du point de vue de l'entrepôt de données, Snowflake excelle par sa facilité d'utilisation et est capable de réaliser d'excellentes performances, d'où sa popularité. Pour les tables extrêmement volumineuses, ou pour les tables qui ne sont pas naturellement triées par horodatage, vous devrez peut-être recourir à des clés de clustering pour optimiser les performances. 

Pour vos besoins de chargement de données et d'intégration d'applications, SnapLogic est un complément parfait à Snowflake. Essayez SnapLogic gratuitement dès aujourd'hui.

Photo de Michael Nixon
Vice-président de Cloud Data Marketing chez SnapLogic

Nous recrutons !

Découvrez votre prochaine grande opportunité de carrière.