#tip 14/20 EULIDIA x DATAIKU — Notebooks containerisés pour une plateforme performante 🙋🏼Question : Comment garantir l'exécution de tous les notebooks Jupyter (Python) d'une plateforme #Dataiku dans des conteneurs ? 📄Contexte : Dans le contexte du suivi de la plateforme Dataiku et de l'optimisation des performances des notebooks, il est impératif que l'intégralité des notebooks Jupyter s'exécute au sein de conteneurs (environnements virtuels qui permettent une exécution rapide et fiable des applications). Cette approche stratégique permet aux notebooks de bénéficier pleinement des performances offertes par un conteneur, évitant ainsi tout ralentissement potentiel de la plateforme voire un incident pouvant entraîner le crash de l'instance Dataiku. Au niveau de l'instance, il est impossible d'empêcher un notebook d'être exécuté directement en local sur l'instance Dataiku. 👩💻Réponse : Afin de répondre à cette exigence, nous avons développé un plugin permettant de dresser une liste complète des notebooks qui ne s'exécutent pas dans des conteneurs. Ce plugin offre également des fonctionnalités avancées, notamment la possibilité de décharger ces notebooks pour libérer de la ressource, ainsi que la capacité de forcer un changement d'environement d'exécution (e.g. local) vers un spécifique (e.g. conteneurisé). Ces fonctionnalités assurent un contrôle précis sur l'environnement d'exécution des notebooks, favorisant ainsi une gestion efficace des ressources et une performance optimale de la plateforme. Et pour en savoir plus, notre équipe de VP : Elisa Charbonnier, VP Sales Pierre-Marie Dumond, VP Sales Benjamin Cohen-Lhyver, PhD , VP Data & CDSO Arnaud Canu, VP Data & CTO
Post de Eulidia
Plus de posts pertinents
-
❄️ Snowflake Notebooks est désormais disponible en public preview ! 🚀 Pourquoi c’est une bonne nouvelle ? 🔹 Véritable plateforme de données tout-en-un : Plus de changements de contexte ! Un environnement unique pour analyser les données, créer des modèles de ML et concevoir des pipelines de données à l'aide de Python, SQL et Markdown. 🔹 Des workflows plus rapides et plus efficaces : Simplifiez vos tâches grâce à l'édition assistée par l'IA, à l'intégration native de Git et aux fonctionnalités de planification transparentes. Consultez l'article de blog pour en savoir plus : https://lnkd.in/e5Rs_NAd #Snowflake #Notebook
Identifiez-vous pour afficher ou ajouter un commentaire
-
-
📣 Data analysts, data scientists : génération native et disponibilité par défaut de l’export #Parquet pour tous les jeux de données publiés avec la solution Opendatasoft pour analyser les données plus facilement et rapidement (et compatible avec la gestion de données géographiques). 🪄 Les avantages du format d’export Parquet : chargement ultra-rapide, stockage optimisé (jusqu’à 7 fois plus léger qu’un geoJSON), analyse facilitée, support multi-langages (Python, Java, Scala, R) et format universel. 🚀 Pour tester le nouveau format : rendez-vous sur n’importe quel portail propulsé avec la solution #DataPortal Opendatasoft (y compris sur notre Data Hub), choisissez un jeu de données, puis le format d’export “Parquet” dans l’onglet “Export”. Pour en savoir plus : n’hésitez pas à consulter : ➡️ la documentation Parquet : https://lnkd.in/etHg82mF ➡️ la documentation Opendatasoft : https://lnkd.in/e52unuxa
Identifiez-vous pour afficher ou ajouter un commentaire
-
-
Data Engineer & Analyst | Double Casquette : Technique & Fonctionnelle | Python, R, SQL, Spark, Bash | Formateur & Optimisateur de Process 🔧
Découvrez mon dernier projet ML avec Spark Scala ! Utilisant l'apprentissage automatique pour prédire la pluie de demain à partir des données météorologiques historiques. 💧 Le but est de vous montrer l'utilisation de Spark ML et Scala pour résoudre des problèmes de machine learning et de big data. 💻 Explorez le projet sur GitHub : https://lnkd.in/e-VCn8Uy #ML #SparkScala #DataScience #DataEngineering #BigData
Identifiez-vous pour afficher ou ajouter un commentaire
-
🐼 Pandas Tip : dépivoter un dataframe. 😰 Nous avons tous déjà eu ce fameux fichier Excel avec de nombreuses colonnes presque identiques (comme des jours par exemple) et nous nous sommes dit que ce serait tellement plus logique si toutes ces colonnes étaient plutôt en ligne ! Ci-dessous un extrait de code qui vous permet de dé-pivoter votre matrice en utilisant la fonction ~Melt~ de Pandas. 👇 #pandas #datascience
Identifiez-vous pour afficher ou ajouter un commentaire
-
-
Les posts sur le TDD vous saoule ? Du coup je vais en rajouter une couche. J'espère que vous ne pensiez pas naïvement qu'en Data Engineering vous pourriez esquiver le TDD et les tests unitaires. Très prochainement, je vais vous faire une session (vidéo) d'introduction au TDD et plus généralement aux tests unitaires pour vos transformations de données. J'utiliserais très probablement Snowflake et Snowpark! On ferra un peu de programmation fonctionnelle en Python aussi. Reposez-vous bien ! #tdd #dataengineering #spark
Identifiez-vous pour afficher ou ajouter un commentaire
-
-
𝐃𝐞́𝐯𝐞𝐥𝐨𝐩𝐩𝐞 𝐥𝐞𝐬 𝐫𝐞̀𝐠𝐥𝐞𝐬 𝐝𝐞 𝐠𝐞𝐬𝐭𝐢𝐨𝐧 𝐝𝐮 𝐏𝐎 𝐚𝐯𝐞𝐜 𝐟𝐥𝐞𝐱𝐢𝐛𝐢𝐥𝐢𝐭𝐞́ 𝐝𝐚𝐧𝐬 𝐃𝐚𝐭𝐚𝐢𝐤𝐮 𝐃𝐒𝐒 J'ai récemment abordé une règle de gestion dans #Dataiku pour montrer comment utiliser la solution avec flexibilité pour résoudre des défis variés. La règle spécifique impliquait la manipulation des champs d'un #dataset en fonction de la valeur du champ 'Entity' J'ai relevé ce défi en proposant 2 approches distinctes : 1-𝑢𝑡𝑖𝑙𝑖𝑠𝑎𝑡𝑖𝑜𝑛 𝑑𝑒 𝑙𝑎 #𝑟𝑒𝑐𝑖𝑝𝑒 #𝑝𝑟𝑒𝑝𝑎𝑟𝑒 : une méthode basée sur les transformations visuelles de Dataiku pour structurer et nettoyer les données, en respectant la règle de gestion 2-𝑢𝑡𝑖𝑙𝑖𝑠𝑎𝑡𝑖𝑜𝑛 𝑑𝑒 𝑙𝑎 #𝑟𝑒𝑐𝑖𝑝𝑒 #𝑝𝑦𝑡ℎ𝑜𝑛 : une approche basée sur du code Python offrant une solution plus personnalisée pour traiter des conditions spécifiques Cette expérience a illustré la polyvalence de Dataiku, permettant de choisir l'approche qui convient le mieux à chaque cas #dataiku #datascience #datapreparation #pythonrecipe #preparerecipe
Identifiez-vous pour afficher ou ajouter un commentaire
-
🧑🔧Data Engineer Freelance je gère vos pipelines de données🎙️Co-animateur du podcast DataWatch ✍️Rédacteur de contenus Data : astuces, concepts, outils, veille📰Rédacteur d'une newsletter Data
☀️ C’est la #VeilleData qui s’accompagne de la sortie du nouvel épisode de DataWatch (liens en commentaire) ! J’ai sélectionné 5 articles liés à la #DataEngineering qui ont retenu mon attention cette semaine : 1️⃣ Article de Jay Narale sur le framework d’optimisation basé sur l’historique de #Presto (publié le 26 septembre 2024) : https://lnkd.in/e_yvpUUm Comment améliorer les performances petit à petit selon les métriques historiques d’exécution de requête ? 2️⃣ Article de Miller Victor (profil non trouvé sur Linkedin) sur l’utilisation de #Rust dans la Data Engineering (publié le 2 octobre 2024) : https://lnkd.in/ehkFteS9 L’auteur présente Rust comme un outil à très fort potentiel grâce à ses performances, sa sécurité et sa gestion efficace de la mémoire. 3️⃣ Article de Lindsay MacDonald sur l’implémentation du Data Lineage dans les traitements #python (publié le 2 octobre 2024) : https://lnkd.in/eXWt7SJZ Lindsay démontre l'importance du data lineage, en Python tout en décrivant certains outils comme OpenLineage, Airflow et Great Expectations. 4️⃣ Article de Daniel Beach qui compare l’achat ou la création d’outils data (publié le 3 octobre 2024) : https://lnkd.in/e2rt82_Z Daniel donne des critères comme la taille de l’équipe, sa charge de travail, ses compétences, etc. pour savoir s’il est plus judicieux d’acheter ou de développer un outil. 5️⃣ Article de Marcin Rudolf sur la sortie de la version 1.0.0 de #dlt (publié le 16 septembre 2024) : https://lnkd.in/egaJjyCF Marcin fait le point sur dlt qui est maintenant prêt pour la production et parle du support du #SQLAlchemy. ❓Quelles sont vos lectures #data de la semaine ?
Identifiez-vous pour afficher ou ajouter un commentaire
-
-
🧑🔧Data Engineer Freelance je gère vos pipelines de données🎙️Co-animateur du podcast DataWatch ✍️Rédacteur de contenus Data : astuces, concepts, outils, veille📰Rédacteur d'une newsletter Data
❄ Vendredi comme #VeilleData ! Voici les 7 articles en #DataEngineering qui ont retenu mon attention cette semaine : 1️⃣ Article de Pablo Abril qui détaille ce qu’est la librairie #Pydantic en python (publié le 16 janvier 2024) : https://lnkd.in/envWznj5 2️⃣ Article de DataScientest.com sur les systèmes de gestion de bases de données (#SGBD) qui sont différents des bases de données en elles-mêmes (publié le 17 janvier 2024) : https://lnkd.in/em_CdDW9 3️⃣ Article de Daniel Beach à propos des indexes en #SQL (publié le 17 janvier 2024) : https://lnkd.in/eFFP6eAX 4️⃣ Article de Rohan Paithankar qui partage son passage d’une plateforme data centralisée à du #DataMesh (publié le 16 janvier 2024) : https://lnkd.in/e8MSNVBC 5️⃣ Article de Michael Segner sur sa vision du futur du #DataWarehousing (publié le 16 janvier 2024) : https://lnkd.in/e4kJ3t5Y 6️⃣ Article de Olivier Tijou sur 5 tendances en 2024 dans la gestion des données (publié le 15 janvier 2024) : https://lnkd.in/epA2nDcs 7️⃣ Article de Vu Trinh qui expose comment #Bigquery stocke des données semi-structurées dans son stockage en colonne (publié le 13 janvier 2024) : https://lnkd.in/eejRYsgS ❓Vous avez vu/lu d’autres choses ? ❓Vous avez des suggestions d’amélioration de cette veille #data ?
Identifiez-vous pour afficher ou ajouter un commentaire
-
-
Découvrez DuckDB, la révolution dans le monde des plateformes de Data ! 🚀 Né d'un projet universitaire, DuckDB se distingue par sa capacité à manipuler aisément des données hors SGBD via SQL. Avec ses atouts uniques comme un système OLAP SQL 'en processus' et une intégration fluide avec Python, DuckDB redéfinit l'analyse de données. 🔍 Explorez son utilisation pratique dans des environnements DataLake, notamment avec DataTask pour des transformations de données massives. Et restez à l'écoute pour un futur article sur l'excitante synergie entre DuckDB et DBT, ouvrant des possibilités inédites pour votre Datawarehouse. ✨ Rejoignez la révolution DuckDB et simplifiez vos opérations de données avec SQL pur et une approche centrée sur l'efficacité. A lire ici : https://lnkd.in/eJ6YkBG2 #DuckDB #DataTransformation #Python #DataLake"
Identifiez-vous pour afficher ou ajouter un commentaire
-
-
On parle beaucoup de DuckDB pour les transformations SQL dans le DataLake. Découvrez dans ce post comment l'utiliser facilement avec #DataTask #python #sql #datalake #lakehouse
Découvrez DuckDB, la révolution dans le monde des plateformes de Data ! 🚀 Né d'un projet universitaire, DuckDB se distingue par sa capacité à manipuler aisément des données hors SGBD via SQL. Avec ses atouts uniques comme un système OLAP SQL 'en processus' et une intégration fluide avec Python, DuckDB redéfinit l'analyse de données. 🔍 Explorez son utilisation pratique dans des environnements DataLake, notamment avec DataTask pour des transformations de données massives. Et restez à l'écoute pour un futur article sur l'excitante synergie entre DuckDB et DBT, ouvrant des possibilités inédites pour votre Datawarehouse. ✨ Rejoignez la révolution DuckDB et simplifiez vos opérations de données avec SQL pur et une approche centrée sur l'efficacité. A lire ici : https://lnkd.in/eJ6YkBG2 #DuckDB #DataTransformation #Python #DataLake"
Identifiez-vous pour afficher ou ajouter un commentaire
-