Data Science Studio (DSS) de Dataiku passe a la vitesse superieure avec l'integration de Spark

Retour à la liste

dataiku.png

Data Science Studio (DSS) de Dataiku passe à la vitesse supérieure
avec l'intégration de Spark

 

Paris, le 29 septembre - Dataiku, l'éditeur du Data Science Studio (DSS), le logiciel d’accélération de projets Big Data, annonce aujourd'hui l'intégration du moteur de traitement Apache Spark à la nouvelle version 2.1 de son logiciel phare, DSS.
Développé initialement au sein de programmes conjoints des universités de Berkeley et de Stanford, Spark s'est imposé dans les derniers mois comme le système de référence pour le calcul distribué (en compétition avec le "MapReduce" de Hadoop) 

Cette intégration est un des ajouts majeurs de cette nouvelle version du logiciel. Elle s’inscrit dans la continuité de la stratégie de démocratisation et d'accélération des projets Big Data de Dataiku, et illustre la propension de DSS à intégrer les dernières technologies Big Data, toujours plus productives et génératrices de valeur.

Les principaux domaines d'intervention de Spark dans DSS 2.1
En intégrant Spark, Dataiku met à disposition de ses utilisateurs un framework innovant dédié aux hautes performances et à la rapidité. Il permet notamment de simplifier le croisement et le contrôle des données à une vitesse et à une échelle inégalée.

La technologie Spark intervient notamment dans le cadre de :

  • La préparation des données (nettoyage, agrégation, enrichissement, etc.)
    Dans le cadre des recettes visuelles, le moteur Spark et Spark SQL permettent de faire des jointures et des agrégations beaucoup plus rapidement qu'avec un moteur Hadoop traditionnel.
  • La programmation distribuée facilitée
    Intégré au sein de DSS, PySpark et SparkR exposent le modèle de programmation de Spark à Python et R,  permettant donc aux utilisateurs de Python ou R de faire des transformations sur des volumes de données beaucoup plus importants en environnement Spark.
  • L'apprentissage automatique qui passe à l'échelle
    Il est désormais possible d'entraîner des modèles via Spark MLlib. Les utilisateurs de DSS 2.1 peuvent choisir MLlib ou Scikit Learn pour passer à l'échelle (plusieurs dizaine de milliards de ligne) et utiliser toute la puissance de leur infrastructure pour exécuter des modèles sur l'ensemble de leurs données.

Les principaux bénéfices de cette intégration
Cette association technologique dynamise la productivité des organisations et renforce la collaboration inter-métiers grâce notamment à :  

  • La capacité à traiter des volumes beaucoup plus importants
    Enjeu majeur pour la productivité des data scientists, Spark permet des analyses interactives mettant en oeuvre des algorithmes avancés sur plusieurs centaines de gigaoctets de données (contre quelques gigaoctets pour stacks R ou Python).
  • Une collaboration renforcée
    Les frameworks technologiques comme PySpark ou SparkR permettent de mutualiser les ressources du cluster avec l'ensemble des membres d'une équipe, permettant ainsi d'aller plus loin en terme de collaboration simultanée.
  • Une prise en main facilitée
    Dans un contexte d'évolution permanente des technologies, des frameworks, des langages et dialectes (Py, R, Pig, Hive, SQL, Spark...), DSS 2.1 fournit une interface unifiée entre ces différents frameworks permettant aux utilisateurs de se familiariser avec ces technologies à leur rythme.

"Dataiku a toujours eu pour ambition de proposer une plateforme s'appuyant sur les dernières innovations technologiques. Il était donc essentiel pour nous d'intégrer Spark à Data Science Studio."
"Spark est une technologie ouverte dont la communauté ne cesse de s'élargir et avec elle, le nombre de ses contributeurs et de ses innovations. Nous avons la certitude qu'avec Spark de nouveaux standards émergeront. Il est donc fondamental d'y associer notre technologie dès aujourd'hui !"

Florian Douetteau, CEO de Dataiku

Les visuels du Data Science Studio 2.1 sont disponibles : ici

Pour en savoir plus ou pour tester DSS gratuitement  

A propos de Dataiku
Dataiku, entreprise créée en 2013, lance le logiciel « Data Science Studio » (DSS) sur le marché français en février 2014. DSS est une plateforme qui facilite et accélère l’analyse de données et la création d’applications business et prédictives en environnement Big Data. DSS s’adresse aussi bien aux data scientists et développeurs qu’aux profils moins techniques orientés business analystes ou marketing.
DSS est utilisé chez une cinquantaine de clients du e-commerce, des smarts cities, de la finance, de la pharmaceutique, ou encore de l’assurance pour construire des applications de rupture, dans les domaines du marketing digital, de l’expérience utilisateur, de l’optimisation des ventes, de la détection de fraude, de la maintenance prédictive…
Forte d’une équipe de 45 personnes, Dataiku travail au quotidien à rendre la data science plus accessible, productive et génératrice de valeur.
Pour plus d'informations : www.dataiku.com

Top