Microsoft apporte le support des scripts Python comme sources de données dans Power BI,
et dote sa suite d'un connecteur pour Apache Spark

Power BI, la suite d’analyses et de rapports de données de Microsoft, intègre désormais une fonction de prévisualisation qui permet d'utiliser des scripts en Python comme sources de données et de créer des visualisations dans Power BI Desktop. Comme l’explique un message publié dans un billet de blog présentant la nouvelle version de Power BI, sortie ce mois-ci, les scripts Python peuvent être exécutés directement dans l'application et être utilisés pour « le nettoyage, l'analyse et la visualisation des données ».

« Nous sommes ravis d'annoncer que Python, un langage de programmation largement utilisé par les statisticiens, les spécialistes des données et les analystes de données, est désormais intégré à Power BI Desktop. Une fois que vous avez activé la fonctionnalité dans les paramètres de prévisualisation, vous pouvez utiliser Python pour effectuer le nettoyage, l'analyse et la visualisation des données », a annoncé Microsoft.

L’opération est simple : en sélectionnant « Python » dans la boîte de dialogue puis « Obtenir les données », l'utilisateur peut coller un script Python dans une fenêtre fournie et utiliser la sortie du fichier de données d'un script comme source.


Microsoft explique que « L'intégration de Python dans l'éditeur de requête vous permet d'effectuer le nettoyage des données à l'aide de Python et d'effectuer une mise en forme et une analyse avancées des données, y compris l'achèvement des données, prévisions et clustering manquants ».

De plus, « vous pouvez utiliser Python pour créer de nouveaux éléments visuels dans votre rapport. Tout comme les visuels R, les visuels Python seront mis à jour avec des rafraîchissements de données et un filtrage croisé. Cependant, le visuel lui-même n'est pas interactif ».

Nom : power.png
Affichages : 28149
Taille : 61,5 Ko

Microsoft a également fourni un fichier de démonstration Power BI avec des exemples de travail de packages Python populaires utilisés pour créer des visualisations et des transformations pour un jeu de données exemple. Au total il y en a 5, notamment Seaborn, Altair, Scikit-Learn, FlashText et PyFlux & Pendulum.

Seaborn : s’appuyant sur la bibliothèque de traçage matplotlib par défaut, Seaborn offre une excellente extension à la bibliothèque matplotlib, ce qui vous permet de générer rapidement des diagrammes plus complexes. Microsoft propose de jeter un coup d'oeil à un exemple de l'ensemble de données sur la demande de location de vélos. Si vous souhaitez créer une parcelle d'essaim de la demande de vélos classée par saison, il suffit de quelques lignes de code simples.

Altair : une bibliothèque déclarative pour générer des tracés. Contrairement à d'autres bibliothèques, vous devez créer la légende, l'axe et les étiquettes. Le but d'Altair est d'atténuer certains de ces points douloureux et de se concentrer sur le tracé lui-même plutôt que de spécifier chaque élément du graphique. Par défaut, l'axe / la légende sont générés en fonction des données que vous transmettez à la fonction de traçage. Vous trouverez ci-dessous un exemple généré dans PBI.

Nom : power_1.png
Affichages : 5813
Taille : 163,4 Ko

Scikit-Learn : une bibliothèque Python pour effectuer un apprentissage automatique de vos données. À l'aide de Power BI, vous pouvez désormais utiliser les nombreuses bibliothèques Python pour créer vos propres modèles d'apprentissage automatique et les utiliser facilement dans vos rapports Power BI. L'une des choses que vous pouvez faire en premier est de générer un graphique matriciel montrant les corrélations / histogramme entre chaque variable par paire.

FlashText : une bibliothèque performante pour rechercher et remplacer des mots dans une colonne de texte. Vous trouverez ci-dessous un diagramme montrant les performances relatives de FlashText c. Regex. La recherche de mots-clés ou le remplacement de valeurs peuvent désormais se faire en quelques minutes plutôt qu'en quelques heures.

Nom : power_2.png
Affichages : 5420
Taille : 30,0 Ko

PyFlux & Pendulum : ce package associé à PyFlux vous permet de générer des analyses de séries chronologiques impressionnantes

Power BI a longtemps intégré R, un autre langage populaire pour la manipulation et l'analyse des données. Bien que R reste un langage de niche, Python a été largement adopté dans les cercles de science des données et dans la population de programmation générale, grâce à sa large sélection de packages tiers qui répondent à pratiquement tous les besoins de traitement de données imaginables.

Microsoft pourrait également envisager l’intégration de Python avec son tableur Excel, en se basant sur une enquête auprès des utilisateurs sur Excel qui a circulé à la fin de l’année dernière. Cependant, aucune annonce officielle n'a encore été faite. Microsoft a souligné après la conclusion de l’enquête que c’était « un domaine d’exploration pour nous, sans calendrier précis ».

Parmi les autres ajouts à Power BI, citons une fonctionnalité d'impression PDF longtemps attendue pour les rapports et un connecteur de données pour les clusters Apache Spark. La plupart des mises à jour de Power BI Desktop sont prévues dans une future version de Power BI Report Server, dont la version est prévue pour fin août 2018.

Source : annonce sur les nouveautés Power BI, packages Python dans Power BI

Et vous ?

Qu'en pensez-vous ?