11 invites Cool ChatGPT pour la science des données
Le modèle ChatGPT est un grand modèle de langage formé par OpenAI qui est capable de générer du texte de type humain. En lui fournissant une invite, il peut générer des réponses qui poursuivent la conversation ou développent l’invite donnée.

Dans cet article, j’ai compilé diverses invites de science des données pouvant être utilisées avec ChatGPT. Pour commencer, utilisez simplement les invites ci-dessous comme entrée pour ChatGPT. Remplacez tout par [squarebrackets]
le vôtre pour obtenir des résultats spécifiques à votre cas d’utilisation.
1. Modèle de classification des trains
Je veux que vous agissiez en tant que data scientist et codez pour moi. J’ai un jeu de données de
[describe dataset]
. Veuillez créer un modèle d’apprentissage automatique qui prédit[target variable]
.

Ce code suppose que vos données se trouvent dans un fichier CSV « customer_data.csv », et que la dernière colonne est l’étiquette « churn ». Le code utilise un classificateur de forêt aléatoire pour former le modèle, mais vous pouvez également expérimenter d’autres algorithmes. Le code utilise également le score de précision comme métrique pour évaluer le modèle, mais vous pouvez utiliser d’autres métriques d’évaluation pour.
2. Apprentissage automatique automatique
Je veux que vous agissiez en tant que bot d’apprentissage automatique (AutoML) en utilisant TPOT pour moi. Je travaille sur un modèle qui prédit
[...]
. Veuillez écrire du code python pour trouver le meilleur modèle de classification avec le score AUC le plus élevé sur l’ensemble de test.

Ce code suppose que vos données se trouvent dans un fichier CSV appelé « loan_data.csv », et que la dernière colonne est l’étiquette « default ». Le code utilise TPOT pour rechercher automatiquement le meilleur modèle, en utilisant le score AUC comme métrique d’évaluation. Une fois le modèle formé, le code effectue des prédictions sur l’ensemble de test et imprime le score AUC du meilleur modèle. Le code exporte également le meilleur pipeline en tant que script python ‘tpot_loan_default_pipeline.py’.
Veuillez noter qu’en fonction de vos données et de la complexité de votre problème, le processus de formation peut prendre beaucoup de temps, parfois des heures voire des jours.
3. Régler l’hyperparamètre
Je veux que vous agissiez en tant que data scientist et codez pour moi. J’ai formé un
[model name]
. Veuillez écrire le code pour régler les paramètres hyper.

Le code ci-dessus crée une instance du classificateur d’arbre de décision, puis définit une grille d’hyperparamètres à rechercher. La grille inclut différentes valeurs pour les hyperparamètres ‘ critère ‘ , ‘ max_depth ‘, ‘ min_samples_leaf ‘ et ‘ min_samples_split ‘. L’objet grid_search est ensuite initialisé avec une validation croisée quintuple et une notation de précision. Ensuite, il adapte l’objet grid_search aux données et trouve les meilleurs paramètres et le meilleur score du modèle d’arbre de décision.
Veuillez noter que le code ci-dessus n’est qu’un exemple et que vous devez ajuster la grille de paramètres en fonction de vos données et du problème que vous essayez de résoudre.
4. Explorer les données
Je veux que vous agissiez en tant que data scientist et codez pour moi. J’ai un ensemble de données de [décrire l’ensemble de données]. Veuillez écrire du code pour la visualisation et l’exploration des données.

Ce code charge les données client dans un pandas DataFrame, puis crée différents types de visualisations pour obtenir des informations à partir des données.
- Histogrammes pour toutes les variables numériques, pour vérifier la distribution de chaque variable.
- Countplot pour la variable ‘churn’, pour voir la distribution des clients qui ont changé et qui ne l’ont pas fait.
- Matrice de corrélation, pour voir quelles caractéristiques sont fortement corrélées les unes avec les autres.
- Matrice de nuages de points, pour visualiser la relation entre les caractéristiques et la variable cible.
Vous pouvez également essayer d’autres types de visualisations comme les boxplots, les violin plots, etc. en fonction de vos données et du type de variable.
5. Générer des données
Je veux que vous agissiez comme un faux générateur de données. J’ai besoin d’un ensemble de données contenant x lignes et y colonnes : [insert column names].

Ce code utilise la bibliothèque Faker pour générer des identifiants client, des noms de produits et des valeurs de revenus aléatoires. Les noms de produits sont sélectionnés aléatoirement parmi cinq options prédéfinies. Les revenus sont générés sous la forme d’un flottant aléatoire entre 100 et 10 000 arrondi à deux décimales. Les données sont ensuite stockées dans une liste de listes, puis transformées en une trame de données pandas à l’aide du constructeur pandas DataFrame.
Veuillez garder à l’esprit que ces données sont purement synthétiques et ne reflètent pas la distribution des données dans le monde réel.
6. Écrire Regex
Je veux que vous agissiez en tant que codeur. S’il vous plaît écrivez-moi une regex en python qui [describe regex]

Cette expression régulière est composée de plusieurs parties :
^
correspond au début d’une ligne[a-zA-Z0-9]*
correspond à n’importe quel nombre de caractères alphanumériques au début de la chaîne, il peut être égal à zéro ou plus.\s*
correspond à n’importe quel nombre d’espaces blancs, il peut être égal à zéro ou plus.data science
correspond à la chaîne « science des données »\s*
correspond à n’importe quel nombre d’espaces blancs, il peut être égal à zéro ou plus.!
correspond au caractère du point d’exclamation$
correspond à la fin de la ligne
Veuillez noter que l’expression régulière suppose que la chaîne que vous souhaitez faire correspondre ne contient qu’une seule occurrence de « science des données » et qu’un seul point d’exclamation. Si vous souhaitez faire correspondre plusieurs occurrences de « science des données » ou plusieurs points d’exclamation, vous devrez modifier l’expression régulière en conséquence.
7. Séries chronologiques des trains
Je veux que vous agissiez en tant que data scientist et codez pour moi. J’ai un ensemble de données de séries chronologiques [décrire l’ensemble de données]. Veuillez créer un modèle d’apprentissage automatique qui prédit [variable cible]. Veuillez utiliser [intervalle de temps] comme train et [intervalle de temps] comme validation.

Ce code suppose que vos données se trouvent dans un fichier CSV appelé « sales_data.csv » avec la date et le chiffre d’affaires en colonnes. Le code utilise RandomForestRegressor pour entraîner le modèle, mais vous pouvez également expérimenter d’autres algorithmes. Le code utilise également l’erreur quadratique moyenne comme métrique pour évaluer le modèle, mais vous pouvez utiliser une autre métrique d’évaluation pour. Le code suppose que vous avez la colonne de date dans l’ensemble de données, et il divise l’ensemble de données en deux parties : les données d’entraînement (2019 à 2021) et les données de validation (2022)
8. Adresser les données de déséquilibre
Je veux que vous agissiez en tant que codeur. J’ai formé un modèle d’apprentissage automatique sur un ensemble de données déséquilibré. La variable prédictive est la colonne [Insérer le nom de la colonne]. En python, comment puis-je suréchantillonner et/ou sous-échantillonner mes données ?

Sous-échantillonnage :
RandomUnderSampler
: Cette méthode supprime de manière aléatoire les exemples de classe majoritaire jusqu’à ce que l’équilibre souhaité soit atteint.

Ce code crée d’abord un ensemble de données synthétique déséquilibré en utilisant make_classification
la fonction de sklearn, il divise ensuite l’ensemble de données en ensembles d’entraînement et de test, puis il utilise le RandomUnderSampler
package d’apprentissage déséquilibré pour supprimer au hasard des exemples de classe majoritaire jusqu’à ce que l’équilibre souhaité soit atteint, et enfin il s’adapte un modèle de forêt aléatoire sur l’ensemble de données sous-échantillonné.
Veuillez garder à l’esprit que les méthodes de suréchantillonnage et de sous-échantillonnage peuvent avoir un compromis entre l’équilibrage de l’ensemble de données et la perte de données précieuses. De plus, selon les données, le suréchantillonnage/sous-échantillonnage peut ne pas être la meilleure solution pour résoudre le problème.
9. Obtenez l’importance des fonctionnalités
Je veux que vous agissiez en tant que data scientist et que vous expliquiez les résultats du modèle. J’ai formé un modèle d’arbre de décision et j’aimerais trouver les fonctionnalités les plus importantes. Veuillez écrire le code.

Ce code forme un classificateur d’arbre de décision sur les données X_train
et y_train
, extrait les importances des caractéristiques à l’aide de l’ feature_importances_
attribut, les trie par ordre décroissant, réorganise les noms des caractéristiques pour qu’ils correspondent aux importances des caractéristiques triées et les trace dans un graphique à barres pour une meilleure visualisation et compréhension de la résultats.
10. Visualiser les données avec Matplotlib
Je veux que vous agissiez en tant que codeur en python. J’ai un ensemble de données [nom] avec des colonnes [nom]. [Décrire les exigences du graphique]

Ce code utilise la bibliothèque seaborn pour créer un nuage de points pour chaque graphique, il utilise le paramètre de teinte pour différencier les différentes espèces et il définit la palette de couleurs pour qu’elle soit adaptée aux daltoniens. Le code ajoute également un titre à la figure et l’enregistre dans un fichier ‘output.png’ et affiche le graphique.
11. Visualiser la grille d’image Matplotlib
Je veux que vous agissiez en tant que codeur. J’ai un dossier d’images. [Décrivez comment les fichiers sont organisés dans le répertoire] [Décrivez comment vous voulez que les images soient imprimées]


Ce code définit d’abord le chemin vers les répertoires « TRAIN » et « TEST », puis il utilise une boucle for pour parcourir les sous-répertoires (0-9) et sélectionne 20 images aléatoires dans chaque sous-répertoire et les ajoute à la liste train_images et test_images . Ensuite, le code utilise matplotlib pour afficher les images dans une grille 4×5, le titre du graphique indique s’il s’agit des images de train ou de test.
Veuillez noter que vous devrez remplacer « path/to » par le chemin réel vers vos répertoires « TRAIN » et « TEST ». En outre, vous pouvez utiliser os.path.join()
la méthode pour joindre les noms de chemin et de sous-dossier, cela rendra le code plus indépendant de la plate-forme.