IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Bibliothèques d'apprentissage automatique Discussion :

[scikit-learn] text features in csv large files


Sujet :

Bibliothèques d'apprentissage automatique

Mode arborescent

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre averti
    Inscrit en
    Décembre 2005
    Messages
    41
    Détails du profil
    Informations forums :
    Inscription : Décembre 2005
    Messages : 41
    Par défaut [scikit-learn] text features in csv large files
    Bonjour

    J'ai un dataset (fichier csv, ci-joint en extension txt).
    Il contient des features de type texte.
    Le fichier original contient beaucoup de lignes (+50000)

    Je veux travailler avec ce fichier dans sklearn.
    Quand le nombre de lignes est réduit à 1000 les choses marchent normales.
    Mais avec un nombre de lignes (+50000) l''ordinateur Bug cause de mémoire est c'est normal, car j'ai fait:

    1- Encoding categorical data (colonne 3,4,5 et 6)
    2- Splitting the dataset into the Training set and Test set
    3- Feature Scaling

    Bag word model est une solution
    C'est normal que l'ordinateur bloque à cause de ça, car il y a un très grand nombre de colonnes à cause des points 1 et 3.

    Proposez-moi des solutions
    Merci.
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    # Simple Linear Regression
     
    # Importing the libraries
    import numpy as np
    import matplotlib.pyplot as plt
    import pandas as pd
     
    # Importing the dataset
    dataset = pd.read_csv('Data_Small.csv', header = None)
    X = dataset.iloc[:, :-1].values
    y = dataset.iloc[:, 7].values
     
    # Encoding categorical data
    # Encoding the Independent Variable
    from sklearn.preprocessing import LabelEncoder, OneHotEncoder
     
    labelencoder_X_3 = LabelEncoder()
    X[:, 3] = labelencoder_X_3.fit_transform(X[:, 3])
    labelencoder_X_4 = LabelEncoder()
    X[:, 4] = labelencoder_X_4.fit_transform(X[:, 4])
    labelencoder_X_5 = LabelEncoder()
    X[:, 5] = labelencoder_X_5.fit_transform(X[:, 5])
    labelencoder_X_6 = LabelEncoder()
    X[:, 6] = labelencoder_X_6.fit_transform(X[:, 6])
     
    onehotencoder = OneHotEncoder(categorical_features = [3,4,5,6])
    X = onehotencoder.fit_transform(X).toarray()
     
    # Splitting the dataset into the Training set and Test set
    from sklearn.cross_validation import train_test_split
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)
     
    # Feature Scaling
    from sklearn.preprocessing import StandardScaler
    sc_X = StandardScaler()
    X_train = sc_X.fit_transform(X_train)
    X_test = sc_X.transform(X_test)
     
    # Fitting Logistic Regression to the Training set
    from sklearn.linear_model import LogisticRegression
    classifier = LogisticRegression(random_state = 0)
    classifier.fit(X_train, y_train)
     
    # Predicting the Test set results
    y_pred = classifier.predict(X_test)
    Fichiers attachés Fichiers attachés

Discussions similaires

  1. Lecture d'un fichier texte dans un batch file
    Par cels dans le forum Scripts/Batch
    Réponses: 6
    Dernier message: 06/08/2009, 11h12
  2. Couleur du texte en export CSV / XLS
    Par afrodje dans le forum ASP
    Réponses: 7
    Dernier message: 17/02/2009, 13h23
  3. CSV Files à nouveau
    Par zis0907 dans le forum MATLAB
    Réponses: 0
    Dernier message: 09/04/2008, 11h11
  4. Matab csv files
    Par zis0907 dans le forum MATLAB
    Réponses: 18
    Dernier message: 07/04/2008, 14h50
  5. Convertir un fichier texte du format csv au format hws
    Par slayer23 dans le forum MATLAB
    Réponses: 8
    Dernier message: 14/06/2007, 17h48

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo