IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Linux Discussion :

copier automatiquement une page web en fichier texte


Sujet :

Linux

  1. #21
    Futur Membre du Club
    Inscrit en
    Septembre 2008
    Messages
    29
    Détails du profil
    Informations forums :
    Inscription : Septembre 2008
    Messages : 29
    Points : 9
    Points
    9
    Par défaut
    Citation Envoyé par Alain.g Voir le message
    Ceci dit il est tout à fait possible d'installer lynx sous mac, de même que html2text (w3m je n'ai pas vérifié).

    Sinon avec uniquement wget sous le main, on peut passer un convertisseur en ligne : http://cgi.w3.org/cgi-bin/html2txt
    Exemple :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    wget -O perdu.txt 'http://cgi.w3.org/cgi-bin/html2txt?url=http://www.perdu.com'
    Mais bon...

    Pour mac :
    http://www.apple.com/downloads/macos...ebbrowser.html
    http://html2text.darwinports.com/
    Oui, j'avais pensé à la conversion en ligne, mais elle ne marche pas avec google, et mon but est de sauver des pages google (stat sur certains mots, emails, ...).

    - "Il y a des dizaines de moteur de cherche"
    - Oui,mais google c'est 90% de la pop et c'est lui que je veux

    Et pour la petite histoire :
    Je rentre chez moi le week-end ou j'ai un iMac G5 (sur lequel est installé suse 10) mais je me sert de OS X car c'est qif-qif niveaux terminal
    La semaine je suis en résidence ou j'ai un PC portable sur lequel j'ai prévu d'installer linux ce week-end, ainsi qu'un PowerMac G3 sur lequel est installé OS X bien que ce système n'est pas supposé être utilisé sur une tel machine, donc quand je lance un ./configure pour installer un programme ça merde.
    A l'école je suis sous windows/linux (de préférence linux) et j'ai aucun droit

    Bref, vive Linux

  2. #22
    Expert éminent sénior
    Avatar de Sve@r
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Février 2006
    Messages
    12 690
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Février 2006
    Messages : 12 690
    Points : 30 985
    Points
    30 985
    Billets dans le blog
    1
    Par défaut
    Citation Envoyé par Belmondo Voir le message
    A l'école je suis sous windows/linux (de préférence linux) et j'ai aucun droit
    Mais si - Tu as les mêmes droits que n'importe quel user et surtout le droit d'y être (et c'est déjà beaucoup)...

    Citation Envoyé par Belmondo Voir le message
    Bref, vive Linux
    Yes
    Mon Tutoriel sur la programmation «Python»
    Mon Tutoriel sur la programmation «Shell»
    Sinon il y en a pleins d'autres. N'oubliez pas non plus les différentes faq disponibles sur ce site
    Et on poste ses codes entre balises [code] et [/code]

  3. #23
    Futur Membre du Club
    Inscrit en
    Septembre 2008
    Messages
    29
    Détails du profil
    Informations forums :
    Inscription : Septembre 2008
    Messages : 29
    Points : 9
    Points
    9
    Par défaut
    En fait je ne m'en rappelais plus, mais j'avais un live CD de Backtrack 3 dans mon petit appartement, donc plus besoin de penser à prendre les CD d'ubuntu ce week-end, plus besoin de partitionner mon disque, il y a juste à mettre le CD dedans, et le tour est joué ! Le mieux dans cette histoire c'est que backtrack est une distribution de linux très ciblée sur les réseaux et donc lynx était installé naturellement.
    J'ai donc réussi tout ce que je voulais : enregistrement du résultat de la page google dans un fichier texte, puis traitement de ce fichier texte, et même création d'un autre fichier bash pour créer à partir de celui que j'ai fait avec vous, des petits fichiers presque identique mais avec quelques nuances que l'on spécifie grâce à la fonction read x suivi par exemple d'un sed -e "s/chose/$x/g"

    Le petit bémol comme vous l'aviez dit : c'est que google n'est pas fou, il me demande rapidement de taper ce qu'il y a dans le petit carré et ça fait tout foiré mes stats

    Merci à tous et surement à bientôt

  4. #24
    Futur Membre du Club
    Inscrit en
    Septembre 2008
    Messages
    29
    Détails du profil
    Informations forums :
    Inscription : Septembre 2008
    Messages : 29
    Points : 9
    Points
    9
    Par défaut
    Bon, et bien je recommence

    j'ai une tout autre question. Je pose les bases : J'ai un fiche texte avec une liste de mots les uns en dessous des autres, je ne vais pas vous faire un dessin, ça ressemble à une liste de mots (un par ligne) les uns en dessous des autres. Comment puis-je faire un petit fichier (en bash bien sur) qui me supprime tous les mots en double, triple, ou plus afin qu'il n'en reste qu'un de chaque ? Je sais que c'est un tout petit peu plus compliqué que la première question, mais votre aide me permet de pas trop chercher les commande et de découvrir les bons outils plus facilement

    Merci bien

  5. #25
    Membre du Club
    Profil pro
    Inscrit en
    Mai 2008
    Messages
    34
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mai 2008
    Messages : 34
    Points : 41
    Points
    41
    Par défaut
    un moyen simple est de combiner sort et uniq

    sort va trier par ordre alphabétique, uniq va supprimer les lignes successives identiques :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    sort 'fichier.txt' | uniq -i > 'fichier2.txt'
    Ici l'option -i sert à ne pas tenir compte de la case. Plus d'options : man uniq

  6. #26
    Futur Membre du Club
    Inscrit en
    Septembre 2008
    Messages
    29
    Détails du profil
    Informations forums :
    Inscription : Septembre 2008
    Messages : 29
    Points : 9
    Points
    9
    Par défaut
    Un grand merci, ça commence à faire quelques commandes et programmes à connaitre

    sed ; lynx ; wget ; w3m ; grep ; sort ; uniq ; read variable ; echo ; ...
    J'irais aussi faire un tour sur les pages de manuel des commandes sort et uniq



    Ah ! et selon vous, si j'ajoute entre chaque page téléchargée par lynx un petit temps (5 secondes disons), du style
    est-ce que google sera moins récalcitrant ?

  7. #27
    Futur Membre du Club
    Inscrit en
    Septembre 2008
    Messages
    29
    Détails du profil
    Informations forums :
    Inscription : Septembre 2008
    Messages : 29
    Points : 9
    Points
    9
    Par défaut Me revoilà
    Bonjour à tous, me revoilà après une petite absence

    Je conserve ce même sujet, non pas parce que j'ai décidé que j'aurais mon sujet à moi, mais en fait parce que c'est toujours le même projet.

    Je souhaiterais (après avoir téléchargé une page web avec lynx ou w3m) supprimer toutes les lignes de code contenant la phrase "debut rapide", puis ouvrir dans un navigateur (et ce coup si c'est important que ce soit dans un navigateur tel que firefox ou autre, tous les liens contenant "http://www.domaine.com/view.php?de=xxx"

    Merci de votre patience

    edit : j'ai réussi à avoir un fichier texte dans lequel se trouve les uns en dessous des autre des

    view.php?de=234
    view.php?de=456
    view.php?de=567
    view.php?de=854

    Il me reste à demander à firefox de m'ouvrir les

    http://www.domaine.com/view.php?de=234
    http://www.domaine.com/view.php?de=456
    http://www.domaine.com/view.php?de=567
    http://www.domaine.com/view.php?de=854

Discussions similaires

  1. [XL-2010] Faire une recherche sur une page web d'élément texte sans passer par le code source
    Par Phifou dans le forum Macros et VBA Excel
    Réponses: 12
    Dernier message: 18/09/2014, 11h19
  2. Réponses: 1
    Dernier message: 17/01/2011, 12h37
  3. Editer une page dans un fichier texte
    Par SINASOFT dans le forum AIX
    Réponses: 6
    Dernier message: 14/01/2008, 11h01
  4. actualiser automatiquement une page web.
    Par MAJIK_ENIS dans le forum Servlets/JSP
    Réponses: 6
    Dernier message: 24/05/2006, 17h55
  5. ouvrir une page Web en mode texte
    Par Halleck dans le forum Windows
    Réponses: 7
    Dernier message: 03/03/2004, 15h08

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo