IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Algorithmes et structures de données Discussion :

Compression petits fichiers texte


Sujet :

Algorithmes et structures de données

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre averti
    Profil pro
    Inscrit en
    Décembre 2004
    Messages
    20
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Décembre 2004
    Messages : 20
    Par défaut Compression petits fichiers texte
    Bonjour,

    quelqu'un connaitrait-il un "bon" algorithme de compression de fichiers texte (en francais) courts (~ 5 Ko). Sur ce genre de petits fichiers, gzip/winzip ne compresse que d'un facteur 2 (alors que ca atteint 90% sur des gros fichiers texte). bzip2 ne fait guere mieux (55%).

    Merci

    Jerome

  2. #2
    Membre éprouvé

    Inscrit en
    Juin 2004
    Messages
    1 397
    Détails du profil
    Informations forums :
    Inscription : Juin 2004
    Messages : 1 397
    Par défaut
    Le meilleur à ma connaissance, c'est Huffman (enfin, sa variante) utilisé entre autres dans le fameux winzip et co.
    Winrar ne fait pas mieux ?
    As-tu possibilité de fournir le fichier texte ?

    Edit: Il y a une borne théorique au taux de compression qui peut être atteint, c'est l'entropie.
    Si tu la calcules sur le fichier, tu sauras combien tu peux espérer si tout est parfait dans le meilleur des mondes ^^.

  3. #3
    Membre averti
    Profil pro
    Inscrit en
    Décembre 2004
    Messages
    20
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Décembre 2004
    Messages : 20
    Par défaut
    Bonjour,

    merci a tous pour vos réponses

    Citation Envoyé par progfou
    Il y a une borne théorique au taux de compression qui peut être atteint, c'est l'entropie.
    Si tu la calcules sur le fichier, tu sauras combien tu peux espérer si tout est parfait dans le meilleur des mondes ^^.
    Est-ce qu'il y a un outil pour calculer ca ? Si gzip fait deja presque aussi bien que le maximum, ce n'est plus la peine que je cherche...

    Jérôme

  4. #4
    Membre éprouvé

    Inscrit en
    Juin 2004
    Messages
    1 397
    Détails du profil
    Informations forums :
    Inscription : Juin 2004
    Messages : 1 397
    Par défaut
    C'est assez simple à calculer :
    http://perso.univ-lr.fr/pcourtel/esp...h2/page2-1.htm

    La formule est ici :

  5. #5
    Expert confirmé

    Inscrit en
    Novembre 2005
    Messages
    5 145
    Détails du profil
    Informations forums :
    Inscription : Novembre 2005
    Messages : 5 145
    Par défaut
    On peut calculer cela dans un modele donne. Mais le choix du compresseur est en quelque sorte un choix de modele.

    Par exemple Huffmann est presque parfait dans le modele utilise, et le codage arithmetique gagne la derniere fraction de bit. Mais si tu passes a un autre algo (un ordre superieur, par dictionnaire,...) tu peux faire mieux pour autant que tes donnees s'y prete.

    Pour des petits fichiers textes, si tu implementes ton compresseur toi-meme et que tu as une bonne idee du contenu probable, une idee qui n'est pas implementee dans les compresseurs generiques est un algo a dictionnaire avec un dictionnaire precharge.

    Edit: crosspost avec progfou, il donne le maximun theorique dans le cadre du modele pour lequel Huffman est presque parfait.

  6. #6
    Expert confirmé
    Avatar de PRomu@ld
    Homme Profil pro
    Ingénieur de Recherche
    Inscrit en
    Avril 2005
    Messages
    4 155
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 40
    Localisation : France, Vienne (Poitou Charente)

    Informations professionnelles :
    Activité : Ingénieur de Recherche
    Secteur : Enseignement

    Informations forums :
    Inscription : Avril 2005
    Messages : 4 155
    Par défaut
    tu peux faire mieux pour autant que tes donnees s'y prete.
    C'est typiquement le cas de données redondantes, il y a pour celà la méthode RLE. Qui consiste à mettre pour des répétitions d'un certain nombre de caractères le nombre de répétition suivit du caractère répété.

    Par exemple AAAAAAAAAA sera encoré en 10A, ce qui est sans doute très proche de l'optimalité.

    quelqu'un connaitrait-il un "bon" algorithme de compression de fichiers texte (en francais) courts (~ 5 Ko). Sur ce genre de petits fichiers, gzip/winzip ne compresse que d'un facteur 2 (alors que ca atteint 90% sur des gros fichiers texte). bzip2 ne fait guere mieux (55%).
    Le problème des algos basé sur Huffman sur les petits fichiers est que l'on stocke soit la table de huffman soit l'arbre de huffman dans le fichier. Ceci entraine donc une augmentation de l'espace nécéssaire, c'est pourquoi tu obtiens un faible taux de compression sur des petits fichiers.

    Mais d'ailleurs pourquoi compresser de si petits fichiers ?

  7. #7
    Membre averti
    Profil pro
    Inscrit en
    Décembre 2004
    Messages
    20
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Décembre 2004
    Messages : 20
    Par défaut paq8g
    Bon, j'ai trouvé paq8g à l'adresse http://cs.fit.edu/~mmahoney/compression/#paq8

    auquel j'ai rajouté le dictionnaire français disponible ici: http://www.ii.uni.wroc.pl/~inikep/research/dicts/

    Résultats:

    fichier brut: 4997 octets
    winzip: 2490
    paq8g: 1544 !

    Il me reste à voir si je sais décompresser ces fichiers dans mon application. J'ai besoin de compresser ces petits fichiers parce que j'en ai plein (et je ne veux pas les concaténer parce que je ne peux lire que des petits fichiers)

    Jérôme

  8. #8
    Membre confirmé
    Profil pro
    Inscrit en
    Janvier 2006
    Messages
    118
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2006
    Messages : 118
    Par défaut
    Je ne suis pas un spécialiste, donc prends ce que je dis avec des pincettes...

    En gros, c'est normal que sur des petits fichiers textes le taux de compression soit inférieur : Ces algos sont basés sur des dictionnaires. Or, en prenant un texte 10 fois plus long, on ne multiplie pas le nombre de mots par 10, mais par moins que ça. La taille du dictionnaire à coder est donc toujours plus ou moins la même. Ainsi, à l'extrême, un texte avec une seule occurrence de chaque mot ne sera pas compressible car la taille du dictionnaire sera la même que celle du fichier original. Plus chaque mot apparait souvent, plus il est facile de compresser le texte, et donc un gros texte aura un taux de compression plus élevé. (Attention, cela fonctionne avec un fichier de texte. Un fichier vidéo de la même taille ne pourra quasiment pas être compressé sans perte car les données se répètent beaucoup moins).

    Bref, tout ça pour dire que je doute qu'il existe un meilleur algo que zip pour le texte, à moins que tes fichiers soient très particuliers.

    Si c'est possible dans ton cas, essaye de compresser plusieurs fichiers texte ensemble, le texte de base étant plus grand, tu devrais avoir un meilleur taux de compression global.

  9. #9
    Membre éprouvé
    Avatar de Rakken
    Homme Profil pro
    Inscrit en
    Août 2006
    Messages
    1 257
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Août 2006
    Messages : 1 257
    Par défaut
    Après, tu peux tenter les autres...

    En vrac : 7-ZIP, A, ACE, ARC, ARJ, B64, BH, BZ2, BZA, CAB, CPIO, DEB, ENC, GCA, GZ, GZA, HA, JAR, LHA, LIB, LZH, MBF, MIM, PAK, PK3, RAR, RPM, TAR, TAZ, TBZ, TGZ, TZ, UUE, WAR, XXE, YZ1, Z, ZIP, ZOO

    Par contre, je ne suis effectivement pas convaicu que tu trouveras mieux. Plus ton fichier est petit, moins tu as matière à compresser.

Discussions similaires

  1. Réponses: 2
    Dernier message: 14/12/2009, 11h36
  2. Compresser un fichier texte généré en PHP
    Par seb92500 dans le forum Bibliothèques et frameworks
    Réponses: 5
    Dernier message: 25/02/2008, 21h37
  3. Compression de fichier texte
    Par Victoria007 dans le forum Débuter
    Réponses: 22
    Dernier message: 11/02/2008, 22h25
  4. Parser un petit fichier texte
    Par viscere dans le forum Format d'échange (XML, JSON...)
    Réponses: 5
    Dernier message: 26/04/2006, 09h59

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo