
| /*
* File: txtanalyzer.c
* Author: Dimitri "Hurukan" <soundlord@gmail.com>
*
* Créé le March 1, 2022, 4:59 AM
*/
// ****************************************************************************
// HISTORIQUE
// ****************************************************************************
// ****************************************************************************
// Fichiers de définitions
// ****************************************************************************
#include <stdio.h>
#include <stdlib.h>
#include <stdbool.h>
#include <unistd.h>
#include <string.h>
#include "analyzer.h"
// ****************************************************************************
// Déclaration des constantes symboliques
// ****************************************************************************
// ****************************************************************************
// Déclaration des variables globales, externes, ...
// ****************************************************************************
// ****************************************************************************
// SECTION : prototypes des fonctions en test pour CE code source
// ****************************************************************************
char* extractWord(char*);
int IsExists(char*,t_Word*,int);
void Insert(char*,t_Word*,int);
/*
* FONCTION PRINCIPALE
*/
int main(int argc,char** argv)
{
#ifdef OLD
char str[10000],c='a';
int imot=0,jlettre=0, count=0;
FILE *fp;
fp=fopen("hauts.txt","r");
/* printf("Entrer une chaine de caractere: ");
gets(str);*/
while (!feof(fp))
{
c=fgetc(fp);
if(c== ' ' || c== '\t' || c== '\n') count++;
else printf("%c",c);
}
printf("\n il y a %d mots\n",count);
char tabmots[count][30];
printf("%d\n",sizeof(tabmots));
fp=freopen("hauts.txt","r",fp);
while (!feof(fp))
{
c=fgetc(fp);
if((c<65) || (c>90) || (c<97) || (c>122)) {
//printf("%s\n",tabmots[imot]);
imot++;
jlettre=0;
}
else
{
tabmots[imot][jlettre++]=c;
printf("%d \t %c ",c,c);
}
}
/* for(i = 0; str[i] != '\0'; i++) //compter nombre total mot dans le texte
{
if(str[i] == ' ' || str[i] == '\t' || str[i] == '\n')
{
count++;
}
}
printf("il y a %d mots\n",count);*/
fclose(fp);
#endif
char *texte; // ici je vais mettre tout en mémoire pour ne pas devoir faire des accès disques (si les fichiers font moins de 4.2Go ça devrait aller ^^)
FILE *descFichier;
descFichier=fopen("texte.txt","r");
if(!descFichier) return(EXIT_FAILURE);
long tailledufichier;
fseek(descFichier,0L,SEEK_END); // je me positionne dans le fichier à la fin de celui-ci...
tailledufichier=ftell(descFichier); // je récupère la taille du fichier
fseek(descFichier,0L,SEEK_SET); // je reviens au début du fichier sinon dès que je vais lire je vais me taper un EOF ^^
texte=(char*)calloc(tailledufichier+1,sizeof(char));
if(!texte) return(EXIT_FAILURE);
fread(texte,1,tailledufichier,descFichier);
// je devrais faire des tests mais j'ai la flemme :{
// Nous avons le texte en mémoire... on peut fermer le descripteur
fclose(descFichier);
// Nous allons analyser le texte en considérant que les mots sont séparés par
// soit un espace (32 ASCII) soit par un caractère de ponctuation (selon les normes dactylographiques)
// Pour la répétition des mots là par réflexe j'utiliserais une de mes librairies mais pour "simplifier" nous passerons par "autre chose"
// Ma librairie permet la gestion de listes/files... ce serait bien d'avoir cela pour notre projet...
// Pour chaque mot il faut lui associer un nombre indiquant le nombre de fois qu'il apparaît dans le texte...
// Sans ma librairie je serais tenté de créer un tableau de structures le soucis c'est que ce tableau devra avoir une taille fixe
// et c'est là que ma librairie va me manquer ^^
// On va donc compter le nombre de mots c'est ce qu'il y a de plus facile...
// Pour les occurences on va devoir se creuser un peu si je ne peux pas utiliser ma librairie...
// Dans le fichier analyzer.h j'ai défini une structure:
//typedef struct s_Word
//{
// char *pPattern;
// int occurence;
//}t_Word;
// Qui va nous servir par la suite...
long curseurlecture=0L;
long nbMots=0L;
t_Word tabMots[tailledufichier/3]; // normalement un mot est composé d'au moins trois caractères sinon ce sont des prépositions ici c'est juste pour contourner le fait que je ne sache utiliser ma librairie
// JE HAIS de faire ceci mais j'ai pas le choix ici (ouin ouin ma librairie mes listes et mes piles etc...)
memset(tabMots,0,(tailledufichier/3)*sizeof(t_Word)); // on met tout à zéro en mémoire à partir de l'adresse de tabMots (sinon on risque des surprises !!)
while(curseurlecture<tailledufichier)
{
//lecture caractère par caractère et détection de l'espace et du retour de ligne plus ponctuation...
// ce serait "plus simple" avec les expression rationelles/régulières mais je ne sais pas si tu as déjà vu ces mécanismes (le Perl est plus adapté pour ce genre de traitements ^^)
if(texte[curseurlecture]<10 && texte[curseurlecture]>=0)
{
curseurlecture++;
continue;
}
if(texte[curseurlecture]==12 || texte[curseurlecture]==11)
{
curseurlecture++;
continue;
}
if(texte[curseurlecture]>=14 && texte[curseurlecture]<=31)
{
curseurlecture++;
continue;
}
if(texte[curseurlecture]==10 || texte[curseurlecture]==13)
{
curseurlecture++;
continue;
}
// ici je traite le cas de la parenthèse dans les règles dactylographiques communes
if(texte[curseurlecture]==' ' && texte[curseurlecture+1]==')')
{
curseurlecture++; // ')' ne doit pas être traité
continue;
}
// ici je traite le point final du texte
if(texte[curseurlecture]=='.' && curseurlecture>=tailledufichier-1)
{
break;
}
if(texte[curseurlecture]==' ' || texte[curseurlecture]=='.' || texte[curseurlecture]==',' || texte[curseurlecture]==';' || texte[curseurlecture]==':' || texte[curseurlecture]=='.')
{
if(texte[curseurlecture+1]==' ') // cas des doubles espaces
{
curseurlecture++;
continue;
}
if(texte[curseurlecture+1]=='-')
{
curseurlecture++;
continue;
}
if(texte[curseurlecture+1]=='.') // cas des "trois petits points"
{
curseurlecture++;
continue;
}
// le mot se trouve donc APRES le caractère de ponctuation <--
char *targetWord=extractWord(&texte[curseurlecture+1]);
int indice=IsExists(targetWord,tabMots,tailledufichier/3);
if(indice>=0)
{
tabMots[indice].occurence++;
}
else Insert(targetWord,tabMots,tailledufichier/3);
nbMots++;
}
// dans les textes anglophones je ne pense pas qu'il existe des césures du style anglo-saxon... en français il faut considérer qu'il s'agit d'un mot et non deux...
// il y a un petit risque de "effet de bord" dans l'instruction qui suit...
if(texte[curseurlecture]=='-' && (texte[curseurlecture+1]<='Z' && texte[curseurlecture+1]>='A') && (texte[curseurlecture+1]<='z' && texte[curseurlecture+1]>='a'))
{
/*char *targetWord=extractWord(&texte[curseurlecture+1]);
int indice=IsExists(targetWord,tabMots,tailledufichier/3);
if(indice>=0)
{
tabMots[indice].occurence++;
}
else Insert(targetWord,tabMots,tailledufichier/3);*/
nbMots++;
}
// pour les autres caractères de ponctuation je ne pense pas qu'ils puissent indiquer l'existence d'un mot qui les suit... sauf peut-être la parenthèse
if(texte[curseurlecture]=='(' && texte[curseurlecture+1]==' ')
{
curseurlecture+=2; // ' ' ne doit pas être traité une seconde fois
nbMots++;
}
curseurlecture++;
}
printf("Nombre de mots dans le texte: %05ld\n",nbMots);
printf("Résumé: \n");
// Je HAIS faire ceci... blah blah blah
int position=0;
while(position<tailledufichier/3)
{
if(tabMots[position].pPattern!=NULL) printf("[%s] %02d\n",tabMots[position].pPattern,tabMots[position].occurence);
position++;
}
return(EXIT_SUCCESS);
}
// ****************************************************************************
// SECTION : implémentation des fonctions
// ****************************************************************************
char* extractWord(char *startpos)
{
long adressedepart=(long)startpos;
long taillemot=0L;
if(startpos==NULL) return NULL;
while((*startpos<='Z' && *startpos>='A') || (*startpos<='z' && *startpos>='a'))
{
startpos++;
}
// ...si nous arrivons ici c'est qu'il s'agit d'un mot (pour la césure nous verrons plus tard
taillemot=(long)startpos-adressedepart;
if(taillemot<=0) return NULL;
char *tmp=(char*)calloc(taillemot+1,sizeof(char));
strncpy(tmp,(char*)adressedepart,taillemot);
return tmp;
}
int IsExists(char *pattern, t_Word *source,int size)
{
if(pattern==NULL) return -1;
// je déteste faire ça mais j'ai pas le choix ici
int position;
for(position=0;position<size;position++)
{
if(source[position].pPattern==NULL) continue;
if(strcmp(source[position].pPattern,pattern)==0)
{
return position;
}
}
return -1;
}
void Insert(char *word,t_Word *target,int size)
{
// nouvelle entrée
// c'est horrible je sais mais sans ma librairie j'écris de la m...
if(word==NULL) return;
int position=0;
for(;position<size;position++)
{
if(target[position].pPattern==NULL)
{
target[position].pPattern=(char*)calloc(strlen(word)+1,sizeof(char));
strcpy(target[position].pPattern,word);
target[position].occurence=1;
break;
}
}
} |
Partager