Oui oui c'est normal. En fait je bosse sur la segmentation de texte, et en ce moment je dois faire en sorte de pouvoir segmenter un texte de 100Mo (équivalent 14 500 pages sur Word). Mon fichier de 148Mo fait environ 470 000 lignes.
Il s'agit donc de découper tous les mots avec l'offset de début et de fin de la position de chaque mot.
J'ai donc une classe dont chaque instance est un string (pour le mot)
et une Liste de paire d'offsets. Donc plus ce mot apparait plus sa liste d'offset est longue.
voici le début de cette classe
Code:
1 2 3 4 5 6 7 8 9 10 11
| public class SEGINCONTEXTS
{
/**
* The String representation of the segment
*/
private String segString;
/**
* The list of relative OffsetPairs for each occurence of the segment
*/
private OffsetPairList occList; |
Et donc je transforme chaque objet en String du type :
abattoirs_:_285345-8::345604-8::352009-8::352266-8::358483-8::360439-8::360699-8::369391-8::369408-8::375376-8::376005-8
Voilà si vous avez une idée merci