Bonjour,
pour un projet perso en robotique, j'aimerai utiliser la base de donnée de wiktionnaire. J'ai téléchargé le fichier wiktionaryXfr2010.xml disponible sur le site redac.univ-tlse2.fr
Je souhaiterai supprimer toutes les balises <trans> et leurs contenues.
J'ai bien essayé ceci en utilisant la fonction Remplacer: mais cela ne fonctionne pas.
J'ai utilisé Notepad, EmEditor et UltraEdit mais je n'ai pas assez de connaissance pour avancer.
Autre solution : Extraire ce qu'il y a après form=
<entry form="computer" pageid="2798">
et le contenu texte de la balise <toplevel-def>
1 2 3 4
| <toplevel-def>
<gloss domain="Computing">A programmable device that performs mathematical calculations and logical operations, especially one that can process, store and retrieve large amounts of data
very quickly.</gloss>
</toplevel-def> |
Autre solution : j'ai trouvé un fichier en .ddb que voici : wik_fr.ddb a cette adresse https://sites.google.com/site/nghsfr/ddb
Il me semble que c'est une base de donnée. J'ai essayé de l'ouvrir avec SQLiteStudio, mais j'obtiens ceci pour le mot et la définition :
Key : a contrario
Def : jãÁC_]CãÁC*ÊC*Ã_]CãÁCC C*Ãi_]
Edit : Après recherche, dans Def, il d'agit de données BLOB.
Existe-il un logiciel qui permet de visualiser ces données ou les convertir en CSV ?
Si quelqu'un connait une solution, ça m'aiderai vraiment à avancer.
Merci
Partager