Bonjour,
j'ai un petit soucis de configuration de SOLR pour l'indexation de mots en français.
En fait je dois indéxer des documents contenant les mots cathéter ou cathéters.
Mon schema est configuré comme cela (la partie index est sensiblement la même que la partie query).
Cette configuration fait que le mot cathéter est indexé, sans doute comme un verbe et la lemmatisation donne cathet alors qu'avec cathéters cela donne catheter.
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8 <analyzer type="query"> <tokenizer class="solr.StandardTokenizerFactory"/> <filter class="solr.LowerCaseFilterFactory"/> <filter class="solr.ElisionFilterFactory" articles="elisionwords_fr.txt"/> <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords_fr.txt" enablePositionIncrements="true"/> <filter class="solr.SnowballPorterFilterFactory" language="French"/> <filter class="solr.ASCIIFoldingFilterFactory"/> </analyzer>
Du coup les documents contenant cathéter ne remontent pas quand je cherche cathéters.
Si vous avez une piste ... je suis preneur.
Merci d'avance.
Partager