[Simexplorer-si-devel] Choix moteur base de données

17 Dec 2007


      Le Monday 17 December 2007 11:17:21 Gabriel Landais a écrit :
...
Bonjour,
Bonjour,
...
Afin de valider ce choix, nous avons procédé à différents tests,
notamment de montée en charge. Ainsi, un test a créé une base de 25 000
documents, contenant chacun entre 10 000 et 30 000 mots d'un
dictionnaire de 150 000 mots (entre 2 et 7 lettres). Soit au total
environ 11Gb de données indexées. L'index en lui même pèse 3Gb, le
contenu n'étant pas stocké.
Qu'en est-il de cet index ? Doit-il être maintenu en mémoire ?
...
Les recherches full texte sur deux caractères (type eu*) sont assez
rapides (150 à 200ms), le plus long étant la récupération des document
depuis l'index, en récupérant tous ses champs associés (3ms par document).
Ça semble effectivement raisonnable.
...
Ainsi, si vous n'y voyez pas d'objection, Lucene sera utilisé pour
stocker les meta données.
Merci pour cette note. En dehors de ma question sur la taille de l'index, nous 
n'avons pas d'objection. Lucene a fait ses preuves et à la vue de votre 
analyse, il nous paraît un bon choix technologique.

Cordialement

-- 
Nicolas Dumoulin
Ingénieur d?études - Cemagref, LISC
+33 (0)4.73.44.07.29
-------------- section suivante --------------
Une pièce jointe non texte a été nettoyée...
Nom: non disponible
Type: application/pgp-signature
Taille: 189 octets
Desc: This is a digitally signed message part.
Url: https://lists.labs.libre-entreprise.org/mailman/private/simexplorer-si-devel...

[Simexplorer-si-devel] Choix moteur base de données

nicolas.dumoulin＠cemagref.fr