[Uwazi] Process pour uploader les PDF
-
J'ai commencé à ajouter les PDFs à la main sur Uwazi, l'outil qui nous permettra de construire une archive publique sur les documents juridiques, techniques, commerciaux relatifs aux projets de Safe City.
Même si on a un bon outil, il faudrait mettre en place un process. Genre un dossier partagé dans lequel on pourrait collectivement charger des PDF et qui puisse recevoir avant d'être publié sur data.technopolice.fr :
- un check sur les données personelles qu'il contient, si le type de document dont il s'agit est sensible (ex: demandes CADA avec des noms et prénoms ou adresses mails qu'on pourrait vouloir caviarder).
- un check OCR, pour OCR-iser les documents pour lesquels c'est nécessaire.
- ?
Pensez-vous que cela soit raisonnable ? Quelle serait la manière la plus « légère » (en terme de temps, de ressources) de faire ça ?
-
Le réceptacle d'accueil temporaire avant répartition dans les bons items des documents est une bonne idée. Il serait sans doute plus facile de le faire petit à petit pour ce début, par grandes dossiers thématiques, j'imagine que la base de dossiers obtenus est déjà conséquente et si on uploade tout tout de suite, on va être noyé sous la masse, non ? Après le souci sera différent, ce sera du 'fil de l'eau' au fur et à mesure que les documents seront obtenus.
Pour les checks :
- le premier check devra faire j'imagine l'objet d'échanges et d'arbitrages, j'imagine que tous les noms ne seront pas à caviarder ; il faudrait sans doute prévoir un espace non accessible au tout public pour en discuter, document par document qui soulèverait la question ;
- le check OCR sur des documents denses sera difficile à opérer je crois, sans système magique clé en main. Il y a moyen de bidouiller, mais c'est chronophage et artisanal. Ne peut-on à défaut garder ce check qu'aux document dont il est indispensable qu'ils le soient ?
- Suggestion : un check métadonnées de précaution serait à ajouter je pense. Ce sont des informations potentiellement utiles et exploitables, mais qui pourrait laisser apparent malgré nous des infos perso.
- Suggestion : un check renommage des documents (du fichier en amont de l'upload), suivant une logique définie en amont ? Même si Uwazi est censé nous aider à exploiter les documents, un renommage cohérent dès le début nous permettrait de garder une réversibilité de stockage/archivage pour un usage dégradé ultérieur ou différent.
- Suggestion : un logique harmonisée de titre/description.
-
Sur les checks, très bonne idée que d'en faire un sur les métadonnées (à effacer par défaut non ?). Pour discuter des questions que soulèverait le caviardage, ce forum n'est pas mal non ?
Sur le renommage, et la convention de nommage, je pense qu'on peut l'articuler par rapport à la taxonomie qu'on va définir (par exemple TYPEDOC__NOM_VILLE/ACTEUR_DATE, genre Projet_CCTP-BDTP_Marseille_2018 pour celui-ci).
Du coup, le top ce serait d'avoir un petit outil qui permettrait, en se rendant sur un URL dédiée, d'uploader un document caviardé et scanné, et d'avoir:
- un renommage du fichier
- rendu des métadonnées et effacement des métadonnées (par défaut, à décocher si on y voit des choses intéressantes)
- un traitement OCR pour lequel @vinci nous disait qu'il y avait peut être une solution.
Je rêve en couleur ou bien est-ce faisable à votre avis ?
-
@felix a dit dans [Uwazi] Process pour uploader les PDF :
Sur les checks, très bonne idée que d'en faire un sur les métadonnées (à effacer par défaut non ?)
Pas toujours peut-être, je m'interroge. On pourrait par exemple s'apercevoir qu'un document communiqué par la ville a été rédigé par le partenaire commercial en charge du projet, ce genre de choses. Cela pourrait être intéressant d'en garder trace, ou à défaut mémoire.
Par exemple, sur le doc PDF "Convention d expérimentation Safe City ville de Nice", les méta indiquent en auteur WEINLING Thomas, de Thalès semble-t-il. Il me semble que c'est intéressant d'avoir connaissance que la convention d'expérimentation a été rédigée par cette partie.
-
@felix a dit dans [Uwazi] Process pour uploader les PDF :
Je rêve en couleur ou bien est-ce faisable à votre avis ?
Je ne suis pas dév, je ne saurais pas faire ce genre de choses :/ Cela me semble jouable cependant par quelqu'un de compétent en la matière. Il n'y a que le traitement OCR qui me semble délicat.
-
J'ai eu @Vinci au téléphone... on devrait avoir un outil fonctionnel (mais pas public) d'ici la semaine prochaine pour OCRiser les docs...