Aller au contenu principal

Reconnaissance optique des caractères (OCR)

La reconnaissance optique de caractères (OCR) consiste à transformer une image contenant du texte en un format que la machine peut interpréter. Lorsque vous numérisez un document texte, l'ordinateur le stocke comme un fichier d'image, empêchant l'édition directe de texte ou la recherche. L'OCR permet la conversion de l'image en texte.

Activation de la ROC

Vous pouvez activer OCR depuis l'écran de configuration, dans la section "Général". Une fois que vous aurez fait cela, Joplin va scanner vos images et vos fichiers PDF pour extraire des données textuelles. Ces données ne seront pas visibles mais seront associées à ces fichiers.

Ensuite, lorsque vous effectuez une recherche, l'application sera en mesure de vous indiquer quelles notes mais aussi quelles pièces jointes correspondent à la requête. Dans ce cas, une bannière sera affichée en haut de la note contenant les pièces jointes:

La recherche dans le texte OCR est activée sur le bureau et l'application mobile. La numérisation des documents n'est cependant disponible que sur l'application de bureau car il s'agit d'un processus relativement gourmand en ressources. L'application mobile aura accès à ces données OCR par synchronisation.

Pour l'instant, la ROC est fiable lors de la numérisation de textes imprimés, de PDF en particulier, ou d'images où le texte est clair, comme les captures d'écran. Actuellement, nous ne prenons pas en charge le texte manuscrit et le texte sur les photos peut être reconnu ou non selon la clarté de son contenu.

Traitement initial

Comme mentionné ci-dessus, le traitement des images et des PDF peut être intense en ressources, surtout si vous avez beaucoup de pièces jointes. Ainsi, la première fois que vous activez cette fonctionnalité, ne soyez pas surpris si l'utilisation du processeur Joplin est plus élevée que d'habitude. Une fois que le balayage initial de toutes vos pièces jointes est terminé, cela reprendra la normale. Late,r chaque fois que vous attachez un fichier, il sera scanné rapidement d'une manière qui n'est pas remarquable.

Déconnecté en premier

Comme toujours, Joplin est d'abord hors ligne, ce qui signifie que l'OCR arrive également hors ligne sans avoir besoin d'une connexion internet et, plus important encore, sans avoir à transférer vos données personnelles dans un nuage tiers. L'inconvénient est l'utilisation initiale susmentionnée des ressources de votre ordinateur, mais nous pensons que cela vaut la peine d'activer le support hors ligne complet.

Système branché

La ROC est une technologie qui évolue rapidement, en particulier avec les progrès récents dans le domaine de l’IA et du grand langage (LLM) en particulier. En tant que tel, Joplin OCR est conçu pour être branchable. Nous surveillerons les technologies OCR open source existantes et nous pourrons basculer vers une autre technologie si cela a du sens, ou fournir une prise en charge pour plusieurs personnes.

De plus, dans certains cas, il peut être judicieux d'utiliser une solution basée sur le cloud, ou simplement de se connecter à votre serveur auto-hébergé ou intranet pour OCR. Le système actuel le permettra en écrivant des pilotes spécifiques pour ces services.

Cette interface branchable est présente dans le logiciel mais n'est pas exposée actuellement. Nous le ferons en fonction des commentaires que nous recevons et des cas d'utilisation potentiels. Si vous avez un cas d'utilisation spécifique en tête ou si vous remarquez un quelconque problème avec le système OCR actuel, n'hésitez pas à nous le faire savoir [sur le forum](https://discours. oplinapp.org/).