• chevron_right

      Un fichier PDF grand comme l’univers ? C’est possible

      news.movim.eu / Numerama · Friday, 2 February - 15:32

    La taille maximale des PDF est, normalement, de plusieurs centaines de kilomètres de côté. Mais la développeuse Alex Chan a réussi, en modifiant quelques réglages, à faire un fichier PDF très, très très grand.

    • chevron_right

      Vous pouvez faire un PDF grand comme un tiers de l’Allemagne

      news.movim.eu / Numerama · Saturday, 1 July, 2023 - 09:34

    Les fichiers PDF peuvent être très lourds, et comporter un nombre important de pages. Mais saviez-vous que leur taille maximale était théoriquement encore plus grande que certains pays d'Europe ? [Lire la suite]

    Abonnez-vous aux newsletters Numerama pour recevoir l’essentiel de l’actualité https://www.numerama.com/newsletter/

    • chevron_right

      ResearchGPT – Comment discuter avec un PDF grâce à l’IA ?

      news.movim.eu / Korben · Tuesday, 6 June, 2023 - 07:00 · 1 minute

    Aujourd’hui, je vais vous parler d’une application vraiment cool qui va changer la façon dont vous interagissez avec les articles de recherche : ResearchGPT . Imaginez pouvoir poser une question à un article de recherche et obtenir une réponse pertinente en quelques secondes ! C’est exactement ce que fait cette application codée avec Flask.

    Alors, comment ça marche ?

    Et bien, vous pouvez tout simplement entrer un lien vers un PDF dispo en ligne ou uploader votre propre PDF. L’application va ensuite extraire le texte du PDF, créer des « embeddings » à partir du texte et les utiliser via l’API d’OpenAI pour générer une réponse cohérente à votre question. Et ce n’est pas tout : elle renvoie également la source de texte qu’elle a utilisée pour générer la réponse et le numéro de page.

    Pour essayer la démo, rendez-vous ici .

    Et si vous voulez l’installer vous-même, pas de problème ! Il vous suffit de cloner le dépôt GitHub, d’installer les dépendances et de définir votre clé API OpenAI en tant que variable d’environnement.

    Voici un tutoriel pas à pas :

    Clonez le dépôt GitHub et installez les dépendances :

    git clone https://github.com/mukulpatnaik/researchgpt.git
    pip install -r requirements.txt

    Pensez ensuite à exporter votre clés API OpenAI comme ceci :

    export OPENAI_API_KEY=votre-clé-API

    Ensuite, y’a plus qu’à lancer le script comme ceci :

    python main-local.py

    Pour l’avoir testé, ça fonctionne plutôt bien et on peut comme ça, poser des questions ou récupérer l’info qui nous intéresse directement sans devoir se taper tout le document à lire. Et comme ça donne les accès rapide vers les endroits où se trouve l’info d’origine, c’est top.

    Je suis également tombé sur ce script Python qui permet de faire à peu près la même chose mais je n’ai pas encore eu le temps de le tester. Je vous le partage quand même.

    En tout cas, je pense que ce genre d’outil peut grandement aider les scientifiques, les journalistes ou les étudiants qui manipulent des tonnes de données planquées dans des PDFs (quelle idée !)

    Plus d’infos ici.

    • chevron_right

      How to paste signatures into PDFs using Okular Document Viewer

      GadgeteerZA · news.movim.eu / gadgeteerza-tech-blog · Friday, 10 March, 2023 - 10:34

    Okular is a very versatile document viewer found on many Linux distros, but one of its shortcomings is not being able to just paste a transparent PNG format signature in. Pasting signatures into a PDF is often the commonly used method, as most businesses want a plain 'signed' PDF that they can print and view. Although digital signing is more secure and legally accepted, most businesses are not geared to understand how to use these (much like with encrypted e-mails).

    The workaround I show in this video, using custom stamps, is actually better than other document viewers in that you do not need to attach the file every time you want to paste a signature. You set up the custom stamp one, and just re-use that every time.

    See https://youtu.be/QtY_RTTVnYI

    #technology #PDF #signature #Okular

    • chevron_right

      Comment compresser un fichier PDF

      news.movim.eu / Numerama · Sunday, 30 October, 2022 - 08:20

    pdf

    Des outils en ligne existent pour diminuer gratuitement le poids d'un fichier PDF. Il est aussi possible de recourir à des logiciels, quand ils sont installés sur l'ordinateur. [Lire la suite]

    Abonnez-vous aux newsletters Numerama pour recevoir l’essentiel de l’actualité https://www.numerama.com/newsletter/

    • chevron_right

      L’édition des fichiers PDF devient encore plus conviviale sur Firefox

      news.movim.eu / Numerama · Thursday, 20 October, 2022 - 08:11

    Le lancement de Firefox 106 en octobre s'accompagne d'un support accru de l'édition des documents PDF. [Lire la suite]

    Abonnez-vous aux newsletters Numerama pour recevoir l’essentiel de l’actualité https://www.numerama.com/newsletter/

    • chevron_right

      Imprimer tout l’Internet comme Grand Papi avec Print Friendly

      news.movim.eu / Korben · Tuesday, 18 October, 2022 - 07:00 · 1 minute

    Si vous avez connu la Seconde Guerre Mondiale, vous aimez surement encore imprimer les pages web que vous trouvez pour pouvoir les lires OKLM devant une boite de Werther’s Original.

    Après si vous avez mon age et que c’est le Club Dorothée qui vous a élevé à la place de vos parents, exporter une page en PDF c’est aussi un moyen de l’avoir « physiquement » mais en dématérialisée (tu connais la sensation) pour s’y replonger plus tard. Le tout sans se faire chier avec de la mise en page chelou.

    Sauf que voilà, tous les sites web (le mien également), ne s’impriment pas bien (en PDF ou sur votre Canon obsolescente). Mais heureusement, pour ça il y a le site Print Friendly qui comme son nom l’indique vous permet de vous imprimer des amis afin de ne plus rester seul. Non, je déconne.

    Ca permet surtout de convertir en PDF ou d’imprimer n’importe quelle page web à partir de son URL et cela avec un rendu parfaitement propre (pas comme vos toilettes). Pas de pub, pas de div cheloues, pas d’espace blanc immense… Vous économisez du papier et de l’encre.

    Bref, super cool pour y voir plus clair et vous pouvez même régler la taille de la police et des images.

    Et si vous avez la flemme d’aller sur le site, il y a même une petite extension pour navigateur (Chrome, Firefox, Safari, Edge…) pour faire ça d’un clic. C’est super pratique !

    Et pour les dev, y’a même une API et un plugin pour WordPress…etc

    A découvrir .

    • chevron_right

      Firefox va vous permettre d’écrire et dessiner dans vos PDF

      news.movim.eu / Korben · Sunday, 9 October, 2022 - 08:44

    Il y a une petite nouveauté qui ne va pas tarder dans Firefox qui n’a pas l’air de grand chose mais qui va vous faire gagner du temps en plus de vous faire plaisir.

    Signalée par Maxime, lecteur assidu de Korben.info, cette nouveauté n’est présente pour le moment que dans la version Dev de Firefox et j’étais passé totalement à côté. Ça se passe au niveau de la visionneuse PDF intégrée à Firefox qui permet -enfin- d’annoter avec du texte ou des petits dessins n’importe quel PDF.

    Vraiment très pratique pour faire des retours sur un PDF ou tout simplement faire des modifications simples. Il suffit de prendre l’outil dessin et de recouvrir de blanc le texte, avant d’écrire à nouveau dessus avec l’outil texte. Il ne s’agit pas d’un vrai outil d’édition de texte PDF pour le moment car on ne peut pas éditer le texte existant mais c’est déjà pas si mal, je trouve.

    Hâte d’avoir ça dans Firefox final.

    Merci à Maxime pour l’info !

    • It chevron_right

      Use gImageReader to Extract Text From Images and PDFs on Linux

      pubsub.do.nohost.me / ItsFoss · Monday, 8 March, 2021 - 15:05 · 2 minutes

    Brief: gImageReader is a GUI tool to utilize tesseract OCR engine for extracting texts from images and PDF files in Linux.

    gImageReader is a front-end for Tesseract Open Source OCR Engine . Tesseract was originally developed at HP and then was open-sourced in 2006.

    Basically, the OCR (Optical Character Recognition) engine lets you scan texts from a picture or a file (PDF). It can detect several languages by default and also supports scanning through Unicode characters.

    However, the Tesseract by itself is a command-line tool without any GUI. So, here, gImageReader comes to the rescue to let any user utilize it to extract text from images and files.

    Let me highlight a few things about it while mentioning my experience with it for the time I tested it out.

    gImageReader: A Cross-Platform Front-End to Tesseract OCR

    gimagereader

    To simplify things, gImageReader comes in handy to extract text from a PDF file or an image that contains any kind of text.

    Whether you need it for spellcheck or translation, it should be useful for a specific group of users.

    To sum up the features in a list, here’s what you can do with it:

    • Add PDF documents and images from disk, scanning devices, clipboard and screenshots
    • Ability to rotate images
    • Common image controls to adjust brightness, contrast, and resolution
    • Scan images directly through the app
    • Ability to process multiple images or files in one go
    • Manual or automatic recognition area definition
    • Recognize to plain text or to hOCR documents
    • Editor to display the recognized text
    • Can spellcheck the text extracted
    • Convert/Export to PDF documents from hOCR document
    • Export extracted text as a .txt file
    • Cross-platform (Windows)

    Installing gImageReader on Linux

    Note : You need to explicitly install Tesseract language packs to detect from images/files from your software manager.

    tesseract language pack

    You can find gImageReader in the default repositories for some Linux distributions like Fedora and Debian.

    For Ubuntu, you need to add a PPA and then install it. To do that, here’s what you need to type in the terminal:

    sudo add-apt-repository ppa:sandromani/gimagereader
    sudo apt update
    sudo apt install gimagereader

    You can also find it for openSUSE from its build service and AUR will be the place for Arch Linux users.

    All the links to the repositories and the packages can be found in their GitHub page .

    Experience with gImageReader

    gImageReader is a quite useful tool for extracting texts from images when you need them. It works great when you try from a PDF file.

    For extracting images from a picture shot on a smartphone, the detection was close but a bit inaccurate. Maybe when you scan something, recognition of characters from the file could be better.

    So, you’ll have to try it for yourself to see how well it works for your use-case. I tried it on Linux Mint 20.1 (based on Ubuntu 20.04).

    I just had an issue to manage languages from the settings and I didn’t get a quick solution for that. If you encounter the issue, you might want to troubleshoot it and explore more about it how to fix it.

    gimagereader 1

    Other than that, it worked just fine.

    Do give it a try and let me know how it worked for you! If you know of something similar (and better), do let me know about it in the comments below.