ältlich

Am 21.02.2023 um 20:46 schrieb Achim Ebeling:

nee, pdf ist da nicht gut, ich benutze epub

ich wandele pdfs mit Calibre in epub um

Reply to
Tim Loeber
Loading thread data ...

Am 22.02.2023 um 22:25 schrieb Tim Loeber:

Und da kann man dann nach Wörtern suchen? Werde ich versuchen.

Reply to
Achim Ebeling

Am 22.02.2023 um 16:54 schrieb Achim Ebeling:

hab es noch nicht versucht, aber ich denke es wird gehen. Sonst musst Du es eben bei durchsuchbaren pdfs belassen.

Reply to
Tim Loeber

Epub ist HTML. Also entweder die Scans werden per OCR in Text umgewandelt oder sie werden als eingebundene Graphik angezeigt. Wenn nicht ersteres kannst Du die Suche vergessen. Wenn so, dann hängt es von der Qualität ab. Der Mensch ist immer noch überlegen. Einen sehr schlechten Scan kann er in der Regel trotzdem größtenteils lesen, das Gibberisch aus der OCR ist dann vollkommen wertlos.

Eine gute OCR aus einem guten Scan ist in der Regel nahezu fehlerfrei.

Reply to
Axel Berger

Tim Loeber snipped-for-privacy@rue.arg schrieb:

.pdf ist eine Seitenbeschreibungssprache. Da kannst Du eine Seite beispielsweise als Text einer bestimmten Schrift definieren (+ Layout + Bells & Whistles). Du kannst eine Seite aber auch als Bild definieren.

Entsteht ein PDF am Scanner, ist es meistens zweiterer Art: Der Scanner scannt ein Bild ein, das PDF ist nur der Umschlag drumherum.

Soll das PDF eines Scans durchsuchbar sein, wird man das Bild durch eine OCR schieben müssen.

EPUB kenne ich aus eigenem Erleben nicht, ich weiß nicht, ob bei der Umwandlung von PDF in EPUB automatisch eine OCR läuft.

(Cum grano salis, im Detail ist es noch etwas komplizierter)

Reply to
Martin Gerdes

Am 22.02.2023 um 22:59 schrieb Martin Gerdes:

Mein Scanner (Canon Lide 220) liefert, falls *.pdf gewählt wurde durchsuchbares PDF.

Grüße

Reply to
Leo Baumann

Am 22.02.2023 um 23:58 schrieb Tim Loeber:

Habs's nicht geglaubt. Aber Glauben ist bekanntlich nicht Wissen. Daher habe ich es mal versucht. Geht nicht, war mir aber vorher schon klar. Wäre auch zu einfach gewesen ;-)

Bist auch so ein Scherzkeks wie René Marquardt.

Genau darum ging es doch. Wie stelle ich "durchsuchbare PDFs" selbst her. Und da kam von René Marquardt auch nur: Ctrl F druecken? Ja sicher, dümmer geht immer, wie man sieht.

Aber ich habe scheinbar eine Lösung gefunden.

Reply to
Achim Ebeling

Ja kann ich vergessen, gerade getestet.

Habe ich gestern bei meinen Tests andere Erfahrungen gemacht, aber sei's drum.Glaube ich habe eine Lösung für mich gefunden.

Reply to
Achim Ebeling

Am 23.02.2023 um 04:00 schrieb Achim Ebeling:

Ich habe da relativ wenig Problemem mit einfachen Mitteln. Keine Spezialsoftware, vielleicht könntest Du mal eine Scan-Seite zur Verfügung stellen damit man die Ergebnisse vergleichen kann.

Bernd

Reply to
Bernd Laengerich

Am 23.02.2023 um 14:59 schrieb Bernd Laengerich:

Kann man an Deine WEB Adresse schreiben? Dann schicke ich Dir heute Abend was.

Reply to
Achim Ebeling

Wundert mich. Ich habe hier "Abbyy Finereader 6.0 Professional" von 2003 noch unter Win98SE. Es ist eine Vollversion, lag allerdings für mich kostenlos (bzw. mitbezahlt) einem gekauften Gerät bei. Neueres dürfte kaum schlechter geworden sein, möglicherweise aber teuer. Manche Versionen von Abbyy (vor allem die für Fraktur) kann man gar nicht mehr kaufen, nur noch mieten.

Meine derzeit häufigste Anwendung sind Titelangaben und Abstracts für meine Datenbank von in oft mäßiger Qualität gezogenen Scans aus dem Netz. Da stecken dann meist Fehler drin, aber Abbyy erkennt recht zuverlässig zweifelhafte Stellen und zeigt die als Highlight an.

Reply to
Axel Berger

Leo Baumann snipped-for-privacy@leobaumann.de schrieb:

Crossposting weggenommen. Es ist eigentlich nicht Sinn der Sache, einen Thread parallel in 3 NGs zu führen.

Klar. Das zugehörige Softwarepaket hat ja auch eine OCR eingebaut.

Reply to
Martin Gerdes

Achim Ebeling snipped-for-privacy@gmail.com schrieb:

Crossposting weggenommen. Es ist eigentlich nicht Sinn der Sache, einen Thread parallel in 3 NGs zu führen.

Indem Du den richtigen Scanner verwendest. Im Softwarepaket der kleinen Canon-Scanner ist eine OCR eingebaut. Wenn Du damit scannst und ".pdf" als Ziel anwählst, bekommst Du ein durchsuchbares .pdf

Ich mache das hier allerdings nicht so, weil gerade so eine einfache OCR nicht fehlerfrei arbeitet. Ich OCRe mir den Text heraus und korrigiere den dann manuell.

Frage der Menge, Frage des Anspruchs.

Mag sein.

Reply to
Martin Gerdes

Eben. Mir steht möglicherweise so eine Aktion mit einem mehr als hundertseitigen Registeranhang eines Buches von 1889 bevor. Einen selbstgemachten Scan habe ich schon, besser als der im Netz frei verfügbare. Einen ersten Test an einem Auszug gab es schon. Das Korrekturlesen wird viel Arbeit, aber die automatisierte Umsetzung in ein HTML mit Links auf die Verweisstellen war vielversprechend.

Jetzt muß das Projekt, von dem das ein kleiner Teil wäre, nur noch zustandekommen.

Durchsuchbares PDF kann Abbyy 6.0 nicht. Wenn man es versucht, wird aus meinen Seiten als 1-bit b/w PiNG ein sichtbar schlechteres und erheblich größeres JPeG. Das will ich nicht. Was bei mäßigem Anspruch manchmal geht ist Layout und Text mit Einfügen aller zweifelhaften Worte als kleine Graphik. Das Erkennen, wo sie Probleme hat, richtig zu lesen, kann die OCR recht gut.

Reply to
Axel Berger

Ich weiß jetzt nicht welche Programme ich probiert hatte. Die Ergebnisse waren allerdings nicht befriedigend. Egal. Habe mir nun mal die 7 Tage Testversion von Finereader 16 installiert. Er zeigt mir zwar einen Fehler an, hat aber das PDF Dokument genau und sauber erkannt und auch so abgespeichert, dass es genau so aussieht wie das Original. Vergilbt mit dem Bild (Grafik) an der richtigen stelle. Das hätte ich so nicht erwartet.

Muss ich mal sehen was ich jetzt mache. Mein Kostenloses Programm hatte ja auch schon die Seite korrekt umgewandelt. Wäre aber auch bereit Geld in die Hand zu nehmen. Aber ein Abo kommt nicht in Frage, das lohnt sich für mich nicht. Da müsste man schon mehr mit arbeiten. Oder alles in einem Jahr erledigen und dann wieder kündigen. Ginge auch. Aber solange es mit meinem Programm funkt, werde ich dies nutzen. Sind ungefähr 1.000 Seiten die ich einlesen muss.

Reply to
Achim Ebeling

Am 23.02.2023 um 20:24 schrieb Axel Berger:

Die ist ja auch aus der Römerzeit. Irgendwo war schon mal Abbyy 9 dabei, und das ist ewig her. PDF kann man auch einfach online mit OCR bearbeiten, wenn man nichts kaufen möchte. Habe ich schon mehrmals mit Scans von Servicemanuals, z.B. von HPAK heruntergeladenen, gemacht.

Bernd

Reply to
Bernd Laengerich

Tesseract geht für lau und ist mittlererweile ziemlich gut.

Volker

Reply to
Volker Bartheld

Die meide ich seit ich damit reingefallen bin. Bei einem kleinen Webshop ("man will ja nicht nur Amazon unterstützen") per "Vorauskasse" bezahlt und nichts böses geahnt. Der Fall ist jetzt beim Anwalt. Nie mehr ohne PayPal!

Gruß

Manuel

Reply to
Manuel Reimer

Das kann man auch ohne Paypal einfach vermeiden. Seriöse Shops liefern auf Rechnung, getreu dem guten alten Kaufmannsmotto "Erst Ware, dann Geld". Mit/Um Geld betrügt man deutlich leichter als mit/um Ware.

Das gilt genauso für ebay und ähnliche.

MfG Rupert

Reply to
Rupert Haselbeck

Ja, aber meins und bezahlt. Gerade erfolgreich unter Windows 10 installiert. Um die Settings besser abschreiben zu können beide gestartet -- da hat der ältere unter 98 wegen Lizenzbedingung gemeckert und sich beendet. Einer gleichzeitig geht aber nach wie vor auf beiden Geräten.

100 Euro jährlich wären inn der Zeit, die ich ihn nutze schon mindestens tausend. Ich bleibe bei dem, was ich habe.
Reply to
Axel Berger

ElectronDepot website is not affiliated with any of the manufacturers or service providers discussed here. All logos and trade names are the property of their respective owners.