„@******aas
Natürlich werden die Bücher aufgeschnitten und die einzelnen Blätter im Block dzrchgescannt. Es macht nichts, da das Buch danach zerstört ist.
Ich dachte, es gibt ein Programm, mit dem man aus einem PDF ein epub generieren kann. Rein zum lesen, ohne jeglichen Komfort.
Zu Punkt 1: Das war nicht klar.
Zu Punkt 2:
PDF ist ein sogenanntes Containerformat, das dazu gedacht war, Schriftstücke originalgetreu wiederzugeben. Erstellt man ein "simples" PDF aus einem Scan, enthält es einfach nur ein Bild der gescannten Seite.
EPUB ist ein sogenanntes Strukturformat, das dazu gedacht ist, Texte strukturiert zu speichern und darzustellen. ePub kann tatsächlich auch Bilder einbinden, aber das ist ein Hilfskonstrukt.
Daher ist es technisch möglich, aus einem PDF voller Bilder von Buchseiten ein EPUB voller Bilder von Buchseiten zu machen, aber dazu ist es nicht gedacht. ePub möchte Text, den es in einem eBook-Reader dynamisch darstellen kann, mit größeren und kleineren Schriftarten, Anpassung an die Bildschirmgröße, und einer Struktur, die es dem Reader möglich macht, sich zu merken wo im Text er gerade ist.
Ein ePub voller Bilder kann das nicht - es wird die Bilder in der Größe darstellen, in der sie gescannt wurden, egal ob sie auf den Bildschirm passen oder nicht. Je nach Konvertierung wird das ePub alle Bilder auf quasi einer "Seite" darstellen - der Ebookreader wird nicht wissen, wo man mit dem Lesen aufgehört hat.
Und letztlich wird die Größe der Datei vermutlich sehr hoch sein - PDF benutzt für seine Bilder das TIFF-Format mit nur zwei Farben, schwarz und weiß, sehr platzsparend. EPUB verwendet PNG, JPEG, oder GIF, im Vergleich sehr viel platzhungrigere Formate als die im PDF.
Daher meine Anfangsargumentation: Um ein nutzbares ePub zu erstellen, braucht es Textextraktion.