Mehr brandheiße Inhalte
zur Gruppe
Handjob
2784 Mitglieder
zum Thema
Fotobuch als PDF6
Sicher hat hier außer mir auch schon mal irgendwer anderes ein…
Das Thema ist für dich interessant? Jetzt JOYclub entdecken

Weltweit: Syntaxfrage zu durchsuchbarer PDF-Datei

*********s_65 Mann
531 Beiträge
Themenersteller 
Weltweit: Syntaxfrage zu durchsuchbarer PDF-Datei
Hallo,

wenn man mit einem Scanner ein Dokument scannt und Texterkennung vorhanden ist, dann kann man sich eine "durchsuchbare PDF-Datei" erzeugen lassen. - In ihr kann man dann nach dem Text suchen lassen. - Funktioniert auch prima... *g*

Ich hätte nun nur gerne gewußt wie die Syntax für diese zusätzlich eingefügten Textdaten ist! - Weiß das jemand? Welche Steuercodes oder Syntax, oder wie dies in der Originalspezifikation heißt? - Denn in 1.300 Seiten englischem Text was zu finden ist nicht so ohne... - Und wer weiß ob's überhaupt drin steht... *zwinker*

Habe im Netz alles ausgesucht... - Manche schreiben von zusätzlicher Textebene die unsichtbar formatiert ist... - Ich habe ein solches Dokument das auch funktioniert und habe nach einem best. Wort in dieser Datei mit einem normalen Text-Editor suchen lassen... - Er hat es nicht gefunden! - Weiß jemand an was das liegt?

Vielen Dank schon mal für Eure Hilfe! *g*
Hi,

richtig, wenn OCR funktioniert hat, wird eine weitere und durchsuchbare Textebene angelegt (ich glaube unterhalb der Bildebene).

Wenn ich mal händisch in PDFs arbeite dann hilft mir dieser Link:
http://www.p2501.ch/pdf-howto/grundlagen/aufbau_und_syntax/start

Ansonsten kannst Du doch auch das PDF als Rich-Text-Format (RTF) exportieren, das Textformat lässt sich sehr einfach manuell oder maschinell durchsuchen.
*********s_65 Mann
531 Beiträge
Themenersteller 
Ergänzung
Habe auch mit Hex-Editor und versch. Zeichensätzen rumprobiert... - Hat auch nichts gebracht...

PDF scheint big-endian zu sein... - Ich arbeite mit PC, also little-endian...

PDF hat wohl mind. zwei Kodierungen für Zeichen... eine scheint UTF-16BE zu sein... - Eine andere Codewahl beim Hex-Editor bringt aber auch nichts...
******ung Mann
6.418 Beiträge
Ich kann dir nicht folgen *augenzu*
Du willst eine durchsuchbare PDF-Datei durchsuchen...dann durchsuch sie doch...
Du wirst ein bestimmtes Wort nicht schneller finden, nur weil du weißt wie der Aufbau der PDF ist...
*********s_65:
Ich habe ein solches Dokument das auch funktioniert und habe nach einem best. Wort in dieser Datei mit einem normalen Text-Editor suchen lassen... - Er hat es nicht gefunden! - Weiß jemand an was das liegt?
Und was meinst du damit?
Du hast die PDF in einem Texteditor geöffnet und dann gesucht?
Das kann nicht funktionieren - weil du das PDF erstmal in ein entsprechendes Format umwandeln musst...
Dazu gibts verschiedene Möglichkeiten...eines davon ist Nitro - ein ziemlich fähiges PDF-Tool...meiner Meinung nach locker geeignet um Adobe abzulösen für die aller meisten Fälle.
Oder auch Online und kostenlos:
https://smallpdf.com/de/pdf-in-word
Da kannst du das PDF umwandeln in ein Format, wo du dann auch mit Texteditoren drauf zugreifen kannst...aber wozu?
Das kannst du doch nur brauchen, wenn du das Dokument verändern willst oder?

Vielleicht hab ich deine Frage aber auch nicht beantwortet, dann weil - siehe Post-Anfang...
*********s_65 Mann
531 Beiträge
Themenersteller 
@tomtoy
zeitlich überlappt... *zwinker*

Danke tomtoy!

Die Infopage hatte ich auch benutzt, die ist echt toll, habe aber dort leider auch nichts darüber gefunden...

Das mit RTF habe ich nicht verstanden... - Wüßte nicht wie ich nach RTF exportieren sollte (von Acrobat-Reader aus??? Oder wie meinst Du?).

Und selbst wenn ich RTF hätte, dann könnte ich doch sicher keine Rückschlüsse auf PDF machen, oder doch? - Möchte ja gerade sehen, wie es im PDF drinsteht...
*********s_65 Mann
531 Beiträge
Themenersteller 
@Forderung
Es geht mir "aktuell" nicht darum den Text im PDF zu suchen, sondern den Aufbau der PDF-Datei auf Byte-Ebene zu verstehen! - Zumindest Teile davon... - Vieles ist ja auch schön auf dem angesprochenen Link beschrieben...

Bei mir geht's um mehrere Dinge... - Zum einen das Umsortieren von Seiten im PDF (gerade/ungerade Seiten), dann auch noch um ganze Verzeichnisse mit PDF-Dateien nach Text innerhalb der PDFs zu durchsuchen per eigenem Programm und aktuell gibt's auch noch einen Scanner der keine durchsuchbaren PDFs macht, da müßte man auch mal schauen... *zwinker* - Das mal so als Hintergrund...

Nun ich will das PDF ja eben gerade NICHT umwandeln, sondern im Original suchen! - Sowas kann man (wenn man nur einen gewissen Punkt sucht) ja schon mal mit einem Texteditor oder Hex-Editor machen... *zwinker* Wenn man weiß wo welches Byte steht und wie man es interpretieren muß... - Und beim guten alten ASCII könnte man auch bequem nach Text suchen... - Und könnte sich dann wunderbar die Steuercodes um den Text herum ansehen... *zwinker* - Aber wenn der reine Text auch schon anders codiert ist, dann geht das natürlich nicht... - Deshalb eben den Hex-Editor genommen und die Kodierungen umgeschaltet... - Aber brachte nichts...

Ein paar Dinge in der PDF-Datei scheinen ja durchaus noch ASCII codiert zu sein, diese wenigen kann ich ja prima lesen... *g*

Hoffe es ist jetzt klarer geworden... - Das Dokument selbst will ich nicht ändern, nein!

Was aber ganz praktisch wäre, wäre das Zusammenführen gescannter PDFs mit Korrekturmöglichkeit für die Seitenreihenfolge...
*********lich Frau
2.266 Beiträge
Tastenkombination "Strg" + "F" erzeugt ein Suchfenster.
*********s_65 Mann
531 Beiträge
Themenersteller 
Zwischeninfo
So, die Syntax für den OCR-Text habe ich zwar noch nicht gefunden, aber ich weiß nun warum ich wohl die gesuchten Wörter mit dem Editor nicht finde...

Bei einem unkomprimierten PDF würde man wohl alles mit dem Editor lesen können... - Allerdings scheint sowohl der Scanner als auch andere Programme nicht nur Bilder zu komprimieren, sondern auch Text!

Man kann bei PDF wohl sehr viel komprimieren lassen... - Bis auf ein Grundgerüst, das wohl erhalten bleiben muß, sonst funktioniert ja gar nichts mehr... *zwinker* Und dieses Grundgerüst kann ich ja auch sehen...

Jeglicher Text des Dokumentes (inkl. der Steuercodes in diesem Bereich) scheint aber komprimiert und dadurch unleserlich... - Müßte man erst per Programm de-komprimieren...
PDF dekodieren
Hi,

verstehe Dein Anliegen nun etwas besser.

PDFs werden (je nachdem, was bei der Erzeugung eingestellt wird) in einem binären Format gespeichert. So ein Format musst Du erst in ASCII dekodieren, bevor Du damit arbeiten kannst. Die Dateien werden ziemlich groß beim Dekodieren. Nach der Bearbeitung kannst Du den Stream auch wieder in Binärcode wandeln.

Unter Linux gibt es dafür das Tool QPDF (http://qpdf.sourceforge.net/), das in den meisten Distributionen schon enthalten ist - also beispielsweise in Live-CDs wie Knoppix oder Ubuntu Live.

Allerdings ist das Dekodieren von größeren Dateien schon sehr rechenintensiv und eine Live-CD wirkt sich nicht unbedingt positiv auf die Performance aus.

Der einfachere Weg wäre also, die PDFs in RTF oder docx zu konvertieren und dann darin zu suchen. Bei der Konvertierung zu docx bleibt auch die Paginierung grob erhalten. Tools dafür sind ja schon vorgestellt worden (Nitro oder auch ganz herkömmlich einfach Acrobat).

Grüße
tom
Anmelden und mitreden
Du willst mitdiskutieren?
Werde kostenlos Mitglied, um mit anderen über heiße Themen zu diskutieren oder deine eigene Frage zu stellen.