Please enable JavaScript to view this site.

Administrationshandbuch

Navigation: Tech Doc > Performanceoptimierungen

Skalierung der Volltextindexierung

Scroll Zurück Oben Weiter Mehr

Der Durchsatz der Volltextindexierung der Archive ist im täglichen Betrieb für gewöhnlich ausreichend. Es gibt aber Situationen, wo eine große Anzahl von Dokumenten schnellstmöglich nachindexiert werden muss, z.B. nach der Übernahme der Archive aus einem externen DMS. Hierfür bietet JobRouter folgende Möglichkeiten

Parallele Verarbeitung Dokumenten

Archive mit vorwiegend mehrseitigen Dokumenten (> 2 Seiten)

Dabei werden die Seiten eines Dokumentes parallel in mehreren OCR-Threads verarbeitet. Der maximale Parallelisierungsgrad kann im Ordner des Dienstes JobServer in der Datei JobServer.exe.config für jedes Archiv wie folgt gesetzt werden: <ARCHIVTABLE_NAME>:<MAX_NUMBER_OF_THREADS>. Der maximale Parallelisierungsgrad darf im Bereich 1 bis 12 pro Archiv liegen.

  <applicationSettings>

    <JobServer.Properties.Settings>

 ......

      <setting name="InternalOcrMaxNumberOfThreads" serializeAs="String">

        <value>DUMMYARCHIVE1:1;DUMMYARCHIVE2:3;</value>

      </setting>

      ......

    </JobServer.Properties.Settings>

  </applicationSettings>

Nach der Änderung der Einstellungen muss der Dienst JobServer neu gestartet werden.

Archive mit vorwiegend einseitigen Dokumenten (1-2 Seiten)

Dabei werden mehrere OCR-Threads pro Archiv gestartet, welche die Dokumente unabhängig voneinander verarbeiten. Der maximale Parallelisierungsgrad kann im Ordner des Dienstes JobServer in der Datei JobServer.exe.config für jedes Archiv wie folgt gesetzt werden: <ARCHIVTABLE_NAME>:<NUMBER_OF_WORKERS>.

  <applicationSettings>

    <JobServer.Properties.Settings>

 ......

      <setting name="InternalOcrNumberOfWorkers" serializeAs="String">

        <value>DUMMYARCHIVE1:1;DUMMYARCHIVE2:3;</value>

      </setting>
      ......

    </JobServer.Properties.Settings>

  </applicationSettings>

Nach der Änderung der Einstellungen muss der Dienst JobServer neu gestartet werden.

Bitte beachten Sie: Die Parallelisierung ist nur für die OCR über die Interne Komponente verfügbar.
Jeder OCR-Thread kann einen logischen Prozessor voll auslasten und bis zu 100MB RAM verbrauchen. Dabei summiert sich der Verbrauch bei mehreren Archiven.
Werden bei einem Archiv gleichzeitig die beiden Skalierungsmethoden eingesetzt, multipliziert sich im Extremfall der Verbrauch als InternalOcrMaxNumberOfThreads * InternalOcrNumberOfWorkers.
Prüfen Sie deswegen im Vorfeld, ob dem Server, wo der JobServer Dienst installiert ist, genügend Ressourcen zur Verfügung stehen.