Enterprise search zoekmachine herkent tekst in plaatjes
Enterprise search zoekmachines kunnen teksten gevangen in .pdf, .jpeg en .tiff documenten die als plaatje zijn opgeslagen normaal gesproken NIET lezen! Dit artikel beschrijft hoe bepaalde zoekmachines die dit wel kunnen.
Veel van de digitale archieven bij organisaties zijn nog gevuld met documenten die als plaatje zijn opgeslagen. Om ze voor zoekmachines leesbaar te maken is een kostbaar (tekst) herkenning OCR traject nodig. Het kost namelijk:
- Arbeid en computerkracht om de plaatjes met OCR leesbaar te maken.
- Van elk orgineel moet een kopie worden gemaakt.
- De kopie moet beheerd worden, zoals het regelen van toegangsrechten.
- Het kost extra schijfruimte op de server.
- Extra backup capaciteit voor de (nieuwe) documenten.
- Veel documenten zijn opgeslagen in document management systemen zodat de metadata en andere gegevens aangepast moeten worden.
- Versie beheer van documenten die tijdens het omzetten worden toegevoegd of gewijzigd.
- In veel databases zijn er links naar de documenten, deze dienen allemaal aangepast te worden.
Voordelen enterprise search zoekmachines met OCR
Door het toepassen van enterprse search zoekmachines met OCR vervallen al deze nadelen. Zoekmachine met OCR hebben de volgende voordelen.
- Het orginele document blijft intakt.
- Alle metadata blijven behouden.
- Versiebeheer gaat automatisch, elk gewijzigde of nieuwe document wordt direct in de index bijgewerkt.
- Geen kopie van het orgineel plaatje beheren op schijf en backup.
- Verwijzingen in document management, content management system, databases blijven intact.
- Gebruikers en beheerders hoeven niets te doen. De zoekmachine doet het indexeren geheel automatisch.
Hoe werkt een enterprise zoekmachine met OCR?
De werkwijze is gelijk aan het indexeren van documenten. De zoekmachine krijgt de opdracht om de silo met documenten te indexeren.
- De zoekmachine wil het document lezen en ziet dat het een plaatje is.
- Vervolgens leest de zoekmachine het plaatje met OCR.
- De gelezen tekst wordt in de index geplaatst.
- De gebruiker zoekt op de inhoud in de index.
- In de resultaten wordt de tekst uit de index getoont.
- Bij het inzien van het document opent het orginele (plaatje)document.
Waarom is plaatjes ontsluiten zinvol?
De opgeslagen kennis in de documenten wordt zonder omhaal beschikbaar. Er wordt niet meer alleen gezocht op de metadata er wordt ook gezocht op de tekst inhoud van documenten
Door de inzet van zoekmachines met OCR komt op eenvoudige en betaalbare wijze verborgen kennis in de documenten - plaatjes beschikbaar voor de kenniswerkers.
Goedkoop papier digitaliseren
Deze techniek kan ook ingezet worden voor het digitaliseren van papieren archieven. De documenten hoeven dan alleen gescanned te worden, zonder het kostbare OCR traject. Het is zelfs mogelijk om metadata aan documenten mee te geven met een slimme archivering in mappen. De index van de zoekmachine gebruikt deze mapstructuur om documenten van metadata te voorzien. Een techniek die veel geld bespaart.
Waarom papier omzetten naar digitale bestanden?
- Het beheren van digitale documenten is veel goedkoper dan papier.
- Papieropslag kost ruimte en ruimte kost geld.
- Gescande informatie kan eenvoudig via het beeldscherm worden teruggevonden, i.p.v. in de archiefkast.
- Documenten kunnen direct worden verstuurd via email of fax.
- De bewerkbare inhoud kan met knippen en plakken worden hergebruikt.
- Meerdere personen kunnen tegelijkertijd een document bekijken.
- Gebruikers kunnen verschillende toegangsrechten krijgen voor bepaalde documenten.
- De opgeslagen kennis in de documenten wordt zonder omhaal beschikbaar.
- Door het op andere locaties bewaren van een (online)backup kan informatieverlies bij calamiteiten worden voorkomen.
- Ongelimiteerd zonder kosten kopieën maken en deze delen met klanten, relaties en medewerkers.
- De documenten publiceren op het internet en/of intranet.
- De documenten omzetten in gewenste formaten.
Zie ook
Meer informatie deze over een enterprise search zoekmachine is te vinden op onze site met de Coveo zoekmachine...
|