Etiquetas

jueves, 21 de noviembre de 2013

L’OCR Reconeixement òptic de caracters y Digitalització dels originals.

3/12/13


Digitalització dels originals.

- Un cop s'ha rebut l'original
- S'ha comprovat que compleix les especificacions d'entrega
- Que és adequat en relació amb les pautes marcades a l'ordre de treball
- S'ha fet una còpia de treball
- S'ha recollit l'operativa d'aquest procés en les fitxes corresponents.

Originals no digitals
Manuscrits

- Es fa necessária una lectura atenta per a evitar errors d'interpretació
- Ateesa la peculiaritat del format de presentació és recomenable que el teclista que está digitalitzant el text tingui la posibilitat d'accedir dirctament a l'autor.

- Millor fins i tot, si es posible, ha de ser el propi autor qui a modus d'escritor llegeixi l'original perqué el treclista teclegi el text amb més garanties.

Parlats

- En aquest cas es fa necessária una audicio atenta
- Igual que en el cas anterior es recomenable l'acces directe del teclista amb l'autor.
- Aquest modalitat d'original fa necessari "picar" el text primer sense realitzar  a la interpretació de l'original a fi i efecte de no distreure's de l'operació.

Originals en format digital

- En la recepció de l'original ja s'ha determinat prèviament en el procés de recepció d'originals si el format en que es presenta l'original és compatible amb els equips disponibles a l'empresa i si es requereix conversió

Sense composar
- En aquest cas es canvia el format si procedeix, tenint en compte les especificacions generals i s'imprimeix una cópia sobre la que realitzar el marcat

Mig composat
- En aquest cas s'aprofita el format si procedeix, tenint en compte les especificacions generals i simprimeix una cópia sobre la que realitzr el marcat.

Establiment dels paràmetres tipogràfics
- Conisteix en determinar i marcar sobre la cópia de treball o millor en una fitxa d'especificacions tipogràfiques la forma en que han de disposar-se els textes i altres elements complementaris ( quadres, taules) de l'obra.

- Aquest procés es realitza un cop que s'ha digitalitzat l'original i s'ha obtingut còpies impresses del treball sense compaginar.

- Previament o al maeix temps que se estableixen els paràmetres tipogràfics, es realitza la correcció de geraldes.

- Aquesta tasca l'hauria de fer l'autor al costat dels correctors corresponents

- Generalment aquestes especificacions han d'aparèixer en un lloc visible i lògic.

- Així les especificacions generals es presentaran a la primera pàgina.

1. Text general

- Ès aquell que predomina en el text, exposa les idees principals i, per tant, és el cos de l'obra.
- La seva característica principal es la llegibilitat.
- Ha de facilitar la lectura perqué al lector aquesta li sigui inteligible, en la mesura que sigui posible, atés el tema tractat.

2. Textes indicatius

- Són aquells que apareixen en la pàgina i associats o no al text general i que tenen una funció clarament informativa.

- Pertanyen a aquest categoria els títols, subtítols i folis.

- Atesa la seva funció, s'han de destacar de la resta de text pero no en excés; es trtacta de proporcionar informació sense estridéncia.

3. Textes secundaris

- És aquella que apareix en l'obre sense ser el text general, complementant l'exposició desenvolupada al text general

- Són textes secundaris:les notes, cites, índexs, peus d'il.lustració, quadres i taules.

- Els pròlegs, introccuions, epílogs i textes similars poden ser tractats com a textes secundaris o com a part del text general, i per tant, s'haurà d'indicar convenientment.


Calibrat de l'original

- Consisteix en calcular el nombre de càracters d'un original.
- Tal dada, a més de les especificacions del disseny de l'obra (caixa de composició, disposició dels bancs, pàgines en blanc..)


1. Procediments de calibrat convencional

Original mecanografiat

- Un cop l'original s'ha presentat en la forma adient i s'han realitzat les còpies pretinents es procedeix al càlcul




L’OCR

Reconeixement òptic de caracters.

• Es tracta dʼuna de les aplicacions més comunes dels escàners.
• OCR són les sigles dʼOptical Character Recognition, reconeixement òptic de caracters, o amb una descripció més senzilla: cóm fer per a ensenyar a llegir a lʼordinador.


 és un programa que llegeix aquestes imatges digitals i busca conjunts de punts que sʼassemblin a lletres, a caracters.

Perquè el programa pugui realitzar aquestes tasques amb una certa fiabilitat, sense confondre «t» amb «1»,
per exemple, la imatge que li proporcionem ha de complir unes certes característiques.





Fonamentalment ha de tenir una gran resolució, uns 300 ppp per a textes amb tipus de lletra clars o 600 ppp si es tracta de tipus de lletra petits u originals de poca qualitat com els diaris.

Perque sino el texte es veria pixelat.





LʼOCR: problemes en el reconeixement òptic de caracters

• El procés bàsic que es du a terme en el Reconeixement Òptic de Caràcters és convertir el text que apareix en una imatge en dades que podran ser editades i utilitzades com a tal per qualsevol programa o aplicació que les necessiti.

Les imatges reals no són perfectes, per tant el Reconeixement Òptic Caràcters es troba amb diversos problemes:

• El dispositiu que obté la imatge pot introduir nivells de grisos en el fons que no pertanyen a la imatge original.


•La resolució d’aquest dispositius pot introduir soroll a la imatge, afectant als píxels que han de ser processats.


•La separació dels caràcters. Al no existir un espai fix entre ells, pot produir errors a la hora del reconeixement.


•La connexió de dos o mes caràcters per píxels comuns també pot produir errors.



Esquema bàsic dʼun algorisme de Reconeixement Òptic de Caràcters


Tots els algorismes de Reconeixement Òptic de Caràcters tenen la finalitat de poder reconèixer un text d’una imatge qualsevol per poder-lo tractar posteriorment.

Per tal de fer-ho es basen en 4 passos:

1. Binarització

• La major part d’algorismes d’OCR parteixen de la base d’una imatge binaria (dos colors) per tant és convenient convertir una imatge amb escala de grisos, o color, en una en blanc i negre, de tal manera que es preservin les propietats essencials de la imatge.• Una forma de fer-ho es mitjançant l’histograma de la imatge on es mostra el nombre de píxels per cada nivell de gris que apareix a la imatge.

• Per binaritzar-la haurem de triar un llindar adequat, a partir del qual tots els píxels que no el superin es convertiran en negre i la resta en blanc.

• Mitjançant aquest procés obtenim una imatge en blanc i negre on queden clarament marcats els contorns dels caràcters i símbols que conté la imatge.

• A partir d’aquí podem aïllar les parts de la imatge que contenen text (més transicions entre blanc i negre).





2. Fragmentació o segmentació de la imatge

• Aquest és el procés més costós i necessari pel posterior reconeixement de caràcters.
• La segmentació d’una imatge implica la detecció mitjançant procediments d’etiquetat determinista o estocàstic, dels contorns o regions de la imatge, basant-se en la informació d’intensitat o informació espacial.
• Permet la descomposició d’un text en diferents entitats lògiques.

• Tot i això les tècniques més utilitzades són variacions dels mètodes basats en projeccions lineals.

• Existeixen altres mètodes com per exemple:

– el detector de contorns de Sobel 

– l’operador de Kirsch 

– el detector de contorn de Marr-Hildert 

– el detector de contorns de Canny.


3. Simplificació de les components


• Un cop aïllades les components connexes de la imatge s’haurà d’aplicar un procés de simplificació per a cada una d’elles.

• L’eliminació dels punts ha de seguir un esquema d’escombrats successius per tal que la imatge continuï tenin les mateixes proporcions que l’original i aconseguir que no quedi deformada.


4. Comparació amb patrons

• En aquesta etapa es comparen els caràcters obtinguts anteriorment amb uns caràcters teòrics (patrons) emmagatzemats en una base de dades.

• El bon funcionament de l’OCR es basa en gran mesura en una bona definició d’aquesta etapa.

• Per dur a terme la comparació amb els diferents patrons existeixen diferents mètodes:

          -Un d’ells és el Métode de projecció, en el qual s’obtenen les projeccions verticals i horitzontals       del caràcter a reconèixer i es comparen amb l’alfabet de caràcters possibles fins a trobar la màxima         correspondència.

• Existeixen altres mètodes com per exemple:

– Mètodes geomètrics o estadístics 

– Mètodes estructurals 

– Mètodes Neuro-mimètics 

– Mètodes Markovians

– Mètodes de Zadeh.


LʼOCR: aplicacions

• Des de l’aparició dels algorismes de Reconeixement Òptic de Caràcters han sigut molts els àmbits que han introduït aquests processos per augmentar el rendiment dels seus i serveis i d’altres que es basen completament en aquestes tecnologies.


• A continuació es mostren tres de les moltes aplicacions més destacades que utilitzen l’OCR.

Reconeixement de textes manuscrits

Reconeixement de matrícules

Indexació en bases de dades













No hay comentarios:

Publicar un comentario