UF2:Digitalització de textos








Manuscrits

son els originals escrits a ma
no son molt usuals en l'activitat i moltes empreses els rebutjen ateses les dificultats i els costos que implica el canvi de format
tot i això alguns autors, fonamentalment del camp de la literatura, tenen el ‘mal’ costum d'entregar els seus originals en aquest format.


Parlats/ Audio

  • Una altra opció més estranya que la anterior.
  • en aquest cas, el texte es presenta en format audio, be sigui analògic o digital i  l'empresa de preimpresió s'ha de fer la conversió de format a mesura que s'escolta.
  • per les mateixes raons que en les de tipus manuscrit, aquests originals poden ser rebutjats.

Mecanografia

  • En desus. en aquest cas, l'original es presenta mecanografiat.
  • Presentació habitual d'originals de text fins fa pocs anys; en l'actualitat s'ha vist relegat per la irrupció de l'informàtica i les seves múltiples avantatges.
  • Amb tot, encara hi ha autors aferrats a aquesta forma de treball, però cada cop són menys.
  • El canvi de format no presenta grans problemes, però sí pèrdues de temps i, per això, encariment del procés.


Resultat d'imatges de ocr


OCR






LʼOCR:


 Introducció


•Es tracta dʼuna de les aplicacions més comunes dels escàners. 


• OCR són les sigles dʼOptical Character Recognition, reconeixement òptic de caracters, o amb una descripció més senzilla: cóm fer per a ensenyar a llegir a lʼordinador.


• El que desitjariem en definitiva seria que lʼordinador sapiguès llegir com nosaltres.


• Doncs bé, això ho fa lʼOCR: és un programa que llegeix aquestes imatges digitals i busca conjunts de punts que sʼassemblin a lletres, a caracters.


 • Depenén de la complexitat dʼaquest programa, entendrà més o menys tipus de lletres, arrivant en alguns casos a interpretar lʼescritura manual, mantenir el format original (columnes, fotos entre el text…) o a aplicar regles gramaticals per a augmentar la exactitud del procés de reconeixement.


 • Perquè el programa pugui realitzar aquestes tasques amb una certa fiabilitat, sense confondre «t» amb «1», per exemple, la imatge que li proporcionem ha de complir unes certes característiques.


 • Fonamentalment ha de tenir una gran resolució, uns 300 ppp per a textes amb tipus de lletra clars o 600 ppp si es tracta de tipus de lletra petits u originals de poca qualitat com els diaris.


 • Per contra, podem estalviar en lʼaspecte del color: gairebé sempre serà suficient amb blanc i negre (1 bit de color), o com a màxim una escala de 256 grisos (8 bits).


 • Per aquest motiu a alguns escàners de corró (molt apropiats per a aquest tipus de
              tasques) els hi manca suport per al color.


 • Si pensem una mica en el procés de escanejat que hem descrit anteriorment, ens
   nʼadonarem de que a lʼescanejar un texte no sʼescanejen lletres, paraules i frases, sinó 
   senzillament els punts que les formen, una mena de fotografia del texte.


 • Evidentement, això pot ser útil per a arxivar textes, però seria desitjable que poguessim agafar totes aquestes referències tan interesants però tan feixugues i incorporar-les al nostre processador de texte no com una imatge, sinó com texte editable.

 LʼOCR: optimització dels recursos.


 • En els últims anys la digitalització de la informació (textes, imatges, so, etc.) s’ha convertit en un punt d’interès per la societat.


 • En el cas concret dels textes, existeixen i es generen contínuament grans quantitats d’informació escrita, tipogràfica o manuscrita en tot tipus de suport.


 • En aquest context, poder automatitzar la introducció de caràcters evitant l’entrada per teclat, implica un important estalvi de recursos humans i un augment de la productivitat al mateix temps que es manté o fins i tot es millora la qualitat de molts serveis.


 El Reconeixement Òptic de Caràcters (OCR)


Així com el reconeixement de text, en general són aplicacions dirigides a la digitalització de textes.


 • Identifiquen automàticament símbols o caràcters, que pertanyen a un determinat alfabet, a partir d’una imatge per emmagatzemar-ho en forma de dades amb les que podrem interactuar amb un programa d’edició de text o similars.

 LʼOCR: problemes en el reconeixement òptic de caracters


 • El procés bàsic que es duu a terme en el Reconeixement Òptic de Caràcters és convertir el text que apareix en una imatge en dades que podran ser editades i utilitzades com a tal per qualsevol programa o aplicació que les necessiti.


 • Partint d’una imatge perfecta, es a dir, una imatge de dos nivells de gris, el reconeixement d’aquests caràcters es realitzara bàsicament comparant-los amb uns patrons o plantilles que contenen tots els possibles caràcters.


 • Ara be, les imatges reals no són perfectes, per tant el Reconeixement Òptic Caràcters es troba amb diversos problemes:


 • El dispositiu que obté la imatge pot introduir nivells de grisos en el fons que no pertanyen  a la imatge original.


 • La resolució d’aquest dispositius pot introduir soroll a la imatge, afectant als píxels que  han de ser processats.


 • La separació dels caràcters. Al no existir un espai fix entre ells, pot produir errors a la hora del reconeixement.


 • La connexió de dos o mes caràcters per píxels comuns també pot produir errors.











Preparació d'originals




Especificacions d'entrega d'originals digitalitzats



  • Són un conjunt de normes bàsiques que serveixen de guia a l'autor per a entregar el seu treball amb unes mínimes garanties i que permet a l'empresa partir d'una base sólida per al posterior tractament.
  • L'ús ha propiciat una unificació d'aquestes normes, de tal manera que moltes d'elles són comunes per a totes les empreses implicades.
-Si els textes van sagnats...
-En negreta, cursiva...

a) Especificacions relatives a aplicacions i formats
Junt amb els arxius digitals, s'ha d'entregar sempre.
  • Una còpia impressa escrita per una sola cara amb:
-El número de pàgina de l'última versió entregada.
-El llistar d'arxius amb l'extensió corresponent.
-L'aplicació o aplicacions amb que s'han creat.
-La seva versió.
-L'entorn operatiu.











Escriptures alfabètiques

  • Les primeres escriptures alfabètiques registren llengües semítiques:

a) evolucionen a partir dels jeroglífics egipcis, com les:

- Inscripcions protosinaítiques (uns 31 signes)

- Protopalestines (a partir del 1500 ae)




Resultat d'imatges de tipografia

Cap comentari:

Publica un comentari a l'entrada