Igo PDF eta bihurgailuak bere testua erauziko du — OCR (karaktereen ezagutza optikoa) exekutatuz PDF eskaneatu edo irudi bat denean, edo testu-geruza zuzenean erauziz PDF-k testua baduenean — eta gero Word, Google Docs edo LibreOffice-n ireki eta aldatu dezakezun TXT editagarri gisa berreraikitzen du.
PDF - TXT OCR erabiltzen du eskaneatutako orrialdeetan?
+
Bai — PDF eskaneatutako irudia edo irudi soildun PDFa denean, bihurtzaileak OCR exekutatzen du karaktereak ezagutzeko eta TXT-en testu hautagarria sortzeko. PDF-ek testu digital geruza badu jadanik, OCR-ari salto egiten dio eta testua zuzenean kopiatzen du, azkarragoa eta %100 zehatzagoa dena.
Zenbat da PDF - TXT testuaren ezagutza?
+
Inprimatutako testuaren bereizmen handiko eskaneatze garbietarako, OCR-aren zehaztasuna %98-99+ da. Zehaztasuna jaisten da DPI baxuak, orri okerrak, eskuz idatzitakoak edo ohikoa ez den letra-tipoa dituzten eskaneatzeetan. Emaitza onenak lortzeko, eskaneatu PDF 300 DPI edo handiagoan eta mantendu orri zuzenak; bihurgailuak automatikoki zuzenduko du eta zarata kenduko du ezagutu aurretik.
TXT(e)k nire PDF(e)ren jatorrizko diseinua mantenduko du?
+
Bihurgailuak irakurketa-ordena, paragrafoak eta goiburuak berreraikitzen ditu TXT-en, eta zutabe eta taulen egitura sinplea mantentzen du. Diseinu handia duten diseinuak (aldizkariaren zabalpenak, formulario konplexuak) fluxu editagarri garbi batera sinplifikatzen dira - lehentasuna testu zehatza eta editagarria da diseinuaren erreprodukzio pixel-perfektuaren gainetik.
Zein hizkuntza onartzen ditu PDF - TXT OCR-k?
+
OCR-k 100 hizkuntza baino gehiago ezagutzen ditu, latin, ziriliko, greziar, arabiar, hebreeraz eta CJK (txinera/japonieraz/korearaz) idazkera barne, eta PDF hizkuntza automatikoki detektatzen du. Hizkuntza nahasketazko orrialdeak ere kudeatzen dira. Ezagututako testua TXT-n agertzen da, idazkera zuzenean, editatzeko prest.
Bihur al dezaket PDF orrialde anitzeko bat TXT orrialde bakarrera?
+
Bai — PDF orrialde anitzeko dokumentu bat (PDF edo orrialde anitzeko TIFF) orrialdez orrialde prozesatu eta TXT dokumentu jarrai bakar batean biltzen da, orrialdeak ordenan jarrita. PDF orrialdearen orri-jauziak TXT orrialdearen sekzio-jauziekin mantentzen dira, egitura argi mantentzeko.
Nire PDF taulak TXT taula editagarri bihurtuko dira?
+
Bihurgailuak PDF taulan erregelatutako taulak detektatzen ditu eta TXT taula editagarri gisa berreraikitzen ditu ahal den guztietan. Ertz gabeko edo ikuspegitik inplizitu diren taulak detektatzea zailagoa da eta tabuladorearekin lerrokaturiko testu gisa ager daitezke. Egiaztatu eta doitu taulen mugak zure editorean bihurtu ondoren.
Zenbat denbora behar du PDF - TXT OCR- ak?
+
Testu-geruza erauzketa (OCRrik ez da behar) ia berehalakoa da. OCR motelagoa da — orri bakoitzeko 1-3 segundo gutxi gorabehera, bereizmenaren eta hizkuntzaren arabera. 50 orri eskaneatu PDF normalean bi minutu baino gutxiagotan amaitzen da; Premium-ek OCR lankide paralelo gehiago exekutatzen ditu lote handietarako.
Nire PDF pribatua da OCR bihurtzean?
+
Bai — igotako PDF fitxategiak eta testua prozesatzen dira lankide isolatuak erabiliz eta minutu batzuen buruan ezabatzen dira. Dokumentuaren edukia ez dugu inoiz irakurtzen, gordetzen edo partekatzen. Ikusi /privacy/ gordetze-leihoa ikusteko.
Zergatik ditu nire TXT(e)k errekonozimendu-erroreak edo hitzak nahasita?
+
OCR erroreak ia beti iturburuaren kalitatearen ondorio dira: DPI baxuko eskaneaketak, JPEG konpresio-artefaktuak, testu iluna edo fotokopiatua, letra-tipo okerrak edo apaingarriak. Eskaneatu PDF berriro 300 DPI-tan gris-eskalan, mantendu orrialdeak lau eta zuzen, eta exekutatu berriro — iturburu garbiarekin, ezagutza-zehaztasuna nabarmen hobetzen da.
Bihurtu dezaket eskuz idatzitako PDF TXT-ra?
+
Inprimatutako testua fidagarritasunez ezagutzen du; eskuz idatzitako testua ezagutzea askoz zehatzagoa da eta inprimatze-estilo garbi eta bereizitako idazkerarentzat bakarrik funtzionatzen du, ez kurtsiboan. PDF eskuz idatzita badago, TXT ondo zuzendu behar da. Idatzitako edo inprimatutako iturburu-materiala da OCR-k bikaintasuna erakusten duena.
TXT bilatu eta hauta daiteke?
+
Bai — PDF TXT editagarri bihurtzearen helburua irteera testua izatea da, ez irudia: bilatu, hautatu eta kopiatu, ortografia egiaztatu eta editatu dezakezu. Hori da PDF irudi gisa ikustearen eta honen arteko desberdintasuna.
PDF fitxategiek formatua mantentzen dute gailu eta sistema eragile guztietan, eta horrek aproposak bihurtzen ditu nonahi itxura bera izan behar duten dokumentuak partekatzeko.