محتوای این برنامه در حوزه جغرافیایی شما در دسترس نیست

دیجیتالی کردن کتاب های قدیمی

دیجیتالی کردن کتاب های قدیمی
نگارش از Euronews

هر سال میلیون‌ها کتاب اسکن شده و در اینترنت گذاشته می‌شود. ولی پس از اسکن، غلطهای بسیاری ظاهر می‌شود، چون متن‌های قدیمی صفحه بندی عجیب، فونت و املای غیرمعمول دارد.

هیلدلیس بالک، مدیر پروژه «ایمپکت» می‌گوید: «مشکل اصلی در تبدیل یک کتاب قدیمی به متنی خوانا توسط رایانه، کهنه بودن آن است. با یک سند معاصر فرق دارد، فونت‌ها و کلمات قدیمی‌اند و صفحه بندی آن هم پیچیده است.»

کلمنس نودکر، مدیر فنی پروژه اروپایی می‌گوید: «این کتاب اصول ریاضی، نوشته آیزک نیوتن است. شما پدیده‌ای را مشاهده می‌کنید که ما به آن آشکار شدن می گوییم. یعنی جوهر از پشت صفحه نفوذ می‌کند. می‌بینید که کاغذ تاب برداشته. اینجا حرف اس بلند را به راحتی می‌توان با حرف اف اشتباه گرفت.»

پژوهشگران کتابخانه ملی هلند، چهار سال در چهارچوب «طرح اروپایی» صرف بهبود نرم افزاری کردند که متن‌های قدیمی را می‌خواند.

هیلدلیس بالک می‌گوید: «برای تقویت تصویر، نرم افزار را بهبود بخشیدیم، مانند تشخیص بصری حروف، تصحیح متن و فن آوری زبانی، تا بهتر عمل کند.»

این دانش جدید در نرم افزارهای موجود در بازار اضافه شده و نتیجه بسیار رضایتبخش است.

کلمنس نودکر می‌گوید: «پس از تکمیل این روند، کاربر متن کامل شناخته شده را می‌بیند. خصوصیات ساختاری کتاب نیز، مانند پاراگراف‌ها، تیتر‌ها و غیره قابل تشخیص است.»

طبق گفته دست اندرکاران این پروژه، حداقل پانزده درصد بر صحت متن‌های اسکن شده افزوده شده است. بنابراین از این پس متن‌های بایگانی شده بیشتری در اینترنت قابل دسترس خواهد بود.

هیلدلیس بالک می‌گوید: «متنی که کاملا دیجیتالی نشده، عملا غیرقابل مشاهده است. همه عادت به استفاده از برنامه‌های جستجو دارند و اگر کلمه‌ای که به دنبالش هستند پیدا نکنند، برای آن‌ها این کلمه اساسا وجود ندارد.»