Thư viện Anh quốc, quá trình số hóa tài liệu.
THƯ VIỆN ANH QUỐC
Không chịu tụt hậu so với các đồng nghiệp khác tại Châu Âu, thư viện Quốc gia Anh đã tiến hành số hóa nhằm tạo lập một bộ sưu tập tài liệu điện tử cho phép truy cập trực tuyến. Mục tiêu: sẽ số hóa 100.000 cuốn sách trong vòng 2 năm với 4 hệ thống số hóa APT 2400 của Kirtas.
|
Thư viện Anh hợp tác với Microsoft và một hãng chuyên về chuyển đổi nội dung (Content Conversion Specialists - CCS) cùng tiến hành đại dự án này. Một nhà xưởng đã được đặc biệt xây dựng ngay trong khuôn viên của thư viện tại Luân Đôn để phục vụ cho dự án số hóa.
|
Trong vòng hai năm, 100.000 cuốn sách văn học thế kỷ 19 sẽ được hoàn thành đưa lên mạng, cho phép bạn đọc có thể truy cập trực tuyến qua dịch vụ vụ tìm kiếm sách Live Search Books của Microsoft. Như vậy, mỗi ngày làm việc xưởng số hóa sẽ xử lý một lượng sách tương đương một xe đẩy rưỡi sách. (xem ảnh)
|
Xưởng số hóa sẽ đi vào hoạt động từ đầu tháng 9 năm 2007. Mục tiêu: số hóa 25 triệu trang sách. Về phần thiết bị, bốn cỗ máy APT 2400 của Kirtas sẽ cho phép số hóa 2400 trang sách một giờ.
Ở Pháp, thư viện Quốc gia Pháp cũng đã tham gia vào cuộc cách tân thư viện này. Theo nguồn tin từ AFP, Thư viện này đã ký kết hợp đồng vào giữa tháng 9 với hãng Safig nhằm số hóa 300,000 sách của thư viện trong vòng 3 năm. Những tác phẩm này sẽ được đưa lên mạng phục vụ bạn đọc cùng với 90,000 tài liệu đã được lên Gallica (gallica.bnf.fr) trước đó. Đồng thời bộ sưu tập này cũng sẽ được tích hợp vào thư viện số châu Âu trong tương lai.
Để giảm tối đa sự can thiệp bằng tay, máy APT 2400 sẽ lật giở sách tự động một cách nhẹ nhàng nhờ vào cánh tay robot có trang bị đầu hút chân không (ảnh). Nhân viên vận hành máy (một người duy nhất) sẽ chỉ phải quan sát trong quá trình lật giở tự động có trang nào bị dính vào nhau hay ko, có trang nào bị rời hay bị rách hay không để có thể can thiệp kịp thời. Mỗi trang sách sẽ được chụp và cho ra một hình ảnh số. Nội dung hình ảnh số này sẽ được phân tích, nhận dạng OCR và được chỉ mục trong một cơ sở dữ liệu. Tất cả các máy tính trong mạng của BL sẽ có thể truy cập đến cơ sở dữ liệu này dựa vào 12 máy chủ chạy song song. Khi dự án này hoàn tất, sẽ có khoảng 30 - 40 terabytes dữ liệu được lưu trữ.
|
Ví dụ về chụp trang sách và chuyển sang định dạng PDF. Những trang sách được truy cập toàn bộ trên mạng, cho phép bạn đọc có thể tìm kiếm toàn văn thông qua các từ khóa. Trong cuốn sách mà bạn nhìn thấy ở trên, chữ “love” đã được đánh dấu đậm trong trang, đây là kết quả của việc tìm kiếm dựa trên từ khóa “love”. Để làm được điều đó, thư viện Anh đã sử dụng một phần mềm nhận dạng ký tự quang học (OCR software)
|
Một nhân viên vận hành sẽ kiểm tra xem cuốn sách đã được đặt đúng vị trí trên máy hay chưa. Điều này đảm bảo cho hình ảnh chụp được sẽ có chất lượng hoàn hảo nhất. Màn hình ở bên trái sẽ hiển thị những hình ảnh chụp được bởi hệ thống. Như vậy, nhân viên thao tác sẽ có thể đồng thời kiểm soát chất lượng hình ảnh trong quá trình làm việc.
Công việc kiểm tra chất lượng (QC) sẽ được tiến hành rất chặt chẽ: Những hình ảnh sẽ bị loại nếu chúng có màu sắc tương phản quá mạnh hay một phần lớn văn bản của trang không được nhận dạng ký tự quang học tốt.
Theo ZDNet.Fr
http://www.zdnet.fr/galerie-image/0,50018840,39373952,00.htm