El blog de los profesionales del mundo editorial

Categoría digital

reCaptcha, un sistema que te involucra en la digitalización de libros

Miércoles 23 de Julio de 2008

Un CAPTCHA es una de esas imágenes de palabras distorsionadas que muchas webs y blogs nos piden que descifremos para registrarnos o escribir un comentario. Su finalidad es distinguir si el usuario es humano o una máquina, para evitar los “bots”, los programas que generan spam de forma automática.

reCaptcha

Cada día se “resuelven” unos 60 millones de CAPTCHAs. Si sumamos los segundos que cada uno de nosotros empleamos en ello, resulta que entre todos consumimos unas 150.000 horas diarias descifrando CAPTCHAs.

reCAPTCHA es un proyecto de la School of Computer Science (Carnegie Mellon University) que canaliza todo ese esfuerzo humano para corregir los errores de digitalización de los textos escaneados con OCR.

OCR (Optical Character Recognition) es un programa que convierte en texto lasimágenes escaneadas de las páginas de un libro. Pero no es perfecto, y muchas veces confunde los caracteres, introduciendo errores. En estos casos, el programa lanza una alerta cuando no puede leer una palabra, y es aquí cuando empieza la labor de corrección de reCAPTCHA.

ejemplo de lectura de OCR

ejemplo error de lectura de OCR

reCAPTCHA ayuda a a mejorar la digitalización de libros enviando a la web estas palabras ilegibles en forma de CAPTCHAs, para que los humanos las descifren.

Sin embargo, si OCR no sabe cómo leer las palabras que luego se convierten en CAPTCHAs, ¿cómo sabe el sistema si el usuario ha dado la respuesta acertada? Las palabras son dadas al usuario en conjunción con otras que el sistema sí conoce. Si el usuario descifra correctamente ésta, el programa asume que también es correcta la otra. Para verificarlo, esta imagen se envía de nuevo a un número indeterminado de personas, y si sus respuestas coinciden el sistema validará la palabra sobre la que OCR dudaba.

reCaptcha images

reCAPTCHA colabora habitualmente con Internet Archive, que lleva a cabo una importante tarea de digitalización de libros. La ayuda de los usuarios es fundamental para poder llevar a cabo su objetivo, por lo que pide a todos aquellos que estén interesados en colaborar que instalen sus plugins de reCAPTCHA en sus webs o que utilicen su sistema Mailhide como método para reducir el spam.

En el futuro, los libros serán como los caballos

Jueves 12 de Junio de 2008

Children’s books international day_2006

Jeff Bezos se reafirma en su apuesta por un futuro electrónico para los libros, lo dijo en la presentación del Kindle y lo confirma en una entrevista concedida a The Wall Street Journal.

En Amazon se sienten cada vez más satisfechos con el éxito de su lector Kindle (del que aún no confiesan las unidades vendidas): ya tienen 125.000 libros disponibles cuyas descargas suponen más del 6% de las ventas totales -físicas y electrónicas- de esos títulos.

Según Jeff Bezos, el éxito del Kindle radica en que ha conseguido lo que parecía un imposible durante los últimos 500 años: mejorar el libro físico como soporte de lectura.

Para lograrlo [entender cómo mejorar el libro], has de capturar el elemento esencial del libro, que es lo que desaparece cuando te sumerges en la corriente de la historia. Ninguno de nosotros, mientras lee un libro, piensa en la tinta o en el encolado. Todo se devanece cuando te introduces en el universo del autor. A veces, los libros grandes de tapa dura no te dejan concentrarte en la historia porque se te cansa la mano. Y pasar de página puede resultar estruendoso para quien duerme a tu lado. Hay cosas de los libros físicos a las que estamos acostumbrados, pero que no son buenas.

Bezos es consciente de que muchos lectores se aferran al placer que proporcionan el tacto del papel y el olor de la tinta, pero no considera que sean aspectos determinantes para el progreso de los lectores electrónicos, es más, cree que el amor por los libros físicos es una simple reacción del subconsciente que asocia el objeto con el placer de la lectura.

Seguro que también hay gente que ama a sus caballos, pero no vas a ir montado al trabajo porque le tengas mucho cariño a tu caballo. Nuestro trabajo es construir algo mejor que un libro físico. La razón por la que amamos los libros físicos es que tenemos tan magníficas experiencias con ese objeto en nuestras manos que los asociamos con sensaciones agradables.

No tratamos de desplazar el amor de la gente por ese objeto físico que es el libro. Es un invento sacralizado. Lo que hay que retener en la mente es que lo realmente importa no es el soporte sino la narración. La lectura es importante para nuestra sociedad.

Dice Bezos que en la misma manera que el coche no acabó con el caballo, el Kindle tampoco supone una amenaza para el libro en papel. Pero quizá el libro como lo conocemos acabe siendo un artículo casi de lujo en las sociedades desarrolladas y el símbolo del subdesarrollo de otras, como un caballo en un club hípico y otro arando un campo. Paradojas del destino.

 

Leer la entrevista completa en The Wall Street Journal

Formas de promocionarse en Internet

Martes 20 de Mayo de 2008

lulu_4_pequena.jpg

 

Ayer en el blog Comunicación cultural, del Portal Cultural Dosdoce, comentaban la resistencia de algunos autores a ‘promocionar su obra en la Red por falta de conocimiento sobre el uso de las nuevas tecnologías’.

Mientras hay quienes todavía miran con recelo las tecnologías modelo Web 2.0 porque ‘piensan que en la Red no hay más que “basura”’, Lulu.com aprovecha la publicidad contextual para anunciar sus servicios en el correo Yahoo ! mediante banners que aparecen una vez se envía un mensaje o se vacía la papelera.

Ayer después de enviar un par de mensajes en los que anunciaba la recepción de unos libros y hacía un par de comentarios al respecto, junto a la notificación de envío me aparecieron los banners de Lulu.com que ilustran esta entrada.

 

lulu_3.jpg

 

La publicidad contextual opera mediante un mecanismo muy sencillo: un robot escanea el contenido del mensaje y tras deducir el tema de éste a partir de la identificación de palabras clave le muestra al usuario anuncios publicitarios que podrían interesarle.

Quienes vienen del mundo off line tienen que enfrentarse al reto de adaptarse al cambio que presuponen tanto la emergencia de las nuevas tecnologías como su aplicación a la actividad editorial. Por otro lado, hay quienes entienden y asimilan tempranamente el modelo de negocios de Internet y crean empresas que obedecen a la lógica de éste.

 

lulu_1.jpg

 

Con el paso del tiempo veremos no sólo cómo explotan unos y otros las ventajas de sus respectivos modelos de negocio, sino también qué estrategias implementan para contrarrestar las limitaciones de éste.

¿Cómo asimilan las grandes editoriales el impacto de la evolución de las nuevas tecnologías en el sector?

Miércoles 16 de Abril de 2008

En estos tiempos de cambios acelerados debidos tanto a la evolución de las nuevas tecnologías como a las fusiones y adquisiciones en el campo empresarial, la gran industria editorial intenta adaptarse a las nuevas condiciones de su entorno replanteando su modelo de negocios y desarrollando nuevas líneas de productos y servicios. Cada semana nos enteramos de un nuevo proyecto en campos tan diversos como la publicación de novedades en línea, las alianzas entre editores y librerías virtuales, la digitalización de contenidos, la impresión bajo demanda o la puesta en marcha de nuevas estrategias de distribución.

 

beautiful_children.jpg

 

- En febrero pasado HarperCollins anunció que ofrecería gratuitamente ediciones electrónicas de algunos de sus títulos —entre ellos una novela de Paulo Coelho—.

- Entre el 27 y el 29 de febrero de 2008 Random House puso en línea en formato PDF la novela Beautiful Children, de Charles Bock, para que los usuarios la descargaran gratuitamente durante esos tres días. Tras haber sido publicada en enero de este año, la versión en papel de Beautiful Children entró rápidamente al listado de las obras más vendidas y en muy poco tiempo se ha convertido en todo un libro de culto en los Estados Unidos.

- Macmillan está buscando una fórmula que le permita ofrecer a los lectores un valor agregado mediante la reedición en formato digital de algunos títulos publicados previamente en papel.

- El lunes pasado la filial británica de Random House anunció que alrededor de 5000 títulos de su catálogo podrían previsualizarse en su página Web.

¿Cuáles proyectos funcionarán mejor, los basados en fórmulas de pago o aquellos que apelan a la gratuidad? Para reflexionar en torno a esta pregunta recomendamos leer el artículo “Free! Why $0.00 Is the Future of Business”, que el pasado 16 de marzo publicó Chris Anderson en la revista Wired.

 

freeconomics.jpg

 

Como estamos ante un nuevo entorno que todavía no acaba de configurarse y en el que no hay quien sepa a ciencia cierta lo que va a suceder, hasta el momento nadie ha encontrado la fórmula más adecuada para adaptarse a él y, por lo tanto, aún es muy pronto para anticipar el resultado de las iniciativas desarrolladas recientemente por grupos como HarperCollins, Random House, Mcmillan o Penguin.

El tiempo, el número de usuarios de estos servicios y las cuentas lo dirán.

The Atlantic Monthly lanza nueva propuesta periodística

Jueves 06 de Marzo de 2008

The Atlantic Monthly

TheAtlantic.com, versión en línea de la centenaria revista norteamericana The Atlantic Monthly, uno de los referentes más significativos para el periodismo que apuesta por los ensayos y reportajes de investigación, se ha puesto al día con las costumbres de los –cada vez más numerosos- lectores en línea. Desde hace una semana la web de la revista se inicia con la versión beta de The Current, sección web en la que el lector pasa de los típicos artículos de 10,000 palabras a unos de 200 o 500. Vaya tijera.

Partidarios del periodismo literario y de investigación, no os alarméis. La revista no ha decidido dejar de publicar sus extensos y prestigiosos textos, sino convertir los sucesos más importantes del día en breves y útiles artículos que los lectores pueden comentar. El toque editorial y analítico está garantizado por la firma de reconocidos escritores del Atlantic, muchos de los cuales son actuales blogeros de la revista.

El lanzamiento de The Current es una iniciativa más de la revista destinada a captar la atención de los cibernautas. En enero pasado, TheAtlantic.com decidió volver gratuitos todos sus contenidos de pago y desde entonces el tráfico en su web se ha incrementado en un 15%. En palabras de Justin B. Smith, presidente de Atlantic Consumer Media, “todo el mundo está implementando la agregación de noticias, nosotros proponemos algo diferente: contenido de opinión original”. Habrá que ver si los lectores digitales opinan lo mismo.