Será o “Projeto de Genoma do Livro” de Booklamp o futuro da descoberta?

Nova pesquisa para a descoberta de livros quebra um exemplar em 32.160 pontos de dados e quantifica tudo, desde densidade até estimulação.

Se você achava que metadados eram complicados, conheça BookLamp.org, uma nova pesquisa de descoberta de livros que rastreia 32.160 pontos de dados por livro. “Nós fazemos isso pegando o texto completo providenciado pelo publicador em formato digital e decodificando ele em nosso computador”, explica o diretor executivo Aaron Stanton. “Nosso programa quebra um livro em 100 cenas e mede o ‘DNA’ de cada cena, procurando por 132 diferentes ingredientes temáticos, além de outras 2000 variáveis”. Um leitor pode ir ao sítio do Booklamp, o qual foi lançado em beta na semana passada, e fazer uma pesquisa de palavras-chave por títulos que tenham critérios semelhantes aos inseridos por ele no sítio. Especialistas apelidaram o projeto de “Pandora para Livros”, embora Stanton prefira o termo “Projeto Genoma do Livro”.

“Diga que você procura por uma narrativa como o Código Da Vinci. Nós descobrimos que ele contém 18,6% de religião e instituições religiosas, 9,4% de investigação policial e de assassinato, 8,2% de arte e galerias de arte, 6,7% de sociedades secretas e comunidades, além de outros elementos – nós iremos então mostrar um livro com elementos semelhantes, desde que o mesmo esteja em nossa base de dados”, diz ele.

Stanton começou o projeto Booklamp em 2003 enquanto estudante em Boise, Idaho, quando ele e seus colegas de quarto escanearam uma cópia de Thinner, de Richard Bachman – algo que, naquela época, precisou de seis horas para ser feito – antes de perceber que aquilo estava praticamente além do alcance de um estudante do College. Em 2007, ele pensou que isso seria perfeito para o Google e arranjou uma reunião com seus líderes (veja CanGoogleHearMe.com). Stanton então levou o projeto ao Dr. Matthew Jockers, professor de linguística computacional na universidade Stanford, o qual o ajudou a desenvolver protocolos para a análise contextual estilística do Booklamp.

Hoje, o Booklamp tem cerca de 20.000 textos em sua base de dados – primariamente dos publicadores Random House e Kensington – e tem acumulado aproximadamente 650 milhões “pontos de dados” no total. “Nós esperamos chegar aos milhões em alguns meses”, afirma Stanton.

Mas pode mesmo um computador ter acesso ao conteúdo de um livro precisamente? Stanton acha que sim. “Nossos modelos são baseados em grupos de foco”, ele diz. “Nós daríamos a eles um cenário altamente denso e uma cena de densidade baixa, por exemplo, e pedir para eles os acessarem, o que nos proporcionou uma base para treinar os modelos. Então nós olhamos para os livros que poderiam exceder os modelos e ajustamos as fórmulas. Dessa maneira, nossos algoritmos são treinados como um ser humano”.

Booklamp quantifica tais elementos como densidade, ritmo, descrição, diálogo e movimento, em adição a numerosas outras micro-categorias, como “pistolas/espingardas/armas” ou “explícitas representações da intimidade”, ou ainda “ambientes de escritório”.

“De muitas maneiras, usamos temática e outros ‘ingredientes’ como uma alternativa para metadados tradicionais”, ressalta Stanton, que visiona o projeto servindo igualmente a leitores, escritores e publicadores.

A primeira repetição do Booklamp – que você vê online atualmente – é destinada aos leitores. Por outro lado, em breve será oferecida aos escritores e editores a habilidade de carregar seus manuscritos no Booklamp e ter seus livros acessados pelos mesmos critérios. Esses trabalhos irão para a “base atual de dados de manuscritos” – a qual pode ser usada por editores que queiram procurar manuscritos características específicas. “Por exemplo”, explica Stanton, “diga que vampiros estão na moda um ano, então você recusa todos os livros sobre alienígenas, mas depois a tendência volta para os alienígenas – você pode procurar em nossa base por manuscritos que combinem com essas tendências emergentes e ficar à frente da curva. Para autores, um livro rejeitado nunca é rejeitado, já que pode sempre ser encontrado”.

No momento, os maiores obstáculos do Booklamp talvez sejam os próprios editores e escritores, os quais podem muito bem ser reticentes a verem seus livros convertidos em pontos de dados. A base limitada de apenas 20.000 livros “é de longe a maior crítica do site”. Seu objetivo é chegar aos 100.000 títulos até o final do ano.

Curiosos podem se inscrever e explorar agora em www.booklamp.org.

 

Original: http://publishingperspectives.com/2011/08/is-booklamps-book-genome-project-the-future-of-discovery/

Be Sociable, Share!

Tags: ,

Comments are closed.