Presentation is loading. Please wait.

Presentation is loading. Please wait.

Modern Information Retrieval

Similar presentations


Presentation on theme: "Modern Information Retrieval"— Presentation transcript:

1 Modern Information Retrieval
Chapter 15: Digital Libraries Section 15.4: Document Models, Representations, and Access Section 15:5: Prototypes, Projects, and Interfaces Section 15.6: Standards Section 15:7: Trends and Research Issues December 20, 1999

2 Summary Introduction Document Models, Representations, and Access
Prototypes, Projects, and Interfaces Standards Trends and Research Issues Conclusion A apresentação resume-se em ...

3 Introduction Digital library (DL) can be defined by:
the combination of a collection of digital objects (repository); descriptions of those objects (metadata); a set of users (patrons or target audience or users); systems that offer a variety of services such as capture, indexing, cataloging, search, browsing, retrieval, delivery, archiving, and preservation. Biblioteca Digital pode ser definida por: * combinação de uma coleção de objetos digitais, chamado repositório; * descrições desses objetos, denominadas metadados; * um conjunto de usuários (patronos ou audiência alvo ou usuários); * sistemas que oferecem uma variedade de serviços tais como captura, indexação, catalogação, busca, navegação, recuperação, entrega, ato de arquivar, e preservação.

4 Introduction Information retrieval (IR) is essential for the sucess of DLs, so they can achieve high levels of effectiveness while at the same time affording ease of use to a diverse community. A significant portion of the research and development efforts related to DLs has been in the IR area. This presentation reviews some of these efforts, organizes them into a simple framework, and highlights needs for the future. Recuperação de informação é essencial para o sucesso de bibliotecas digitais, de maneira que elas possam alcançar altos níveis de efetividade e ao mesmo tempo proporcionar facilidade de uso para a comunidade em geral. Uma porção significante dos esforços de pesquisa e desenvolvimento relacionados a bibliotecas digitais têm se situado na área de recuperação de informação. Esta apresentação revisa alguns desses esforços, organiza-os em um arcabouço simples, e destaca as necessidades para o futuro.

5 Document Models, Representations, and Access
Without documents there would be no IR or DLs. Hence, it is apropriate to consider definitions of ‘document’, and to develop suitable formalizations, as well as to articulate research concerns. Caso não existissem os documentos, não haveriam as áreas de pesquisa em recuperação de informação ou em bibliotecas digitais. Por isso, é apropriado considerar definições de ‘documento’, e desenvolver formalizações adequadas, bem como articular assuntos de interesse em pesquisa.

6 Document Models, Representations, and Access - Multilingual Documents -
Because DLs can be constructed for a particular institution or nation, it is likely that the expansion of DLs will increase acess to documents in a variety of languages. There are issues of character encoding: Unicode provides a single 16-bit encoding scheme suitable for all natural languages; Downloading fonts from a special server or gateway is a less costly implementation. Comecemos com os documentos multilingual (?). Como as bibliotecas digitais podem ser construídas para uma instituição ou nação, é provável que a expansão das bibliotecas digitais aumentará o acesso a documentos em uma variedade de linguagens. Parte disso pode ocorrer porque muitos usuários desejam a informação proveniente de todas as fontes apropriadas, não importa a origem, e desejarão executar uma busca paralela através de uma coleção multilingual (ou “de várias línguas”) distribuída. Essa questão traz consigo problemas de codificação e busca. Em relação a codificação de caracteres, o Unicode provê um esquema de codificação de 16 bits adequado para todas as linguagens naturais. Entretanto, uma implementação mais barata pode resultar da transferência de fontes, à medida que se fizerem necessárias, de servidores ou gateways especiais , uma fonte para cada coleção especial.

7 Document Models, Representations, and Access - Multilingual Documents -
The next crucial problem is searching multilingual collections: The simplest approach is to locate words or phrases in dictionaries and to use the translated terms to search in collections in other languages. It is likely that research in this area will continue to be of great importance to both the IR and DL communities. O próximo problema é a busca em coleções multilingual (de “várias línguas”). A abordagem mias simples é localizar palavras ou frases em dicionários e usar os termos traduzidos para buscar em coleções em outras línguas. A pesquisa nessa área continuará sendo de grande importância para ambas as comunidades de recuperação de informação e biblioteca digital.

8 Document Models, Representations, and Access - Multimedia Documents -
Multimedia documents’ streams usually must be synchronized in some way, and so it is promising that a new standard for handling this over the Web has been adopted. IR has been applied to various types of multimedia content: Columbia University: a large image collection from the Web can be searched on content using visual queries; IBM: Query By Image Content (QBIC) system for images and video was developed. Na perspectiva dos 5S (Streams, Structures, Spaces, Scenarios, Societies), os documentos são constituídos de uma ou mais streams, geralmente com uma estrutura imposta. As streams de um documento multimídia devem ser sincronizada de alguma forma, e um novo padrão para manipular a sincronização na Web tende a surgir. Por exemplo, um vídeo pode ser composto pela stream auditiva e pela stream visual. A stream que se ouve deve estar sincronizada com a stream que se vê, e as streams tanto auditiva quanto visual devem estar individualmente sincronizadas, para que o fluxo do vídeo seja constante. Para que a Web permita a transferência com qualidade de documentos multimídia, padrões mais sofisticados para manipular a sincronização precisam ser adotados. A recuperação de informação tem sido aplicada a vários tipos de conteúdo multimídia. Como exemplo, o trabalho desenvolvido na Columbia University, onde uma grande coleção de imagens da Web pode ser consultada usando consultas visuais (?). A IBM desenvolveu o sistema Query By Image Content (QBIC) para imagens e video e tem ajudado a construir um número de coleções de imagens importantes para preservação e aumento do acesso a antiguidades.

9 Document Models, Representations, and Access - Multimedia Documents -
Better handling of multimedia is at the heart of future research on many types of documents in DLs. Very powerful representation, description, query and retrieval systems may be required to properly handle the complexity of multimedia collections. A manipulação melhor da multimídia é o cerne de pesquisas futuras em muitos tipos de documentos de bibliotecas digitais. Sistemas poderosos de representação, descrição, consulta e recuperação podem ser necessários para manipular devidamnete a complexidade de coleções multimidia.

10 Document Models, Representations, and Access - Structured Documents -
Structured documents are streams with one or more structures imposed. Metadata can be represented as an SGML document and SGML content can be included in the base document and /or be kept separately. Structure is often important: in documents, when one wants to add value or make texts ‘smart’ (SGML); in retrieval (OpenText); at the level above documents, which makes searching necessary and possible. Documentos estruturados em sua essência são streams com uma ou mais estruturas impostas, geralmente através da inserção de marcação na stream, mas algumas vezes através de uma estrutura externa separada, como ponteiros no hipertexto. As BDs tipicamente incluem tanto documentos quanto metadados que descrevem os documentos. É importante perceber que os metadados podem ser representados como um documento SGML e que o conteúdo SGML pode ser incluído no documento base ou mantido separadamente. (?) A estrutura é geralmente importante em documentos, quando alguém quer adicionar valor ou fazer os textos “inteligentes”. SGML é geralmente usado para descrever a estrutura que pode ser formalmente descrita usando Document Type Definition (DTD). Recordando, um documento SGML é definido por uma descrição da estrutura do documento e pelo texto marcado com tags que descrevem a estrutura. Um outro tipo de estrutura que é importante em BDs resultam de anotação. As anotação provêem de usuários interagindo com uma coleção de documentos, bem como colaborando uns com os outros. A estrutura é também importante em recuperação. A busca na estrutura bem como no conteúdo constitui-se numa das vantagens do sistema OpenText. A estrutura é importante no nível acima dos documentos, isso é, das coleções de documentos, o que torna a busca necessária e possível. As estruturas da coleções de documentos é também uma característica de BDs, especialmente quando as coleções são distribuídas.

11 Document Models, Representations, and Access - Distributed Collections -
Most DLs are spread across computers, that is spanning physical and/or logical spaces. Dealing with collections of information that are distributed in nature is one of the commom requirements of DL technology. A maioria das BDs estão espalhadas através dos computadores, isto é, atravessando espaços físicos e/ou lógicos (?). As BDs atravessam espaços físicos quando são armazenadas em discos diferentes e atravessam espaços lógicos quando são representadas por modelos diferentes (espaço vetorial; espaço probabilístico; espaço 1, 2 ou 3 dimensões) (?). Manipular coleções de informação que são distribuídas por natureza é um dos requisitos comuns da tecnologia de BD.

12 Document Models, Representations, and Access - Distributed Collections -
There are two approaches to tackle this problem: The first one is to develop a description language for each DL and to build federated search systems that can interpret it; The second one is to make each DL support a powerful protocol aimed at effective retrieval. The first course is supported by BioKleili system and the second one by Computer Interchange of Museum Information (CIMI). Existem duas abordagens para enfrentar este problema: * A primeira abordagem é desenvolver uma linguagem descritiva para cada BD e construir sistemas que possam interpretá-la. * A segunda abordagem é fazer cada BD suportar um protocolo poderoso que visa recuperação eficiente. A primeira abordagem reduz a funcionalidade para usuários finais a fim de dar mais liberdade aos desenvolvedores da BD. Já a segunda abordagem aumenta a funcionalidade ao tornar o sistema mais inteligente e capaz de usar mais recursos computacionais tanto nos servidores quanto nos clientes. A primeira abordagem é suportada pelo sistema BioKleili e a segunda pelo CIMI.

13 Document Models, Representations, and Access - Distributed Collections -

14 Document Models, Representations, and Access - Federated Search -
Federated search is the support for finding items that are scattered among a distributed collection of information sources or services, typically involving sending queries to a number of servers and then merging the results to present in an integrated, consistent, coordinated format. O que é “federated search” ? Um conceito apresentado para “federated search” é: suporte para encontrar itens que estão espalhados entre uma coleção distribuída de fontes ou serviços de informação, tipicamente envolvendo o envio de consultas para um número de servidores e então a intercalação dos resultados para apresentá-los em um formato integrado, consistente e coordenado. Como existem diversas bibliotecas digitais sendo desenvolvidas independentemente, o suporte para consultar em mais de uma biblioteca é mais do que primordial.

15 Document Models, Representations, and Access - Federated Search -
A variety of approaches has been adopted: Collecting the required information, often through Web crawling of various sorts; Focusing on intelling search; Fusing of results; Segmenting the collection and/or its indexes so that most searches only look at a small number of the most useful sources of information. Várias abordagens têm sido adotadas por diferentes pesquisadores: * Primeiro, existem aqueles interessados em coletar a informação requerida, geralmente através de Web crawling; * Segundo, existem aqueles que focam em busca inteligente. Um exemplo é escolher os melhores sites para buscar; * Terceiro, existem os trabalhos de fusão de resultados; * E finalmente, o desafio a longo prazo é segmentar a coleção ou os seus índices de maneira que a maioria das buscas apenas procurem um número pequeno das fontes de informação mais úteis.

16 Document Models, Representations, and Access - Acess -
DLs must manage intellectual properties. These services must support agreed-upon principles, copyright practices, contracts and other agreements and laws. A key to the implementation of policies for access management is having trusted systems. Stronger mechanisms are crucial in DLs to: protect intellectual property rights; control the types of access afforded to different user groups. Quando objetos caros são descritos em coleções de imagem de uma biblioteca digital, quando as coleções são grandes e bem organizadas de maneira que apresentam valor para as comunidades de usuários, ou quando existem serviços valorosos de manipulação de informação (busca, ordenação, reportagem, ..) oferecidos por uma biblioteca digital, algum método de pagamento é geralmente exigido. Embora o acesso a literatura científica não era visto como uma mercadoria como atualmente, as bibliotecas digitais claramente devem gerenciar propriedades intelectuais. Estes serviços devem suportar princípios de acordo, práticas de direitos autorais, contratos e outros acordos e leis. Uma chave para a implementação de políticas para gerenciamento de acesso é possuir sistemas confiáveis. A segurança é um tópico geralmente ignorado pela comunidade de RI. Entretanto, muitos aspectos de segurança podem ser de fundamental importância em BDs. Mecanismos fortes são crucias em BDs a fim de: * proteger os direitos de propriedade intelectual; e * controlar os tipos de acesso oferecidos para diferentes grupos de usuários. Passo a palavra ao Rodrigo que irá apresentar os protótipos e interfaces, os padrões, e as tendências e pontos de pesquisa em BDs.

17 Prototypes, Projects and Interfaces - Internacional Range of Efforts -
Since each nation wishes to share highlights of its history, culture, and accomplishments with the rest of the world, developing a DL can be very helpful. Examples : European ERCIM program and UK initiatives; New Zealand, Australia and Singapore; IBM Digital Library; Networked Digital Library of Theses and Dissertations (NDLTD). Atualmente, existe um grande esforço internacional de pesquisa sobre as DLS. Os países, pricipalmente, possuem grande interesse em divulgar a sua história, a cultura,e realiazções com o resto do mundo. O slide contém alguns exemplos, que são os seguintes : 1) Esforço da União Européia e um segundo site da Inglaterra 2) Nova Zelândia e Austrália são exemplos de utlização prática 3) IBM, produto comercial baseado no DB2 e por último, um site que tem como objetivo a difusão dos trabalhos de dissertação e tese de doutorado das universidades.

18 Prototypes, Projects, and Interfaces - Usability -
Key to the success of the DLs is having usable systems. This is a serious challenge! Simple library catalog systems were observe in 1986 to be difficult to use. A 1997 study at Virginia Tech of four digital library : ACM; NCSTRL; NDLTD; IEEE-CS; The participants were 48 Virginia Tech students. 38 graduate students, 8 undergraduate, 2 other graduate studies; Primeiramente, a palavra usabilidade não foi encontrada no dicionário, mas entenda-se por fáci de utilizar, intuitiva e útil. A chave para o sucesso de qualquer DL são os sistemas fáceis de usar. Em 1996, houve um estudo sobre a dificuldade de utilização de sistemas de catalogação de bibliotecas e, após mais de 10 anos de pesquisa e desenvolvimento, o problema ainda persiste. Em 1997 um estudo da Virginia Tech sobre quatro libraries digitais ( ACM, NCSTRL, NDLTD, IEEE-CS) concluiu que muitos possuiam sérios problemas de utilização : A) muito poucos usuários trabalharam com um DL B) As Expectativas e prioridades dos usuários mudaram durante o período de teste.

19 Prototypes, Projects, and Interface - Usability -
The study concluded that many systems have serious usability problems : Pre-test found that very few users had worked with a DL; Post-test showed that user expectations and priorities changed over the short test period; Features derived from user feedback and avaluators observations : clear overview; search criteria for simple search; search criteria for advanced search; fast searching and retrieval; examples searches; ability to download a fraction of the article; save queries for future refinement.

20 Standards Since there are many DL projects worldwide, involving diverse research, development, and commercial approaches, it is imperative that standards are employed so as to make interoperability and data exchange possible. At the heart of supporting federated DLs is agreement on protocols for computer-computer communication. Desde que hajam diversas DLs em todo o mundo, relacionadas com diversas áreas de pesquisa, desenvolvimento e comercial, é imperativo que haja inteoperabilidade entre elas e troca de informações. O ponto crucial para formação de DLs federativas é a adoção de comunicação entre computadores, que serão vistos no próximo slide.

21 Standards - Protocols and Federation -
The standard Z39.50 was designed to search remote bibliographic collections; One example of widespread utilization was the WAIS system (based on Z39.50), very popular before WWW emerged; The application of Z39.50 to DLs was demonstrated in the CIMI project; Dienst is another standard which has been considered in regard to NDLTD. Existem dois padrões de protocolo de comunicação entre bibliotecas digitais : Z39.50 e o Dienst. Ambos trabalham com a arquitetura cliente-servidor, onde deve existir um módulo que é executado no cliente e outro no servidor. Funciona acima do IP.

22 Standards - Metadata - In the broadest sense, metadata can describe not only documents but also collections and whole DLs along with their services. MARC has been widely used, although there are some concerns with it: It usually involves working with binary records which must be converted for interchange; There are a number of national versions with slight differences, as well as differences in cataloging practices that yield the MARC records (USMARC). Em um sentido mais amplo, metadados podem descrever não apenas documentos, mas também coleções e DLs com os seus serviços. MARC, Machine Readable Cataloging Record, tem sido largamente utilizado para a cooperação entre muitas DLs. Entretanto, existem algumas considerações a serem feitas :

23 Standards - Metadata - Dublin Core (DC) includes 15 core elements that can be used to describe any digital object: content (Title, Subject, Description, Source, Language, Relation and Coverage); intellectual property issues (Creator, Publisher, Contributor and Rights); digital objects (Data Type, Format and Identifier). DC, que é um esquema simples de metadados, parece estar se tornando um padrão, pois é produto de muita pesquisa, durante muitos anos, e o conteúdo, para ilustrar é o seguinte :

24 Standards - Metadata - Warwick Framework deals with packages and connections between packages. Resource Description Framework (RDF) is essentially a scheme for annotating digital objects, so alternatively the descriptions can be stored separately from those objects. Text Encoding Initiative (TEI) combines data with metadata. A fim de que as DLs possam trocar informações, os dados e os metadados precisam ser empacotados, no processo de comunicação. Então existem dois esquemas de empacotamento : Warwick Framework e RDF. O RDF nasceu de uma iniciativa do WWW Consortium, em 1996 com o objetivo de proteger a exposição de crianças a material impróprio para menores. E, finalmente, a fim de combinar dados e metadados, existe o TEI.

25 Trends and Issues There are many remaining challenges in the DL field.
The IR community must provide guidance regarding automatic indexing of marked up documents, metadata, full-text, multimedia streams so that the rich and varied content of DLs can be searched. Existem muitas antigas barreiras por transpor no campo de DL. A comunidade de IR deve fornecer uma forma automática de indexação de qualquer tipo de documento existente em uma DL. : E também desenvolver novos métodos de pesquisa dos objetos digitais.

26 Trends and Issues There are the problems of handling worldwide DLs, in the context of varying collection principles, enormous difference in response time between local and remote servers, and the needs of users for different views. Of central concern is covering the range from personal to global DLs, the so-called ‘scaling’ problem. At the same time, the problem of interoperability must be faced. A iteração de bibliotecas digitais ao redor do mundo possui uma série de problemas a serem resolvidos : Diferença no tempo de resposta Usuários com diferentes necessidades, pois são povos, muitas vezes, completamente diferente DLs com princípios diversificados Problemas de interoperabilidade

27 Conclusion After more than 30 years of progress in computing, the researchers still face challenges and work in the field of DLs as a segmented community, viewing DLs from one or another perspective; Finally, “the benefits of digital libraries will not be appreciated unless they are easy to use effectively” (C. Lynch and H. Garcia-Molina). Perspectivas : Perspectiva humana, interfaces, browsing, formulação de consultas Mas, os benefícios das DLs não pderão ser apreciados a menos que sejam efetivamente fáceis de utilizar


Download ppt "Modern Information Retrieval"

Similar presentations


Ads by Google