Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/71902
Registro completo de metadados
Campo DCValorIdioma
dc.contributor.advisorSouza, Osvaldo de-
dc.contributor.authorCandido, José Carlos-
dc.date.accessioned2023-04-26T18:30:19Z-
dc.date.available2023-04-26T18:30:19Z-
dc.date.issued2022-
dc.identifier.citationCANDIDO, José Carlos. O processamento de dados de páginas HTML obtidas na web: uma discussão sobre o quão difícil é extrair dados dos espaços digitais. Orientador: Osvaldo de Souza. 2022. 37 f. Trabalho de Conclusão de Curso (Graduação em Biblioteconomia) – Curso de Graduação em Biblioteconomia, Centro de Humanidades, Universidade Federal do Ceará, Fortaleza, 2022.pt_BR
dc.identifier.urihttp://www.repositorio.ufc.br/handle/riufc/71902-
dc.description.abstractThis work is an exploratory study on the capture of journalistic content on web pages and how such search is related to the Hypertext markup language (HTML), specifically in the context of the definitions of its standard, as well as in the context of how HTML is utilized in practice in the development of journalistic websites. The objective of this work is to present ideal HTML page structures, based on the standards defined by its maintaining entities, and propose heuristics to extract date from those. To conduct the activities, the research uses data and reports collected by the JANO platform, a service available on the web that provides data collection and analysis on web pages as well as other media. From the collected data, an analysis was made on the use of HTML in the development of pages of journalistic sites, a proposal of structure for such pages based on the HTML standard also was made and heuristics on how to remedy the problems found in the analyzed pages were presented.pt_BR
dc.language.isopt_BRpt_BR
dc.subjectHTMLpt_BR
dc.subjectTextos jornalísticospt_BR
dc.subjectJANOpt_BR
dc.titleO processamento de dados de páginas HTML obtidas na web: uma discussão sobre o quão difícil é extrair dados dos espaços digitaispt_BR
dc.typeTCCpt_BR
dc.description.abstract-ptbrEste trabalho é um estudo exploratório sobre a coleta de conteúdos jornalísticos em páginas na web e como tal busca se relacionada com a Hypertext markup language (HTML), especificamente no contexto das definições de seu padrão, o HTML Standard, bem como no contexto de como o HTML é utilizado na prática no desenvolvimento de sites jornalísticos. O objetivo deste trabalho é apresentar estruturais ideais de páginas HTML, a partir dos padrões definidos pelas suas entidades mantenedoras, e propor heurísticas para extração de dados das mesmas. Para realização das atividades, a pesquisa se utiliza de dados e relatórios coletados pela plataforma JANO, serviço disponibilizado na web que providencia coleta e análise de dados em páginas web como também em outras mídias. A partir dos dados coletados, foi feita uma análise sobre o uso do HTML no desenvolvimento de páginas de sites jornalísticos, também foi feita uma proposta de estrutura para tais páginas com base no padrão HTML e foram apresentadas heurísticas de como remediar os problemas encontrados nas páginas analisadas.pt_BR
Aparece nas coleções:BIBLIOTECONOMIA - Monografias

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
2022_tcc_jccandido.pdf725,75 kBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.