O processamento de dados de páginas HTML obtidas na web: uma discussão sobre o quão difícil é extrair dados dos espaços digitais

Candido, José Carlos

Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/71902

Tipo:	TCC
Título:	O processamento de dados de páginas HTML obtidas na web: uma discussão sobre o quão difícil é extrair dados dos espaços digitais
Autor(es):	Candido, José Carlos
Orientador:	Souza, Osvaldo de
Palavras-chave:	HTML;Textos jornalísticos;JANO
Data do documento:	2022
Citação:	CANDIDO, José Carlos. O processamento de dados de páginas HTML obtidas na web: uma discussão sobre o quão difícil é extrair dados dos espaços digitais. Orientador: Osvaldo de Souza. 2022. 37 f. Trabalho de Conclusão de Curso (Graduação em Biblioteconomia) – Curso de Graduação em Biblioteconomia, Centro de Humanidades, Universidade Federal do Ceará, Fortaleza, 2022.
Resumo:	Este trabalho é um estudo exploratório sobre a coleta de conteúdos jornalísticos em páginas na web e como tal busca se relacionada com a Hypertext markup language (HTML), especificamente no contexto das definições de seu padrão, o HTML Standard, bem como no contexto de como o HTML é utilizado na prática no desenvolvimento de sites jornalísticos. O objetivo deste trabalho é apresentar estruturais ideais de páginas HTML, a partir dos padrões definidos pelas suas entidades mantenedoras, e propor heurísticas para extração de dados das mesmas. Para realização das atividades, a pesquisa se utiliza de dados e relatórios coletados pela plataforma JANO, serviço disponibilizado na web que providencia coleta e análise de dados em páginas web como também em outras mídias. A partir dos dados coletados, foi feita uma análise sobre o uso do HTML no desenvolvimento de páginas de sites jornalísticos, também foi feita uma proposta de estrutura para tais páginas com base no padrão HTML e foram apresentadas heurísticas de como remediar os problemas encontrados nas páginas analisadas.
Abstract:	This work is an exploratory study on the capture of journalistic content on web pages and how such search is related to the Hypertext markup language (HTML), specifically in the context of the definitions of its standard, as well as in the context of how HTML is utilized in practice in the development of journalistic websites. The objective of this work is to present ideal HTML page structures, based on the standards defined by its maintaining entities, and propose heuristics to extract date from those. To conduct the activities, the research uses data and reports collected by the JANO platform, a service available on the web that provides data collection and analysis on web pages as well as other media. From the collected data, an analysis was made on the use of HTML in the development of pages of journalistic sites, a proposal of structure for such pages based on the HTML standard also was made and heuristics on how to remedy the problems found in the analyzed pages were presented.
URI:	http://www.repositorio.ufc.br/handle/riufc/71902
Aparece nas coleções:	BIBLIOTECONOMIA - Monografias

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2022_tcc_jccandido.pdf		725,75 kB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas