O processamento de dados de páginas HTML obtidas na web: uma discussão sobre o quão difícil é extrair dados dos espaços digitais

Candido, José Carlos

Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/71902

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.advisor	Souza, Osvaldo de	-
dc.contributor.author	Candido, José Carlos	-
dc.date.accessioned	2023-04-26T18:30:19Z	-
dc.date.available	2023-04-26T18:30:19Z	-
dc.date.issued	2022	-
dc.identifier.citation	CANDIDO, José Carlos. O processamento de dados de páginas HTML obtidas na web: uma discussão sobre o quão difícil é extrair dados dos espaços digitais. Orientador: Osvaldo de Souza. 2022. 37 f. Trabalho de Conclusão de Curso (Graduação em Biblioteconomia) – Curso de Graduação em Biblioteconomia, Centro de Humanidades, Universidade Federal do Ceará, Fortaleza, 2022.	pt_BR
dc.identifier.uri	http://www.repositorio.ufc.br/handle/riufc/71902	-
dc.description.abstract	This work is an exploratory study on the capture of journalistic content on web pages and how such search is related to the Hypertext markup language (HTML), specifically in the context of the definitions of its standard, as well as in the context of how HTML is utilized in practice in the development of journalistic websites. The objective of this work is to present ideal HTML page structures, based on the standards defined by its maintaining entities, and propose heuristics to extract date from those. To conduct the activities, the research uses data and reports collected by the JANO platform, a service available on the web that provides data collection and analysis on web pages as well as other media. From the collected data, an analysis was made on the use of HTML in the development of pages of journalistic sites, a proposal of structure for such pages based on the HTML standard also was made and heuristics on how to remedy the problems found in the analyzed pages were presented.	pt_BR
dc.language.iso	pt_BR	pt_BR
dc.subject	HTML	pt_BR
dc.subject	Textos jornalísticos	pt_BR
dc.subject	JANO	pt_BR
dc.title	O processamento de dados de páginas HTML obtidas na web: uma discussão sobre o quão difícil é extrair dados dos espaços digitais	pt_BR
dc.type	TCC	pt_BR
dc.description.abstract-ptbr	Este trabalho é um estudo exploratório sobre a coleta de conteúdos jornalísticos em páginas na web e como tal busca se relacionada com a Hypertext markup language (HTML), especificamente no contexto das definições de seu padrão, o HTML Standard, bem como no contexto de como o HTML é utilizado na prática no desenvolvimento de sites jornalísticos. O objetivo deste trabalho é apresentar estruturais ideais de páginas HTML, a partir dos padrões definidos pelas suas entidades mantenedoras, e propor heurísticas para extração de dados das mesmas. Para realização das atividades, a pesquisa se utiliza de dados e relatórios coletados pela plataforma JANO, serviço disponibilizado na web que providencia coleta e análise de dados em páginas web como também em outras mídias. A partir dos dados coletados, foi feita uma análise sobre o uso do HTML no desenvolvimento de páginas de sites jornalísticos, também foi feita uma proposta de estrutura para tais páginas com base no padrão HTML e foram apresentadas heurísticas de como remediar os problemas encontrados nas páginas analisadas.	pt_BR
Aparece nas coleções:	BIBLIOTECONOMIA - Monografias

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2022_tcc_jccandido.pdf		725,75 kB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Visualizar estatísticas