Análise de palavras em landing pages

Que tipo de informação a página inicial de um portal pode conter, por si só, independente de como ela apresenta a história em seus links?

Ainda penso em que perguntas fazer mas,  para poder faze-las, comecei a armazenar a página inicial de 4 grandes hubs de notícia, inicialmente: Portal Terra, UOL, Folha de São Paulo e Estado de São Paulo.

A cada 4 horas executo na minha máquina um script simples em python.

O que eu estou guardando são os textos sem as tags html, e depois conjuntos de uma, 2 e tres palavras do mesmo texto(palavra, bigrama e trigrama).

O próximo passo é começar a brincar com os dados e no momento tenho olhado somente frequencia, mas quero pesquisar mais esses dados e ver se consigo desenhar um perfil desses portais e também se consigo perceber através deles o surgimento de alguma tendência.

será que rola extrair isso somente olhando a landing page?

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s