Tutorial do raspador da Web do Chrome do Semalt Expert

Se você estiver usando o Google Chrome, existe uma extensão para o seu navegador que pode ajudar a raspar páginas da web. É conhecido como '' Scrapper '' e pode ser utilizado sem problemas. O Scrapper ajudará na raspagem do conteúdo de um site e no upload dos resultados nos documentos do Google.

Como sucatear um site usando a extensão Scraper?

1. Selecione Chrome Web Store no Google Chrome;

2. Nas extensões, faça uma pesquisa por '' Scrapper '';

3. O primeiro resultado da pesquisa é a extensão conhecida como '' Scrapper '';

4. Selecione o botão listado como '' Adicionar ao Chrome ";

5. Volte à lista de parlamentares britânicos;

6. Clique no link a seguir;

7. Agora, procure um MP e verifique se a entrada está marcada;

8. Clique com o botão direito do mouse para escolher a opção "Raspar semelhante ...";

9. O console do raspador será exibido em outra janela;

10. Visualize o conteúdo raspado no console do raspador;

11. Para garantir que o conteúdo seja salvo como uma planilha do Google, selecione "Salvar no Google Docs ..."

Raspagem prolongada

Antes de seguir esta receita, é útil entender o básico do HTML. Por exemplo, você pode ler uma breve introdução ao HTML através deste link

Vamos imaginar que estamos interessados em todos os filmes estrelados por Asia Argento, uma famosa atriz italiana.

1. Existe um arquivo muito detalhado de atores no IMDB. O site da Asia Argento é: http://www.imdb.com/name/nm0000782/;

2. Aqui, você pode ver todos os papéis desempenhados pela atriz. Vamos começar a descartar as informações nas quais estamos interessados;

3. Tente raspar da maneira que foi descrita acima;

4. Você verá que a lista está um pouco distorcida. Isso se deve ao fato de que a lista aqui pode ser estruturada de maneira diferente;

5. Vá para o console do raspador. No canto superior esquerdo, você verá a pequena caixa que diz XPath;

6. Xpath é um tipo de linguagem de consulta que funciona para XML e HTML;

7. O XPath pode ajudar a localizar as partes da página de seu interesse. O próximo passo é encontrar um elemento apropriado e escrever o XPath para ele;

8. Agora vamos arrumar nossa mesa;

9. Você verá que nosso XPath existente, com todos os dados necessários, é "// div [3] / div [3] / div [2] / div";

10. XPath informa o Sistema para visualizar o documento HTML e escolher o terceiro elemento, o segundo elemento e todos eles;

11. Mas gostaríamos de separar nossos dados;

12. Utilize a seção de colunas no console do scrapper para fazer isso;

13. Vamos primeiro encontrar o nosso título Ђњ Use o elemento Inspecionar para ver o título;

14. Verifique o título dentro de uma tag. Adicione a tag ao XPath;

15. A expressão parece funcionar adequadamente, portanto, faça dela a primeira coluna;

16. Na seção "Colunas", substitua o nome da primeira coluna por "title";

17. Inclua o XPath nele;

18. Na seção da coluna, os XPaths são relativos e significa que "./b" escolherá o elemento <b>

19. No XPath da coluna title, adicione "./b" e selecione "raspar";

20. Agora vamos continuar por um ano. Os anos podem ser encontrados em um período;

21. Crie uma nova coluna selecionando a pequena vantagem ao lado da coluna do seu título;

22. Usando XPath "./span" crie uma coluna para "ano";

23. Clique em raspar e veja como o ano foi adicionado;

24. Feito!