{"id":39579,"date":"2020-10-13T12:30:42","date_gmt":"2020-10-13T12:30:42","guid":{"rendered":""},"modified":"2023-05-12T07:20:44","modified_gmt":"2023-05-12T07:20:44","slug":"melhores-ferramentas-de-raspagem-da-web","status":"publish","type":"post","link":"https:\/\/salesdorado.com\/pt-br\/automacao\/melhores-ferramentas-de-raspagem-da-web\/","title":{"rendered":"As 10 Melhores Ferramentas de Raspagem do Iniciante ao Muito Avan\u00e7ado"},"content":{"rendered":"<p>A raspagem da web \u00e9 a extra\u00e7\u00e3o de dados de um site de uma forma estruturada. \u00c9 um m\u00e9todo \u00fatil em muitas situa\u00e7\u00f5es:<\/p>\n<ul>\n<li>Gerar arquivos de prospec\u00e7\u00e3o,<\/li>\n<li>Enrique\u00e7a um conjunto de dados,<\/li>\n<li>Personalizar a experi\u00eancia do cliente automaticamente, etc.<\/li>\n<\/ul>\n<p>Neste artigo, apresentaremos 10 m\u00e9todos e ferramentas para a raspagem da web. Desde a eterna c\u00f3pia e cola (que funciona muito melhor do que voc\u00ea imagina), at\u00e9 m\u00e9todos mais complexos para projetos maiores. 7 desses 10 m\u00e9todos n\u00e3o exigem nenhum (ou quase nenhum) conhecimento pr\u00e9vio.<\/p>\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_83 counter-hierarchy ez-toc-counter ez-toc-transparent ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">Sommaire<\/p>\n<span class=\"ez-toc-title-toggle\"><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1 ' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/salesdorado.com\/pt-br\/automacao\/melhores-ferramentas-de-raspagem-da-web\/#pt-br1-copiar-e-colar\" >\/pt-br\/1. Copiar e colar<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/salesdorado.com\/pt-br\/automacao\/melhores-ferramentas-de-raspagem-da-web\/#2-captaindata\" >#2. CaptainData<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/salesdorado.com\/pt-br\/automacao\/melhores-ferramentas-de-raspagem-da-web\/#4-tabsave-raspar-um-banco-de-imagens-ou-arquivos\" >#4. TabSave raspar um banco de imagens ou arquivos<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/salesdorado.com\/pt-br\/automacao\/melhores-ferramentas-de-raspagem-da-web\/#5-planilhas-do-google-menos-de-1000-linhas-mas-com-alguns-elementos-complicados-a-serem-recuperados\" >#5. Planilhas do Google menos de 1000 linhas, mas com alguns elementos complicados a serem recuperados<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/salesdorado.com\/pt-br\/automacao\/melhores-ferramentas-de-raspagem-da-web\/#6-webscraper-para-novatos-que-lidam-com-grandes-pedacos-mais-de-1000-linhas\" >#6. WebScraper para novatos que lidam com grandes peda\u00e7os (mais de 1000 linhas)<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-6\" href=\"https:\/\/salesdorado.com\/pt-br\/automacao\/melhores-ferramentas-de-raspagem-da-web\/#7-spiderpro-para-novatos-com-38-dolares-a-mais\" >#7. SpiderPro para novatos com 38 d\u00f3lares a mais<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-7\" href=\"https:\/\/salesdorado.com\/pt-br\/automacao\/melhores-ferramentas-de-raspagem-da-web\/#8-apify-para-raspar-entre-1000-e-10000-linhas-%e2%80%93-pequena-cultura-web-necessaria-sem-codigo\" >#8. Apify  para raspar entre 1000 e 10000 linhas &#8211; Pequena cultura web necess\u00e1ria (sem c\u00f3digo)<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-8\" href=\"https:\/\/salesdorado.com\/pt-br\/automacao\/melhores-ferramentas-de-raspagem-da-web\/#9-raspagem-para-ir-rapido-e-duro\" >#9. Raspagem para ir r\u00e1pido, e duro<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-9\" href=\"https:\/\/salesdorado.com\/pt-br\/automacao\/melhores-ferramentas-de-raspagem-da-web\/#10-para-projetos-maiores-marionetista-ou-selenium\" >#10. Para projetos maiores Marionetista ou Selenium<\/a><\/li><\/ul><\/nav><\/div>\n<h2 class=\"itemlist\"><span class=\"ez-toc-section\" id=\"pt-br1-copiar-e-colar\"><\/span><span class=\"ez-toc-section\" id=\"1-copiar-e-colar\"><\/span>\/pt-br\/1. Copiar e colar<span class=\"ez-toc-section-end\"><\/span><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Pode parecer bobagem, mas muitas vezes esquecemos como funciona bem copiar e colar. Voc\u00ea pode copiar e colar todas as tabelas que est\u00e3o na Wikipedia em um arquivo Excel ou em uma planilha do <a href=\"https:\/\/salesdorado.com\/pt-br\/inbound-marketing\/google-business\/\" data-internallinksmanager029f6b8e52c=\"89\" title=\"Google My Biz\">Google<\/a>, por exemplo. Se voc\u00ea estiver procurando por c\u00f3digos postais, nomes pr\u00f3prios comuns, c\u00f3digos telef\u00f4nicos, leva um minuto com este m\u00e9todo. Este trabalho leva literalmente um minuto, e eu me vi procurando por um padr\u00e3o complicado em uma mesa ou grade v\u00e1rias vezes, quando uma c\u00f3pia e uma pasta fariam o truque. A automa\u00e7\u00e3o \u00e9 boa, mas \u00e0s vezes leva muito mais tempo do que um m\u00e9todo t\u00e3o simples e eficiente quanto copiar e colar.<\/p>\n<div class=\"bloc-exec\">\n<div class=\"columns\">\n<div class=\"column\">\n<ul class=\"icon-circle-plus\">\n<li>Extremamente f\u00e1cil de usar,<\/li>\n<li>Muito r\u00e1pido de fazer.<\/li>\n<\/ul>\n<\/div>\n<div class=\"column\">\n<ul class=\"icon-circle-minus\">\n<li>Muito limitado.<\/li>\n<\/ul>\n<\/div>\n<\/div>\n<\/div>\n<h2 class=\"itemlist\"><span class=\"ez-toc-section\" id=\"2-captaindata\"><\/span><span class=\"ez-toc-section\" id=\"2-captaindata\"><\/span>#2. CaptainData<span class=\"ez-toc-section-end\"><\/span><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><video muted loop autoplay playsinline><\/video><\/p>\n<p><img decoding=\"async\" src=\"\/wp-content\/uploads\/2020\/10\/linkclump.jpg\" \/><\/p>\n<p>LinkClump \u00e9 uma das <a href=\"https:\/\/salesdorado.com\/pt-br\/automacao\/extensoes-google-chrome\/\">melhores extens\u00f5es do Cromo para impulsionar suas vendas<\/a>. Usar isso \u00e9 uma brisa! Com LinkClump, voc\u00ea pode :<\/p>\n<ul>\n<li>Recuperar os links e seus t\u00edtulos muito facilmente,<\/li>\n<li>Selecione apenas os links importantes em uma determinada p\u00e1gina,<\/li>\n<li>Baixar banco de imagens ou de arquivos (em combina\u00e7\u00e3o com TabSave).<\/li>\n<\/ul>\n<p>Se voc\u00ea olhar ao redor, h\u00e1 muitas coisas que na verdade s\u00e3o apenas links para p\u00e1ginas da web por raz\u00f5es de SEO. Por exemplo, a maioria dos diret\u00f3rios coloca um link para uma p\u00e1gina infantil em todos os seus t\u00edtulos. Com o LinkClump, voc\u00ea pode obter os URLs e t\u00edtulos de todas estas p\u00e1ginas em um piscar de olhos. O caso de uso mais comum \u00e9 a p\u00e1gina de resultados do google, mas existem muitos outros.<\/p>\n<div class=\"bloc-exec\">\n<div class=\"columns\">\n<div class=\"column\">\n<ul class=\"icon-circle-plus\">\n<li>Extremamente f\u00e1cil de usar,<\/li>\n<li>Uma <a href=\"https:\/\/salesdorado.com\/pt-br\/automacao\/extensoes-google-chrome\/\" data-internallinksmanager029f6b8e52c=\"485\" title=\"A lista definitiva das melhores extens\u00f5es cromadas\">extens\u00e3o cromada de<\/a> f\u00e1cil acesso e com grande economia de espa\u00e7o.<\/li>\n<li>Voc\u00ea pode fazer o download de uma grande quantidade de dados em um instante.<\/li>\n<\/ul>\n<\/div>\n<div class=\"column\">\n<ul class=\"icon-circle-minus\">\n<li>Bastante limitado<\/li>\n<\/ul>\n<\/div>\n<\/div>\n<\/div>\n<p><a class=\"button\" title=\"Texto que aparece em hover\" href=\"#\" target=\"_blank\" rel=\"noopener sponsored noreferrer\">Experimente LinkClump<\/a><\/p>\n<h2 class=\"itemlist\"><span class=\"ez-toc-section\" id=\"4-tabsave-raspar-um-banco-de-imagens-ou-arquivos\"><\/span><span class=\"ez-toc-section\" id=\"4-tabsave-raspar-um-banco-de-imagens-ou-arquivos\"><\/span>#4. TabSave: raspar um banco de imagens ou arquivos<span class=\"ez-toc-section-end\"><\/span><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><a href=\"https:\/\/chrome.google.com\/webstore\/detail\/tab-save\/lkngoeaeclaebmpkgapchgjdbaekacki\"><img decoding=\"async\" src=\"\/wp-content\/uploads\/2020\/10\/tabsave.jpg\" \/><\/a><\/p>\n<p>Os bancos de imagens ou arquivos s\u00e3o geralmente apresentados na forma de uma imagem com um link para a fonte, novamente para ter cuidado com SEO. Assim, voc\u00ea pode usar o LinkClump para obter todos os links das fontes. \u00c9 aqui que entra a TabSave. Basta colar todos esses links no TabSave, e clicar em &#8220;Download&#8221;. Poderoso o suficiente para recuperar grandes quantidades de arquivos de m\u00eddia da web.<\/p>\n<p class=\"bloc-tips\"><i class=\"fa fa-lightbulb-o\"><\/i><span class=\"title is-5\">Conselhos do Salesdorado<\/span><br \/>\nIr para cromo:\/\/settings\/?search=downloads. Em Downloads > Localiza\u00e7\u00e3o, especifique uma pasta de destino criada para a ocasi\u00e3o. Todos os arquivos baixados por seu navegador ir\u00e3o agora para esta pasta. Uma boa maneira de evitar a bagun\u00e7a de sua pasta de Downloads. Na condi\u00e7\u00e3o de que voc\u00ea se lembre de restaurar a pasta padr\u00e3o ap\u00f3s a opera\u00e7\u00e3o.<\/p>\n<div class=\"bloc-exec\">\n<div class=\"columns\">\n<div class=\"column\">\n<ul class=\"icon-circle-plus\">\n<li>Combina perfeitamente com LinkClump,<\/li>\n<li>Voc\u00ea n\u00e3o tem que fazer nada al\u00e9m de pressionar download para obter seus dados.<\/li>\n<\/ul>\n<\/div>\n<div class=\"column\">\n<ul class=\"icon-circle-minus\">\n<li>Tenha cuidado para n\u00e3o carregar demasiadas URLs cada vez. Quando cai, cai bem.<\/li>\n<\/ul>\n<\/div>\n<\/div>\n<\/div>\n<p><a class=\"button\" title=\"Texto que aparece em hover\" href=\"https:\/\/chrome.google.com\/webstore\/detail\/tab-save\/lkngoeaeclaebmpkgapchgjdbaekacki\" target=\"_blank\" rel=\"noopener sponsored noreferrer\">Experimente TabSave<\/a><\/p>\n<h2 class=\"itemlist\"><span class=\"ez-toc-section\" id=\"5-planilhas-do-google-menos-de-1000-linhas-mas-com-alguns-elementos-complicados-a-serem-recuperados\"><\/span><span class=\"ez-toc-section\" id=\"5-planilhas-do-google-menos-de-1000-linhas-mas-com-alguns-elementos-complicados-a-serem-recuperados\"><\/span>#5. Planilhas do Google: menos de 1000 linhas, mas com alguns elementos complicados a serem recuperados<span class=\"ez-toc-section-end\"><\/span><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><a href=\"https:\/\/www.google.fr\/intl\/fr\/sheets\/about\/\"><img decoding=\"async\" src=\"\/wp-content\/uploads\/2020\/10\/ggspreadsheets.jpg\" \/><\/a><\/p>\n<p>Aqui novamente, um caso de uso bastante &#8220;bobo&#8221;, mas o Google Spreadsheets permite que voc\u00ea fa\u00e7a muitas coisas gra\u00e7as \u00e0 fun\u00e7\u00e3o ImportXML. Gra\u00e7as \u00e0 <a href=\"https:\/\/www.w3schools.com\/xml\/xpath_intro.asp\" target=\"_blank\" rel=\"noopener sponsored noreferrer\">sintaxe do XPath<\/a> (muito importante no webscraping, e n\u00e3o espec\u00edfica para este uso pelo Google Spreadsheets), voc\u00ea pode obter qualquer elemento de uma p\u00e1gina da web muito facilmente.<\/p>\n<p>Voc\u00ea pode raspar muito facilmente usando xPath, Google Sheets e a fun\u00e7\u00e3o =importxml. Embora n\u00e3o amplamente utilizado, as consultas xPath podem ser usadas para recuperar dados estruturados do conte\u00fado das p\u00e1ginas web.<\/p>\n<p>Voc\u00ea pode, por exemplo, recuperar todos os t\u00edtulos H2 do artigo que voc\u00ea est\u00e1 lendo escrevendo =importxml(&#8220;https:\/\/salesdorado.com\/automatisation\/meilleurs-outils-webscraping\/&#8221;, &#8220;\/\/h2&#8221;) para uma c\u00e9lula em uma planilha do Google Sheets.<\/p>\n<p>Isto \u00e9 o que \u00e9 usado no <a href=\"https:\/\/docs.google.com\/spreadsheets\/d\/1C9q2AJAW4H0bj9MGdFfkEDdTPYzEiIB_-ua0Slmg1zw\/copy#gid=2011187406\">placar principal do Salesdorado<\/a> para obter o t\u00edtulo da p\u00e1gina inicial do dom\u00ednio associado ao endere\u00e7o de e-mail de um contato.<\/p>\n<p class=\"bloc-tips\"><i class=\"fa fa-lightbulb-o\"><\/i><span class=\"title is-5\">Conselhos do Salesdorado<\/span><br \/>\nNote que a utiliza\u00e7\u00e3o de uma planilha abre a porta para processos din\u00e2micos para atualizar ou enriquecer seus dados de forma din\u00e2mica.<\/p>\n<div class=\"bloc-exec\">\n<div class=\"columns\">\n<div class=\"column\">\n<ul class=\"icon-circle-plus\">\n<li>Muito mais flex\u00edvel<\/li>\n<li>Pode ser usado em fluxo (n\u00e3o apenas em lote)<\/li>\n<\/ul>\n<\/div>\n<div class=\"column\">\n<ul class=\"icon-circle-minus\">\n<li>Requer conhecimento do Xpath (pode ser adquirido bastante rapidamente).<\/li>\n<li>Dificilmente vi\u00e1vel al\u00e9m de 1000 linhas.<\/li>\n<\/ul>\n<\/div>\n<\/div>\n<\/div>\n<p><a class=\"button\" title=\"Texto que aparece em hover\" href=\"https:\/\/www.google.fr\/intl\/fr\/sheets\/about\/\" target=\"_blank\" rel=\"noopener sponsored noreferrer\">Experimente o Google Spreadsheets<\/a><\/p>\n<h2 class=\"itemlist\"><span class=\"ez-toc-section\" id=\"6-webscraper-para-novatos-que-lidam-com-grandes-pedacos-mais-de-1000-linhas\"><\/span><span class=\"ez-toc-section\" id=\"6-webscraper-para-novatos-que-lidam-com-grandes-pedacos-mais-de-1000-linhas\"><\/span>#6. WebScraper: para novatos que lidam com grandes peda\u00e7os (mais de 1000 linhas)<span class=\"ez-toc-section-end\"><\/span><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><a href=\"https:\/\/webscraper.io\/\"><img decoding=\"async\" src=\"\/wp-content\/uploads\/2020\/10\/webscraper.io_.jpg\" \/><\/a><\/p>\n<p>O Webscraper \u00e9 uma ferramenta sem c\u00f3digo, bastante simples de usar, que na verdade permite ir bastante longe. Voc\u00ea ter\u00e1 que ser paciente para criar os padr\u00f5es e a execu\u00e7\u00e3o da sucata em si \u00e9&#8230; muito lenta. Mas o resultado est\u00e1 a\u00ed, os tutoriais s\u00e3o f\u00e1ceis de aprender (mesmo sem ter escrito uma linha de c\u00f3digo em sua vida), e voc\u00ea pode fazer coisas mais s\u00e9rias:<\/p>\n<ul>\n<li>Pagina\u00e7\u00e3o,<\/li>\n<li>Intera\u00e7\u00f5es com a p\u00e1gina, etc.<\/li>\n<\/ul>\n<div class=\"bloc-exec\">\n<div class=\"columns\">\n<div class=\"column\">\n<ul class=\"icon-circle-plus\">\n<li>Simples de usar e bastante potente<\/li>\n<li>Nenhum Xpath para escrever<\/li>\n<\/ul>\n<\/div>\n<div class=\"column\">\n<ul class=\"icon-circle-minus\">\n<li>Bastante lento, tanto para montar, como para correr<\/li>\n<\/ul>\n<\/div>\n<\/div>\n<\/div>\n<p><a class=\"button\" title=\"Texto que aparece em hover\" href=\"https:\/\/webscraper.io\/\" target=\"_blank\" rel=\"noopener sponsored noreferrer\">Experimente o WebScraper<\/a><\/p>\n<h2 class=\"itemlist\"><span class=\"ez-toc-section\" id=\"7-spiderpro-para-novatos-com-38-dolares-a-mais\"><\/span><span class=\"ez-toc-section\" id=\"7-spiderpro-para-novatos-com-38-dolares-a-mais\"><\/span>#7. SpiderPro: para novatos com 38 d\u00f3lares a mais<span class=\"ez-toc-section-end\"><\/span><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><a href=\"https:\/\/tryspider.com\/\"><img decoding=\"async\" src=\"\/wp-content\/uploads\/2020\/10\/spiderpro.jpg\" \/><\/a><\/p>\n<p>Spider Pro \u00e9 uma das ferramentas mais f\u00e1ceis de usar quando se raspa a Internet. Basta clicar no que voc\u00ea est\u00e1 interessado para transformar os websites em dados organizados, que podem ent\u00e3o ser baixados no formato JSON \/ CSV. Uma <a href=\"https:\/\/salesdorado.com\/pt-br\/automacao\/ferramentas-de-automacao-de-vendas\/\">ferramenta perfeita para automatizar o desenvolvimento de seus neg\u00f3cios<\/a>. \u00c9 semelhante ao Webscraper com uma diferen\u00e7a: o download do Spider Pro custar\u00e1 $38 (pagamento \u00fanico).<\/p>\n<div class=\"bloc-exec\">\n<div class=\"columns\">\n<div class=\"column\">\n<ul class=\"icon-circle-plus\">\n<li>Muito f\u00e1cil de usar<\/li>\n<li>Muito mais r\u00e1pido de montar do que o webScraper<\/li>\n<\/ul>\n<\/div>\n<div class=\"column\">\n<ul class=\"icon-circle-minus\">\n<li>\u00c9 uma ferramenta de pagamento<\/li>\n<\/ul>\n<\/div>\n<\/div>\n<\/div>\n<p><a class=\"button\" title=\"Texto que aparece em hover\" href=\"https:\/\/tryspider.com\/\" target=\"_blank\" rel=\"noopener sponsored noreferrer\">Experimente SpiderPro<\/a><\/p>\n<h2 class=\"itemlist\"><span class=\"ez-toc-section\" id=\"8-apify-para-raspar-entre-1000-e-10000-linhas-%e2%80%93-pequena-cultura-web-necessaria-sem-codigo\"><\/span><span class=\"ez-toc-section\" id=\"8-apify-para-raspar-entre-1000-e-10000-linhas-pequena-cultura-web-necessaria-sem-codigo\"><\/span>#8. Apify : para raspar entre 1000 e 10000 linhas &#8211; Pequena cultura web necess\u00e1ria (sem c\u00f3digo)<span class=\"ez-toc-section-end\"><\/span><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><a href=\"https:\/\/apify.com\/\"><img decoding=\"async\" src=\"\/wp-content\/uploads\/2020\/10\/apify.jpg\" \/><\/a><\/p>\n<p>J\u00e1 mencionamos o<a href=\"\/pt-br\/go\/apify\" target=\"_blank;\" rel=\"sponsored noopener noreferrer\">Apify<\/a> em nossas <a href=\"https:\/\/salesdorado.com\/pt-br\/ferramentas-prospeccao\/ferramentas-de-correio-a-frio\/\">ferramentas de prospec\u00e7\u00e3o de e-mail<\/a>, para o<a href=\"https:\/\/salesdorado.com\/pt-br\/ferramentas-prospeccao\/principais-buscadores-de-e-mails\/\" data-internallinksmanager029f6b8e52c=\"2\" title=\"Compara\u00e7\u00e3o de localizadores de e-mail\">buscador de e-mails<\/a> Salesdorado.<\/p>\n<p>Apify \u00e9 uma plataforma que permite executar c\u00f3digo em uma escala m\u00e9dia, sem ter que gerenciar nada na configura\u00e7\u00e3o do servidor. \u00c0s vezes sup\u00e9rfluo, mas muitas vezes valioso para evitar a l\u00f3gica de rota\u00e7\u00e3o IP, etc. Acima de tudo, existe uma biblioteca muito completa do que eles chamam de &#8220;atores&#8221; &#8211; ou seja, bots pr\u00e9-configurados para os casos de uso mais comum. Gra\u00e7as ao Apify you :<\/p>\n<ul>\n<li>Voc\u00ea economizar\u00e1 muito tempo,<\/li>\n<li>Obtenha um desempenho incompar\u00e1vel com o <a href=\"https:\/\/salesdorado.com\/pt-br\/automacao\/ferramentas-vinculadas-em-leads\/\" data-internallinksmanager029f6b8e52c=\"155\" title=\"Ferramentas Linkedin\">PhantomBuster<\/a> (cerca de 10 vezes mais r\u00e1pido no Apify em nossa experi\u00eancia),<\/li>\n<li>Gastar muito pouco.<\/li>\n<\/ul>\n<p>Al\u00e9m disso, o Apify permite que voc\u00ea alimente seus bots em seus processos (atrav\u00e9s do API deles) para enriquecer ou atualizar dinamicamente seus conjuntos de dados.<\/p>\n<p>Note que voc\u00ea pode usar o Apify gratuitamente por at\u00e9 10 horas por m\u00eas. Apify oferece um pacote a $49 por m\u00eas por 100h de m\u00e1quina onde seus dados ser\u00e3o armazenados por 14 dias. Por 149 d\u00f3lares por m\u00eas, voc\u00ea ter\u00e1 uma m\u00e1quina de 400h. Finalmente, o pacote Business a US$ 499 por m\u00eas lhe dar\u00e1 2000 horas de m\u00e1quina por m\u00eas.<\/p>\n<div class=\"bloc-exec\">\n<div class=\"columns\">\n<div class=\"column\">\n<ul class=\"icon-circle-plus\">\n<li>F\u00e1cil de usar,<\/li>\n<li>Ir\u00e1 economizar seu tempo<\/li>\n<\/ul>\n<\/div>\n<div class=\"column\">\n<ul class=\"icon-circle-minus\">\n<li>Requer pelo menos uma cultura de web bastante boa.<\/li>\n<\/ul>\n<\/div>\n<\/div>\n<\/div>\n<p><a class=\"button\" title=\"Texto que aparece em hover\" href=\"\/pt-br\/go\/apify\" target=\"_blank\" rel=\"noopener sponsored noreferrer\">Tente Apify<\/a><\/p>\n<h2 class=\"itemlist\"><span class=\"ez-toc-section\" id=\"9-raspagem-para-ir-rapido-e-duro\"><\/span><span class=\"ez-toc-section\" id=\"9-raspagem-para-ir-rapido-e-duro\"><\/span>#9. Raspagem: para ir r\u00e1pido, e duro<span class=\"ez-toc-section-end\"><\/span><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><a href=\"https:\/\/scrapy.org\/\"><img decoding=\"async\" src=\"\/wp-content\/uploads\/2020\/10\/scrapy.jpg\" \/><\/a><\/p>\n<p>Scrapy \u00e9 uma pequena refer\u00eancia para qualquer um que j\u00e1 tenha escrito Python. \u00c9 uma estrutura que permite que voc\u00ea raspe r\u00e1pida e facilmente. Voc\u00ea pode execut\u00e1-lo localmente, em seus servidores \/ lambdas, ou em nuvens de raspagem. A grande limita\u00e7\u00e3o \u00e9 para p\u00e1ginas geradas em Javascript, que \u00e9 usado cada vez mais frequentemente. Neste caso, Scrapy recomenda (precisamente) procurar fontes de dados diretamente usando a &#8220;Rede&#8221; de seu navegador.<\/p>\n<p>A id\u00e9ia \u00e9 que a p\u00e1gina \u00e9 de fato obrigada a executar uma consulta para obter os dados a serem exibidos e que, de fato, muitas vezes \u00e9 poss\u00edvel fazer essa consulta diretamente. No entanto, isto nem sempre \u00e9 poss\u00edvel. H\u00e1 ent\u00e3o uma solu\u00e7\u00e3o, muito mais complicada: executar o Javascript com um navegador.<\/p>\n<div class=\"bloc-exec\">\n<div class=\"columns\">\n<div class=\"column\">\n<ul class=\"icon-circle-plus\">\n<li>Uma ferramenta de refer\u00eancia para os entusiastas da Python<\/li>\n<li>Estrutura muito eficaz e bem documentada<\/li>\n<\/ul>\n<\/div>\n<div class=\"column\">\n<ul class=\"icon-circle-minus\">\n<li>Limite nas p\u00e1ginas geradas em Javascript<\/li>\n<\/ul>\n<\/div>\n<\/div>\n<\/div>\n<p><a class=\"button\" title=\"Texto que aparece em hover\" href=\"https:\/\/scrapy.org\/\" target=\"_blank\" rel=\"noopener sponsored noreferrer\">Experimente Scrapy<\/a><\/p>\n<h2 class=\"itemlist\"><span class=\"ez-toc-section\" id=\"10-para-projetos-maiores-marionetista-ou-selenium\"><\/span><span class=\"ez-toc-section\" id=\"10-para-projetos-maiores-marionetista-ou-selenium\"><\/span>#10. Para projetos maiores: Marionetista ou Selenium<span class=\"ez-toc-section-end\"><\/span><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><a href=\"https:\/\/pptr.dev\/\"><img decoding=\"async\" src=\"\/wp-content\/uploads\/2020\/10\/puppeteer.jpg\" \/><\/a><\/p>\n<p>O problema das p\u00e1ginas Javascript geradas dinamicamente \u00e9 cada vez mais comum, e se voc\u00ea n\u00e3o pode chamar a fonte de dados diretamente (geralmente 403), h\u00e1 apenas uma solu\u00e7\u00e3o: usar um navegador. Lembre-se de verificar se um bot ainda n\u00e3o foi escrito por algu\u00e9m no Apify (ou em outro lugar), ele funciona com bastante regularidade e evita problemas.<\/p>\n<p>Para isso, em Salesdorado, usamos o Puppeteer no NodeJS porque \u00e9 muito simples de escrever e notavelmente bem documentado. Os amantes de Python preferem ir para Selenium. Para a execu\u00e7\u00e3o, voc\u00ea tem duas op\u00e7\u00f5es:<\/p>\n<ul>\n<li>Voc\u00ea liga para muitos sites, algumas vezes cada um: encontre um lugar com boa velocidade na Internet, e administre tudo localmente. Voc\u00ea economizar\u00e1 horas de problemas, e alguns d\u00f3lares.<\/li>\n<li>Voc\u00ea chama um site, muitas vezes: este \u00e9 o caso mais irritante, e o mais comum tamb\u00e9m. Veja AWS Lambda para lidar com a rota\u00e7\u00e3o IP sem ter que fazer isso (os lambdas usam um IP diferente para cada execu\u00e7\u00e3o, abaixo de uma certa freq\u00fc\u00eancia de chamada). Para pequenos projetos, o Apify pode ser uma op\u00e7\u00e3o, mas pode ficar caro rapidamente.<\/li>\n<\/ul>\n<div class=\"bloc-exec\">\n<div class=\"columns\">\n<div class=\"column\">\n<ul class=\"icon-circle-plus\">\n<li>Poderoso, permite transmitir quase todos os sites<\/li>\n<li>Custoso de se instalar (em tempo ou dinheiro).<\/li>\n<\/ul>\n<\/div>\n<div class=\"column\">\n<ul class=\"icon-circle-minus\">\n<li>Pr\u00e9-requisitos de conhecimento necess\u00e1rios<\/li>\n<\/ul>\n<\/div>\n<\/div>\n<\/div>\n<p><a class=\"button\" title=\"Texto que aparece em hover\" href=\"https:\/\/pptr.dev\/\" target=\"_blank\" rel=\"noopener sponsored noreferrer\">Experimente o Puppeteer<\/a><\/p>\n<div style=\"display: none;\"\n    class=\"kk-star-ratings kksr-valign-bottom kksr-align-center \"\n    data-id=\"39579\"\n    data-slug=\"\">\n    <div class=\"kksr-stars\">\n    <div class=\"kksr-stars-inactive\">\n            <div class=\"kksr-star\" data-star=\"1\">\n            <div class=\"kksr-icon\" style=\"width: 24px; height: 24px;\"><\/div>\n        <\/div>\n            <div class=\"kksr-star\" data-star=\"2\">\n            <div class=\"kksr-icon\" style=\"width: 24px; height: 24px;\"><\/div>\n        <\/div>\n            <div class=\"kksr-star\" data-star=\"3\">\n            <div class=\"kksr-icon\" style=\"width: 24px; height: 24px;\"><\/div>\n        <\/div>\n            <div class=\"kksr-star\" data-star=\"4\">\n            <div class=\"kksr-icon\" style=\"width: 24px; height: 24px;\"><\/div>\n        <\/div>\n            <div class=\"kksr-star\" data-star=\"5\">\n            <div class=\"kksr-icon\" style=\"width: 24px; height: 24px;\"><\/div>\n        <\/div>\n    <\/div>\n    <div class=\"kksr-stars-active\" style=\"width: 0px;\">\n            <div class=\"kksr-star\">\n            <div class=\"kksr-icon\" style=\"width: 24px; height: 24px;\"><\/div>\n        <\/div>\n            <div class=\"kksr-star\">\n            <div class=\"kksr-icon\" style=\"width: 24px; height: 24px;\"><\/div>\n        <\/div>\n            <div class=\"kksr-star\">\n            <div class=\"kksr-icon\" style=\"width: 24px; height: 24px;\"><\/div>\n        <\/div>\n            <div class=\"kksr-star\">\n            <div class=\"kksr-icon\" style=\"width: 24px; height: 24px;\"><\/div>\n        <\/div>\n            <div class=\"kksr-star\">\n            <div class=\"kksr-icon\" style=\"width: 24px; height: 24px;\"><\/div>\n        <\/div>\n    <\/div>\n<\/div>\n    <div class=\"kksr-legend\">\n            <span class=\"kksr-muted\">Qu'avez-vous pens\u00e9 de cet article?<\/span>\n    <\/div>\n<\/div>\n","protected":false},"excerpt":{"rendered":"<p>A raspagem da web \u00e9 a extra\u00e7\u00e3o de dados de um site de uma forma [&hellip;]<\/p>\n","protected":false},"author":49,"featured_media":17600,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[223,284,226],"tags":[315,321,323],"class_list":["post-39579","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-account-based-marketing","category-aquisicao-clientes","category-automacao","tag-comparativo","tag-ferramentas","tag-recursos"],"acf":[],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v27.6 - https:\/\/yoast.com\/product\/yoast-seo-wordpress\/ -->\n<title>As 10 Melhores Ferramentas de Raspagem do Iniciante ao Muito Avan\u00e7ado | Salesdorado<\/title>\n<meta name=\"description\" content=\"Se voc\u00ea deseja extrair os dados de um site, opte por uma ferramenta de capta\u00e7\u00e3o de web. Aqui est\u00e3o as 10 melhores ferramentas para roubo de webs\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/salesdorado.com\/pt-br\/automacao\/melhores-ferramentas-de-raspagem-da-web\/\" \/>\n<meta property=\"og:locale\" content=\"pt_BR\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"As 10 Melhores Ferramentas de Raspagem do Iniciante ao Muito Avan\u00e7ado | Salesdorado\" \/>\n<meta property=\"og:description\" content=\"Se voc\u00ea deseja extrair os dados de um site, opte por uma ferramenta de capta\u00e7\u00e3o de web. Aqui est\u00e3o as 10 melhores ferramentas para roubo de webs\" \/>\n<meta property=\"og:url\" content=\"https:\/\/salesdorado.com\/pt-br\/automacao\/melhores-ferramentas-de-raspagem-da-web\/\" \/>\n<meta property=\"og:site_name\" content=\"Salesdorado\" \/>\n<meta property=\"article:published_time\" content=\"2020-10-13T12:30:42+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2023-05-12T07:20:44+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/salesdorado.com\/wp-content\/uploads\/2020\/10\/outils-webscraping.jpg\" \/>\n\t<meta property=\"og:image:width\" content=\"1440\" \/>\n\t<meta property=\"og:image:height\" content=\"810\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/jpeg\" \/>\n<meta name=\"author\" content=\"Axel Lavergne\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"Escrito por\" \/>\n\t<meta name=\"twitter:data1\" content=\"Axel Lavergne\" \/>\n\t<meta name=\"twitter:label2\" content=\"Est. tempo de leitura\" \/>\n\t<meta name=\"twitter:data2\" content=\"8 minutos\" \/>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"As 10 Melhores Ferramentas de Raspagem do Iniciante ao Muito Avan\u00e7ado | Salesdorado","description":"Se voc\u00ea deseja extrair os dados de um site, opte por uma ferramenta de capta\u00e7\u00e3o de web. Aqui est\u00e3o as 10 melhores ferramentas para roubo de webs","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/salesdorado.com\/pt-br\/automacao\/melhores-ferramentas-de-raspagem-da-web\/","og_locale":"pt_BR","og_type":"article","og_title":"As 10 Melhores Ferramentas de Raspagem do Iniciante ao Muito Avan\u00e7ado | Salesdorado","og_description":"Se voc\u00ea deseja extrair os dados de um site, opte por uma ferramenta de capta\u00e7\u00e3o de web. Aqui est\u00e3o as 10 melhores ferramentas para roubo de webs","og_url":"https:\/\/salesdorado.com\/pt-br\/automacao\/melhores-ferramentas-de-raspagem-da-web\/","og_site_name":"Salesdorado","article_published_time":"2020-10-13T12:30:42+00:00","article_modified_time":"2023-05-12T07:20:44+00:00","og_image":[{"width":1440,"height":810,"url":"https:\/\/salesdorado.com\/wp-content\/uploads\/2020\/10\/outils-webscraping.jpg","type":"image\/jpeg"}],"author":"Axel Lavergne","twitter_card":"summary_large_image","twitter_misc":{"Escrito por":"Axel Lavergne","Est. tempo de leitura":"8 minutos"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/salesdorado.com\/pt-br\/automacao\/melhores-ferramentas-de-raspagem-da-web\/#article","isPartOf":{"@id":"https:\/\/salesdorado.com\/pt-br\/automacao\/melhores-ferramentas-de-raspagem-da-web\/"},"author":{"name":"Axel Lavergne","@id":"https:\/\/salesdorado.com\/pt-br\/#\/schema\/person\/cd744347dfca9e520f11f2341f52cfe8"},"headline":"As 10 Melhores Ferramentas de Raspagem do Iniciante ao Muito Avan\u00e7ado","datePublished":"2020-10-13T12:30:42+00:00","dateModified":"2023-05-12T07:20:44+00:00","mainEntityOfPage":{"@id":"https:\/\/salesdorado.com\/pt-br\/automacao\/melhores-ferramentas-de-raspagem-da-web\/"},"wordCount":1654,"commentCount":0,"publisher":{"@id":"https:\/\/salesdorado.com\/pt-br\/#organization"},"image":{"@id":"https:\/\/salesdorado.com\/pt-br\/automacao\/melhores-ferramentas-de-raspagem-da-web\/#primaryimage"},"thumbnailUrl":"https:\/\/salesdorado.com\/wp-content\/uploads\/2020\/10\/outils-webscraping.jpg","keywords":["Comparativo","Ferramentas","Recursos"],"articleSection":["Account Based Marketing","Aquisi\u00e7\u00e3o de clientes","Automa\u00e7\u00e3o"],"inLanguage":"pt-BR","potentialAction":[{"@type":"CommentAction","name":"Comment","target":["https:\/\/salesdorado.com\/pt-br\/automacao\/melhores-ferramentas-de-raspagem-da-web\/#respond"]}]},{"@type":"WebPage","@id":"https:\/\/salesdorado.com\/pt-br\/automacao\/melhores-ferramentas-de-raspagem-da-web\/","url":"https:\/\/salesdorado.com\/pt-br\/automacao\/melhores-ferramentas-de-raspagem-da-web\/","name":"As 10 Melhores Ferramentas de Raspagem do Iniciante ao Muito Avan\u00e7ado | Salesdorado","isPartOf":{"@id":"https:\/\/salesdorado.com\/pt-br\/#website"},"primaryImageOfPage":{"@id":"https:\/\/salesdorado.com\/pt-br\/automacao\/melhores-ferramentas-de-raspagem-da-web\/#primaryimage"},"image":{"@id":"https:\/\/salesdorado.com\/pt-br\/automacao\/melhores-ferramentas-de-raspagem-da-web\/#primaryimage"},"thumbnailUrl":"https:\/\/salesdorado.com\/wp-content\/uploads\/2020\/10\/outils-webscraping.jpg","datePublished":"2020-10-13T12:30:42+00:00","dateModified":"2023-05-12T07:20:44+00:00","description":"Se voc\u00ea deseja extrair os dados de um site, opte por uma ferramenta de capta\u00e7\u00e3o de web. Aqui est\u00e3o as 10 melhores ferramentas para roubo de webs","breadcrumb":{"@id":"https:\/\/salesdorado.com\/pt-br\/automacao\/melhores-ferramentas-de-raspagem-da-web\/#breadcrumb"},"inLanguage":"pt-BR","potentialAction":[{"@type":"ReadAction","target":["https:\/\/salesdorado.com\/pt-br\/automacao\/melhores-ferramentas-de-raspagem-da-web\/"]}]},{"@type":"ImageObject","inLanguage":"pt-BR","@id":"https:\/\/salesdorado.com\/pt-br\/automacao\/melhores-ferramentas-de-raspagem-da-web\/#primaryimage","url":"https:\/\/salesdorado.com\/wp-content\/uploads\/2020\/10\/outils-webscraping.jpg","contentUrl":"https:\/\/salesdorado.com\/wp-content\/uploads\/2020\/10\/outils-webscraping.jpg","width":1440,"height":810},{"@type":"BreadcrumbList","@id":"https:\/\/salesdorado.com\/pt-br\/automacao\/melhores-ferramentas-de-raspagem-da-web\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/salesdorado.com\/pt-br\/"},{"@type":"ListItem","position":2,"name":"Automa\u00e7\u00e3o","item":"https:\/\/salesdorado.com\/pt-br\/.\/automacao\/"},{"@type":"ListItem","position":3,"name":"As 10 Melhores Ferramentas de Raspagem do Iniciante ao Muito Avan\u00e7ado"}]},{"@type":"WebSite","@id":"https:\/\/salesdorado.com\/pt-br\/#website","url":"https:\/\/salesdorado.com\/pt-br\/","name":"Salesdorado","description":"A m\u00eddia de refer\u00eancia para vendas B2B","publisher":{"@id":"https:\/\/salesdorado.com\/pt-br\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/salesdorado.com\/pt-br\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"pt-BR"},{"@type":"Organization","@id":"https:\/\/salesdorado.com\/pt-br\/#organization","name":"Salesdorado","url":"https:\/\/salesdorado.com\/pt-br\/","logo":{"@type":"ImageObject","inLanguage":"pt-BR","@id":"https:\/\/salesdorado.com\/pt-br\/#\/schema\/logo\/image\/","url":"https:\/\/salesdorado.com\/wp-content\/uploads\/2023\/09\/sdo-icon.png","contentUrl":"https:\/\/salesdorado.com\/wp-content\/uploads\/2023\/09\/sdo-icon.png","width":176,"height":176,"caption":"Salesdorado"},"image":{"@id":"https:\/\/salesdorado.com\/pt-br\/#\/schema\/logo\/image\/"}},{"@type":"Person","@id":"https:\/\/salesdorado.com\/pt-br\/#\/schema\/person\/cd744347dfca9e520f11f2341f52cfe8","name":"Axel Lavergne","image":{"@type":"ImageObject","inLanguage":"pt-BR","@id":"https:\/\/secure.gravatar.com\/avatar\/61f747d3f9cf567b4798115cbe804631716aceb94350e6facdf49965a8571d70?s=96&d=mm&r=g","url":"https:\/\/secure.gravatar.com\/avatar\/61f747d3f9cf567b4798115cbe804631716aceb94350e6facdf49965a8571d70?s=96&d=mm&r=g","contentUrl":"https:\/\/secure.gravatar.com\/avatar\/61f747d3f9cf567b4798115cbe804631716aceb94350e6facdf49965a8571d70?s=96&d=mm&r=g","caption":"Axel Lavergne"},"description":"Axel est un des co-fondateurs de Salesdorado. Il est aussi le fondateur de reviewflowz, un logiciel de gestion des avis clients.","sameAs":["https:\/\/salesdorado.com\/","https:\/\/www.linkedin.com\/in\/lavergneaxel\/","https:\/\/salesdorado.com\/wp-content\/uploads\/2023\/08\/axel-lavergne.jpeg","18SMiJ_YMKevIubRtPv-bVr5W3uQct3aB8goMkty1v6s","Fondateur @ Salesdorado & reviewflowz.com"],"url":"https:\/\/salesdorado.com\/pt-br\/author\/axelmetacompany-co\/"}]}},"_links":{"self":[{"href":"https:\/\/salesdorado.com\/pt-br\/wp-json\/wp\/v2\/posts\/39579","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/salesdorado.com\/pt-br\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/salesdorado.com\/pt-br\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/salesdorado.com\/pt-br\/wp-json\/wp\/v2\/users\/49"}],"replies":[{"embeddable":true,"href":"https:\/\/salesdorado.com\/pt-br\/wp-json\/wp\/v2\/comments?post=39579"}],"version-history":[{"count":0,"href":"https:\/\/salesdorado.com\/pt-br\/wp-json\/wp\/v2\/posts\/39579\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/salesdorado.com\/pt-br\/wp-json\/wp\/v2\/media\/17600"}],"wp:attachment":[{"href":"https:\/\/salesdorado.com\/pt-br\/wp-json\/wp\/v2\/media?parent=39579"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/salesdorado.com\/pt-br\/wp-json\/wp\/v2\/categories?post=39579"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/salesdorado.com\/pt-br\/wp-json\/wp\/v2\/tags?post=39579"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}