{"id":38860,"date":"2020-10-13T12:30:42","date_gmt":"2020-10-13T12:30:42","guid":{"rendered":""},"modified":"2023-05-16T14:25:48","modified_gmt":"2023-05-16T14:25:48","slug":"mejores-herramientas-de-webscraping","status":"publish","type":"post","link":"https:\/\/salesdorado.com\/es\/automatizacion\/mejores-herramientas-de-webscraping\/","title":{"rendered":"Las 10 mejores herramientas de scraping para principiantes y avanzados"},"content":{"rendered":"<p>El scraping web es la extracci\u00f3n de datos de un sitio web de forma estructurada. Es un m\u00e9todo \u00fatil en muchas situaciones:<\/p>\n<ul>\n<li>Generar expedientes de prospecci\u00f3n,<\/li>\n<li>Enriquecer un conjunto de datos,<\/li>\n<li>Personalizar la experiencia del cliente autom\u00e1ticamente, etc.<\/li>\n<\/ul>\n<p>En este art\u00edculo, presentaremos 10 m\u00e9todos y herramientas para el scraping web. Desde el eterno copiar y pegar (que funciona mucho mejor de lo que crees), hasta m\u00e9todos m\u00e1s complejos para proyectos m\u00e1s grandes. 7 de estos 10 m\u00e9todos no requieren ning\u00fan (o casi ning\u00fan) conocimiento previo.<\/p>\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_83 counter-hierarchy ez-toc-counter ez-toc-transparent ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">Sommaire<\/p>\n<span class=\"ez-toc-title-toggle\"><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1 ' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/salesdorado.com\/es\/automatizacion\/mejores-herramientas-de-webscraping\/#es1-copiar-y-pegar\" >\/es\/1. Copiar y pegar<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/salesdorado.com\/es\/automatizacion\/mejores-herramientas-de-webscraping\/#2-capitandatos\" >#2. Capit\u00e1nDatos<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/salesdorado.com\/es\/automatizacion\/mejores-herramientas-de-webscraping\/#4-tabsave-raspar-un-banco-de-imagenes-o-archivos\" >#4. TabSave raspar un banco de im\u00e1genes o archivos<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/salesdorado.com\/es\/automatizacion\/mejores-herramientas-de-webscraping\/#5-hojas-de-calculo-de-google-menos-de-1000-filas-pero-con-algunos-elementos-complicados-de-recuperar\" >#5. Hojas de c\u00e1lculo de Google menos de 1000 filas, pero con algunos elementos complicados de recuperar<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/salesdorado.com\/es\/automatizacion\/mejores-herramientas-de-webscraping\/#6-webscraper-para-los-principiantes-que-se-enfrentan-a-grandes-trozos-mas-de-1000-lineas\" >#6. WebScraper para los principiantes que se enfrentan a grandes trozos (m\u00e1s de 1000 l\u00edneas)<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-6\" href=\"https:\/\/salesdorado.com\/es\/automatizacion\/mejores-herramientas-de-webscraping\/#7-spiderpro-para-novatos-con-38-dolares-de-sobra\" >#7. SpiderPro para novatos con 38 d\u00f3lares de sobra<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-7\" href=\"https:\/\/salesdorado.com\/es\/automatizacion\/mejores-herramientas-de-webscraping\/#8-apify-para-raspar-entre-1000-y-10000-lineas-%e2%80%93-se-requiere-poca-cultura-web-sin-codigo\" >#8. Apify  para raspar entre 1000 y 10000 l\u00edneas &#8211; Se requiere poca cultura web (sin c\u00f3digo)<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-8\" href=\"https:\/\/salesdorado.com\/es\/automatizacion\/mejores-herramientas-de-webscraping\/#9-scrapy-ir-rapido-y-fuerte\" >#9. Scrapy ir r\u00e1pido, y fuerte<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-9\" href=\"https:\/\/salesdorado.com\/es\/automatizacion\/mejores-herramientas-de-webscraping\/#10-para-proyectos-mas-grandes-puppeteer-o-selenium\" >#10. Para proyectos m\u00e1s grandes Puppeteer o Selenium<\/a><\/li><\/ul><\/nav><\/div>\n<h2 class=\"itemlist\"><span class=\"ez-toc-section\" id=\"es1-copiar-y-pegar\"><\/span><span class=\"ez-toc-section\" id=\"1-copiar-y-pegar\"><\/span>\/es\/1. Copiar y pegar<span class=\"ez-toc-section-end\"><\/span><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Puede parecer una tonter\u00eda, pero a menudo olvidamos lo bien que funciona el copiar y pegar. Puedes copiar y pegar todas las tablas que hay en Wikipedia en un archivo de Excel o en una hoja de c\u00e1lculo de <a href=\"https:\/\/salesdorado.com\/es\/inbound-marketing\/google-business\/\" data-internallinksmanager029f6b8e52c=\"89\" title=\"Google My Biz\">Google<\/a>, por ejemplo. Si busca c\u00f3digos postales, nombres de pila comunes, c\u00f3digos telef\u00f3nicos, tarda un minuto con este m\u00e9todo. Este trabajo lleva literalmente un minuto, y me he encontrado varias veces buscando un patr\u00f3n complicado en una tabla o cuadr\u00edcula, cuando con un copiar y pegar bastar\u00eda. La automatizaci\u00f3n es buena, pero a veces lleva mucho m\u00e1s tiempo que un m\u00e9todo tan sencillo y eficaz como copiar y pegar.<\/p>\n<div class=\"bloc-exec\">\n<div class=\"columns\">\n<div class=\"column\">\n<ul class=\"icon-circle-plus\">\n<li>Muy f\u00e1cil de usar,<\/li>\n<li>Muy r\u00e1pido de hacer.<\/li>\n<\/ul>\n<\/div>\n<div class=\"column\">\n<ul class=\"icon-circle-minus\">\n<li>Muy limitado.<\/li>\n<\/ul>\n<\/div>\n<\/div>\n<\/div>\n<h2 class=\"itemlist\"><span class=\"ez-toc-section\" id=\"2-capitandatos\"><\/span><span class=\"ez-toc-section\" id=\"2-capitandatos\"><\/span>#2. Capit\u00e1nDatos<span class=\"ez-toc-section-end\"><\/span><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><video muted loop autoplay playsinline><\/video><\/p>\n<p><img decoding=\"async\" src=\"\/wp-content\/uploads\/2020\/10\/linkclump.jpg\" \/><\/p>\n<p>LinkClump es una de las <a href=\"https:\/\/salesdorado.com\/es\/automatizacion\/extensiones-google-chrome\/\">mejores extensiones de Chrome para impulsar tus ventas<\/a>. Utilizarlo es muy f\u00e1cil. Con LinkClump, usted puede :<\/p>\n<ul>\n<li>Recupera los enlaces y sus t\u00edtulos muy f\u00e1cilmente,<\/li>\n<li>Seleccione s\u00f3lo los enlaces importantes de una p\u00e1gina determinada,<\/li>\n<li>Descarga de bancos de im\u00e1genes o archivos (en combinaci\u00f3n con TabSave).<\/li>\n<\/ul>\n<p>Si miras a tu alrededor, hay muchas cosas que en realidad son s\u00f3lo enlaces a p\u00e1ginas web por razones de SEO. Por ejemplo, la mayor\u00eda de los directorios ponen un enlace a una p\u00e1gina secundaria en todos sus t\u00edtulos. Con LinkClump, puedes obtener las URLs y los t\u00edtulos de todas estas p\u00e1ginas en poco tiempo. El caso de uso m\u00e1s com\u00fan es la p\u00e1gina de resultados de Google, pero hay muchos otros.<\/p>\n<div class=\"bloc-exec\">\n<div class=\"columns\">\n<div class=\"column\">\n<ul class=\"icon-circle-plus\">\n<li>Muy f\u00e1cil de usar,<\/li>\n<li>Una <a href=\"https:\/\/salesdorado.com\/es\/automatizacion\/extensiones-google-chrome\/\" data-internallinksmanager029f6b8e52c=\"485\" title=\"La lista definitiva de las mejores extensiones de Chrome\">extensi\u00f3n de Chrome<\/a> de f\u00e1cil acceso y que ahorra mucho espacio.<\/li>\n<li>Puedes descargar una gran cantidad de datos en poco tiempo.<\/li>\n<\/ul>\n<\/div>\n<div class=\"column\">\n<ul class=\"icon-circle-minus\">\n<li>Bastante limitado<\/li>\n<\/ul>\n<\/div>\n<\/div>\n<\/div>\n<p><a class=\"button\" title=\"Texto que aparece al pasar el rat\u00f3n por encima\" href=\"#\" target=\"_blank\" rel=\"noopener sponsored noreferrer\">Prueba LinkClump<\/a><\/p>\n<h2 class=\"itemlist\"><span class=\"ez-toc-section\" id=\"4-tabsave-raspar-un-banco-de-imagenes-o-archivos\"><\/span><span class=\"ez-toc-section\" id=\"4-tabsave-raspar-un-banco-de-imagenes-o-archivos\"><\/span>#4. TabSave: raspar un banco de im\u00e1genes o archivos<span class=\"ez-toc-section-end\"><\/span><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><a href=\"https:\/\/chrome.google.com\/webstore\/detail\/tab-save\/lkngoeaeclaebmpkgapchgjdbaekacki\"><img decoding=\"async\" src=\"\/wp-content\/uploads\/2020\/10\/tabsave.jpg\" \/><\/a><\/p>\n<p>Los bancos de im\u00e1genes o archivos suelen presentarse en forma de imagen con un enlace a la fuente, de nuevo para cuidar el SEO. As\u00ed que puedes usar LinkClump para obtener todos los enlaces de las fuentes. Aqu\u00ed es donde entra TabSave. S\u00f3lo tienes que pegar todos esos enlaces en TabSave y hacer clic en &#8220;Descargar&#8221;. Lo suficientemente potente como para recuperar grandes cantidades de archivos multimedia de la web.<\/p>\n<p class=\"bloc-tips\"><i class=\"fa fa-lightbulb-o\"><\/i><span class=\"title is-5\">Consejos de Salesdorado<\/span><br \/>\nVaya a chrome:\/\/settings\/?search=downloads. En Descargas > Ubicaci\u00f3n, especifique una carpeta de destino creada para la ocasi\u00f3n. Todos los archivos descargados por su navegador ir\u00e1n ahora a esta carpeta. Una buena manera de evitar el desorden de la carpeta de descargas. A condici\u00f3n de que se acuerde de restaurar la carpeta por defecto despu\u00e9s de la operaci\u00f3n.<\/p>\n<div class=\"bloc-exec\">\n<div class=\"columns\">\n<div class=\"column\">\n<ul class=\"icon-circle-plus\">\n<li>Combina perfectamente con LinkClump,<\/li>\n<li>No tienes que hacer nada m\u00e1s que pulsar descargar para obtener tus datos.<\/li>\n<\/ul>\n<\/div>\n<div class=\"column\">\n<ul class=\"icon-circle-minus\">\n<li>Tenga cuidado de no cargar demasiadas URLs cada vez. Cuando se estrella, se estrella bien.<\/li>\n<\/ul>\n<\/div>\n<\/div>\n<\/div>\n<p><a class=\"button\" title=\"Texto que aparece al pasar el rat\u00f3n por encima\" href=\"https:\/\/chrome.google.com\/webstore\/detail\/tab-save\/lkngoeaeclaebmpkgapchgjdbaekacki\" target=\"_blank\" rel=\"noopener sponsored noreferrer\">Prueba TabSave<\/a><\/p>\n<h2 class=\"itemlist\"><span class=\"ez-toc-section\" id=\"5-hojas-de-calculo-de-google-menos-de-1000-filas-pero-con-algunos-elementos-complicados-de-recuperar\"><\/span><span class=\"ez-toc-section\" id=\"5-hojas-de-calculo-de-google-menos-de-1000-filas-pero-con-algunos-elementos-complicados-de-recuperar\"><\/span>#5. Hojas de c\u00e1lculo de Google: menos de 1000 filas, pero con algunos elementos complicados de recuperar<span class=\"ez-toc-section-end\"><\/span><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><a href=\"https:\/\/www.google.fr\/intl\/fr\/sheets\/about\/\"><img decoding=\"async\" src=\"\/wp-content\/uploads\/2020\/10\/ggspreadsheets.jpg\" \/><\/a><\/p>\n<p>De nuevo, un caso de uso bastante &#8220;tonto&#8221;, pero las hojas de c\u00e1lculo de Google permiten hacer muchas cosas gracias a la funci\u00f3n ImportXML. Gracias a la <a href=\"https:\/\/www.w3schools.com\/xml\/xpath_intro.asp\" target=\"_blank\" rel=\"noopener sponsored noreferrer\">sintaxis XPath<\/a> (muy importante en el webscraping, y no espec\u00edfica para este uso por parte de Google Spreadsheets), se puede obtener cualquier elemento de una p\u00e1gina web muy f\u00e1cilmente.<\/p>\n<p>Se puede hacer un scrap con bastante facilidad utilizando xPath, Google Sheets y la funci\u00f3n =importxml. Aunque su uso no est\u00e1 muy extendido, las consultas xPath pueden utilizarse para recuperar datos estructurados del contenido de las p\u00e1ginas web.<\/p>\n<p>Por ejemplo, puede recuperar todos los t\u00edtulos H2 del art\u00edculo que est\u00e1 leyendo escribiendo =importxml(&#8220;https:\/\/salesdorado.com\/automatisation\/meilleurs-outils-webscraping\/&#8221;, &#8220;\/\/h2&#8221;) en una celda de una hoja de c\u00e1lculo de Google Sheets.<\/p>\n<p>Esto es lo que se utiliza en <a href=\"https:\/\/docs.google.com\/spreadsheets\/d\/1C9q2AJAW4H0bj9MGdFfkEDdTPYzEiIB_-ua0Slmg1zw\/copy#gid=2011187406\">el anotador de leads de Salesdorado<\/a> para obtener el t\u00edtulo de la p\u00e1gina de inicio del dominio asociado a la direcci\u00f3n de correo electr\u00f3nico de un contacto.<\/p>\n<p class=\"bloc-tips\"><i class=\"fa fa-lightbulb-o\"><\/i><span class=\"title is-5\">Consejos de Salesdorado<\/span><br \/>\nTenga en cuenta que el uso de una hoja de c\u00e1lculo abre la puerta a procesos din\u00e1micos para refrescar o enriquecer sus datos de forma din\u00e1mica.<\/p>\n<div class=\"bloc-exec\">\n<div class=\"columns\">\n<div class=\"column\">\n<ul class=\"icon-circle-plus\">\n<li>Mucho m\u00e1s flexible<\/li>\n<li>Puede utilizarse en flujo (no s\u00f3lo en lote)<\/li>\n<\/ul>\n<\/div>\n<div class=\"column\">\n<ul class=\"icon-circle-minus\">\n<li>Requiere conocimientos de Xpath (se pueden adquirir con bastante rapidez).<\/li>\n<li>Apenas es viable m\u00e1s all\u00e1 de las 1000 l\u00edneas.<\/li>\n<\/ul>\n<\/div>\n<\/div>\n<\/div>\n<p><a class=\"button\" title=\"Texto que aparece al pasar el rat\u00f3n por encima\" href=\"https:\/\/www.google.fr\/intl\/fr\/sheets\/about\/\" target=\"_blank\" rel=\"noopener sponsored noreferrer\">Prueba las hojas de c\u00e1lculo de Google<\/a><\/p>\n<h2 class=\"itemlist\"><span class=\"ez-toc-section\" id=\"6-webscraper-para-los-principiantes-que-se-enfrentan-a-grandes-trozos-mas-de-1000-lineas\"><\/span><span class=\"ez-toc-section\" id=\"6-webscraper-para-los-principiantes-que-se-enfrentan-a-grandes-trozos-mas-de-1000-lineas\"><\/span>#6. WebScraper: para los principiantes que se enfrentan a grandes trozos (m\u00e1s de 1000 l\u00edneas)<span class=\"ez-toc-section-end\"><\/span><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><a href=\"https:\/\/webscraper.io\/\"><img decoding=\"async\" src=\"\/wp-content\/uploads\/2020\/10\/webscraper.io_.jpg\" \/><\/a><\/p>\n<p>Webscraper es una herramienta sin c\u00f3digo, bastante sencilla de utilizar, que en realidad permite llegar bastante lejos. Tendr\u00e1s que tener paciencia para crear los patrones y la ejecuci\u00f3n del desguace en s\u00ed es&#8230; muy lenta. Pero el resultado est\u00e1 ah\u00ed, los tutoriales son f\u00e1ciles de aprender (incluso sin haber escrito una l\u00ednea de c\u00f3digo en tu vida), y puedes hacer cosas m\u00e1s serias:<\/p>\n<ul>\n<li>Paginaci\u00f3n,<\/li>\n<li>Interacciones con la p\u00e1gina, etc.<\/li>\n<\/ul>\n<div class=\"bloc-exec\">\n<div class=\"columns\">\n<div class=\"column\">\n<ul class=\"icon-circle-plus\">\n<li>F\u00e1cil de usar y bastante potente<\/li>\n<li>No hay Xpath para escribir<\/li>\n<\/ul>\n<\/div>\n<div class=\"column\">\n<ul class=\"icon-circle-minus\">\n<li>Bastante lento, tanto en su instalaci\u00f3n como en su funcionamiento<\/li>\n<\/ul>\n<\/div>\n<\/div>\n<\/div>\n<p><a class=\"button\" title=\"Texto que aparece al pasar el rat\u00f3n por encima\" href=\"https:\/\/webscraper.io\/\" target=\"_blank\" rel=\"noopener sponsored noreferrer\">Pruebe WebScraper<\/a><\/p>\n<h2 class=\"itemlist\"><span class=\"ez-toc-section\" id=\"7-spiderpro-para-novatos-con-38-dolares-de-sobra\"><\/span><span class=\"ez-toc-section\" id=\"7-spiderpro-para-novatos-con-38-dolares-de-sobra\"><\/span>#7. SpiderPro: para novatos con 38 d\u00f3lares de sobra<span class=\"ez-toc-section-end\"><\/span><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><a href=\"https:\/\/tryspider.com\/\"><img decoding=\"async\" src=\"\/wp-content\/uploads\/2020\/10\/spiderpro.jpg\" \/><\/a><\/p>\n<p>Spider Pro es una de las herramientas m\u00e1s f\u00e1ciles de usar para el scraping de Internet. S\u00f3lo tiene que hacer clic en lo que le interesa para convertir los sitios web en datos organizados, que luego puede descargar en formato JSON \/ CSV. Una <a href=\"https:\/\/salesdorado.com\/es\/automatizacion\/herramientas-de-automatizacion-de-ventas\/\">herramienta perfecta para automatizar la prospecci\u00f3n de su negocio<\/a>. Es similar a Webscraper con una diferencia: la descarga de Spider Pro le costar\u00e1 38 d\u00f3lares (pago \u00fanico).<\/p>\n<div class=\"bloc-exec\">\n<div class=\"columns\">\n<div class=\"column\">\n<ul class=\"icon-circle-plus\">\n<li>Muy f\u00e1cil de usar<\/li>\n<li>Mucho m\u00e1s r\u00e1pido de configurar que webScraper<\/li>\n<\/ul>\n<\/div>\n<div class=\"column\">\n<ul class=\"icon-circle-minus\">\n<li>Es una herramienta de pago<\/li>\n<\/ul>\n<\/div>\n<\/div>\n<\/div>\n<p><a class=\"button\" title=\"Texto que aparece al pasar el rat\u00f3n por encima\" href=\"https:\/\/tryspider.com\/\" target=\"_blank\" rel=\"noopener sponsored noreferrer\">Prueba SpiderPro<\/a><\/p>\n<h2 class=\"itemlist\"><span class=\"ez-toc-section\" id=\"8-apify-para-raspar-entre-1000-y-10000-lineas-%e2%80%93-se-requiere-poca-cultura-web-sin-codigo\"><\/span><span class=\"ez-toc-section\" id=\"8-apify-para-raspar-entre-1000-y-10000-lineas-se-requiere-poca-cultura-web-sin-codigo\"><\/span>#8. Apify : para raspar entre 1000 y 10000 l\u00edneas &#8211; Se requiere poca cultura web (sin c\u00f3digo)<span class=\"ez-toc-section-end\"><\/span><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><a href=\"https:\/\/apify.com\/\"><img decoding=\"async\" src=\"\/wp-content\/uploads\/2020\/10\/apify.jpg\" \/><\/a><\/p>\n<p>Ya hemos mencionado<a href=\"\/es\/go\/apify\" target=\"_blank;\" rel=\"sponsored noopener noreferrer\">a Apify<\/a> en nuestras <a href=\"https:\/\/salesdorado.com\/es\/herramientas-prospeccion\/herramientas-de-envio-en-frio\/\">herramientas de prospecci\u00f3n de correo electr\u00f3nico<\/a>, para el<a href=\"https:\/\/salesdorado.com\/es\/herramientas-prospeccion\/los-mejores-buscadores-de-correos-electronicos\/\" data-internallinksmanager029f6b8e52c=\"2\" title=\"Comparaci\u00f3n de buscadores de correo electr\u00f3nico\">buscador de correos electr\u00f3nicos<\/a> de Salesdorado.<\/p>\n<p>Apify es una plataforma que permite ejecutar c\u00f3digo a media escala, sin tener que gestionar nada en la configuraci\u00f3n del servidor. A veces es superfluo, pero a menudo es valioso para evitar la l\u00f3gica de la rotaci\u00f3n de IP, etc. Sobre todo, hay una biblioteca muy completa de lo que ellos llaman &#8220;actores&#8221;, es decir, bots preconfigurados para los casos de uso m\u00e1s comunes. Gracias a Apify usted :<\/p>\n<ul>\n<li>Ahorrar\u00e1 mucho tiempo,<\/li>\n<li>Obtenga un rendimiento incomparable con <a href=\"https:\/\/salesdorado.com\/es\/automatizacion\/herramientas-linkedin-leads\/\" data-internallinksmanager029f6b8e52c=\"155\" title=\"Herramientas de Linkedin\">PhantomBuster<\/a> (alrededor de 10 veces m\u00e1s r\u00e1pido en Apify seg\u00fan nuestra experiencia),<\/li>\n<li>Gastar muy poco.<\/li>\n<\/ul>\n<p>Adem\u00e1s, Apify te permite alimentar tus bots en tus procesos (a trav\u00e9s de su API) para enriquecer o refrescar tus conjuntos de datos de forma din\u00e1mica.<\/p>\n<p>Ten en cuenta que puedes utilizar Apify de forma gratuita hasta 10 horas al mes. Apify ofrece un paquete de 49 d\u00f3lares al mes por 100h de m\u00e1quina en el que tus datos se almacenan durante 14 d\u00edas. Por 149 d\u00f3lares al mes, tendr\u00e1s una m\u00e1quina de 400h. Por \u00faltimo, el paquete Business, de 499 d\u00f3lares al mes, le proporcionar\u00e1 2.000 horas de m\u00e1quina al mes.<\/p>\n<div class=\"bloc-exec\">\n<div class=\"columns\">\n<div class=\"column\">\n<ul class=\"icon-circle-plus\">\n<li>F\u00e1cil de usar,<\/li>\n<li>Le ahorrar\u00e1 tiempo<\/li>\n<\/ul>\n<\/div>\n<div class=\"column\">\n<ul class=\"icon-circle-minus\">\n<li>Requiere una cultura web bastante buena al menos.<\/li>\n<\/ul>\n<\/div>\n<\/div>\n<\/div>\n<p><a class=\"button\" title=\"Texto que aparece al pasar el rat\u00f3n por encima\" href=\"\/es\/go\/apify\" target=\"_blank\" rel=\"noopener sponsored noreferrer\">Pruebe Apify<\/a><\/p>\n<h2 class=\"itemlist\"><span class=\"ez-toc-section\" id=\"9-scrapy-ir-rapido-y-fuerte\"><\/span><span class=\"ez-toc-section\" id=\"9-scrapy-ir-rapido-y-fuerte\"><\/span>#9. Scrapy: ir r\u00e1pido, y fuerte<span class=\"ez-toc-section-end\"><\/span><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><a href=\"https:\/\/scrapy.org\/\"><img decoding=\"async\" src=\"\/wp-content\/uploads\/2020\/10\/scrapy.jpg\" \/><\/a><\/p>\n<p>Scrapy es un poco de referencia para cualquiera que haya escrito Python. Es un marco de trabajo que te permite hacer scraping de forma r\u00e1pida y sencilla. Puedes ejecutarlo localmente, en tus servidores \/ lambdas, o en la nube de scrapy. La gran limitaci\u00f3n es para las p\u00e1ginas generadas en Javascript, que se utiliza cada vez m\u00e1s. En este caso, Scrapy recomienda (precisamente) buscar las fuentes de datos directamente utilizando la &#8220;Red&#8221; de su navegador.<\/p>\n<p>La idea es que la p\u00e1gina se vea obligada a ejecutar una consulta para obtener los datos que se van a mostrar y que, de hecho, muy a menudo es posible hacer esta consulta directamente. Sin embargo, esto no siempre es posible. Existe entonces una soluci\u00f3n, mucho m\u00e1s engorrosa: ejecutar el Javascript con un navegador.<\/p>\n<div class=\"bloc-exec\">\n<div class=\"columns\">\n<div class=\"column\">\n<ul class=\"icon-circle-plus\">\n<li>Una herramienta de referencia para los entusiastas de Python<\/li>\n<li>Marco muy eficaz y bien documentado<\/li>\n<\/ul>\n<\/div>\n<div class=\"column\">\n<ul class=\"icon-circle-minus\">\n<li>Limitaci\u00f3n de las p\u00e1ginas generadas en Javascript<\/li>\n<\/ul>\n<\/div>\n<\/div>\n<\/div>\n<p><a class=\"button\" title=\"Texto que aparece al pasar el rat\u00f3n por encima\" href=\"https:\/\/scrapy.org\/\" target=\"_blank\" rel=\"noopener sponsored noreferrer\">Pruebe Scrapy<\/a><\/p>\n<h2 class=\"itemlist\"><span class=\"ez-toc-section\" id=\"10-para-proyectos-mas-grandes-puppeteer-o-selenium\"><\/span><span class=\"ez-toc-section\" id=\"10-para-proyectos-mas-grandes-puppeteer-o-selenium\"><\/span>#10. Para proyectos m\u00e1s grandes: Puppeteer o Selenium<span class=\"ez-toc-section-end\"><\/span><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><a href=\"https:\/\/pptr.dev\/\"><img decoding=\"async\" src=\"\/wp-content\/uploads\/2020\/10\/puppeteer.jpg\" \/><\/a><\/p>\n<p>El problema de las p\u00e1ginas generadas din\u00e1micamente con Javascript es cada vez m\u00e1s com\u00fan, y si no se puede llamar a la fuente de datos directamente (normalmente 403), s\u00f3lo hay una soluci\u00f3n: utilizar un navegador. Recuerda comprobar que un bot no ha sido ya escrito por alguien en Apify (o en otro lugar), funciona con bastante regularidad y evita problemas.<\/p>\n<p>Para ello, en Salesdorado, utilizamos Puppeteer en NodeJS porque es muy sencillo de escribir y est\u00e1 notablemente bien documentado. Los amantes de Python preferir\u00e1n ir a Selenium. Para la ejecuci\u00f3n, tiene dos opciones:<\/p>\n<ul>\n<li>Llamas a muchos sitios, un par de veces a cada uno: busca un lugar con buena velocidad de Internet y ejecuta todo localmente. Te ahorrar\u00e1s horas de problemas y unos cuantos d\u00f3lares.<\/li>\n<li>Llamas a un sitio, muchas veces: este es el caso m\u00e1s molesto, y el m\u00e1s com\u00fan tambi\u00e9n. Mira AWS Lambda para manejar la rotaci\u00f3n de IPs sin tener que hacerlo (las lambdas usan una IP diferente para cada ejecuci\u00f3n, por debajo de cierta frecuencia de llamadas). Para proyectos peque\u00f1os, Apify puede ser una opci\u00f3n, pero puede resultar caro r\u00e1pidamente.<\/li>\n<\/ul>\n<div class=\"bloc-exec\">\n<div class=\"columns\">\n<div class=\"column\">\n<ul class=\"icon-circle-plus\">\n<li>Potente, permite pasar por casi todos los sitios<\/li>\n<li>Costoso de instalar (en tiempo o dinero).<\/li>\n<\/ul>\n<\/div>\n<div class=\"column\">\n<ul class=\"icon-circle-minus\">\n<li>Conocimientos previos<\/li>\n<\/ul>\n<\/div>\n<\/div>\n<\/div>\n<p><a class=\"button\" title=\"Texto que aparece al pasar el rat\u00f3n por encima\" href=\"https:\/\/pptr.dev\/\" target=\"_blank\" rel=\"noopener sponsored noreferrer\">Pruebe con Puppeteer<\/a><\/p>\n<div style=\"display: none;\"\n    class=\"kk-star-ratings kksr-valign-bottom kksr-align-center \"\n    data-id=\"38860\"\n    data-slug=\"\">\n    <div class=\"kksr-stars\">\n    <div class=\"kksr-stars-inactive\">\n            <div class=\"kksr-star\" data-star=\"1\">\n            <div class=\"kksr-icon\" style=\"width: 24px; height: 24px;\"><\/div>\n        <\/div>\n            <div class=\"kksr-star\" data-star=\"2\">\n            <div class=\"kksr-icon\" style=\"width: 24px; height: 24px;\"><\/div>\n        <\/div>\n            <div class=\"kksr-star\" data-star=\"3\">\n            <div class=\"kksr-icon\" style=\"width: 24px; height: 24px;\"><\/div>\n        <\/div>\n            <div class=\"kksr-star\" data-star=\"4\">\n            <div class=\"kksr-icon\" style=\"width: 24px; height: 24px;\"><\/div>\n        <\/div>\n            <div class=\"kksr-star\" data-star=\"5\">\n            <div class=\"kksr-icon\" style=\"width: 24px; height: 24px;\"><\/div>\n        <\/div>\n    <\/div>\n    <div class=\"kksr-stars-active\" style=\"width: 0px;\">\n            <div class=\"kksr-star\">\n            <div class=\"kksr-icon\" style=\"width: 24px; height: 24px;\"><\/div>\n        <\/div>\n            <div class=\"kksr-star\">\n            <div class=\"kksr-icon\" style=\"width: 24px; height: 24px;\"><\/div>\n        <\/div>\n            <div class=\"kksr-star\">\n            <div class=\"kksr-icon\" style=\"width: 24px; height: 24px;\"><\/div>\n        <\/div>\n            <div class=\"kksr-star\">\n            <div class=\"kksr-icon\" style=\"width: 24px; height: 24px;\"><\/div>\n        <\/div>\n            <div class=\"kksr-star\">\n            <div class=\"kksr-icon\" style=\"width: 24px; height: 24px;\"><\/div>\n        <\/div>\n    <\/div>\n<\/div>\n    <div class=\"kksr-legend\">\n            <span class=\"kksr-muted\">Qu'avez-vous pens\u00e9 de cet article?<\/span>\n    <\/div>\n<\/div>\n","protected":false},"excerpt":{"rendered":"<p>El scraping web es la extracci\u00f3n de datos de un sitio web de forma estructurada. [&hellip;]<\/p>\n","protected":false},"author":49,"featured_media":17601,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[224,227,283],"tags":[316,322,324],"class_list":["post-38860","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-account-based-marketing","category-automatizacion","category-captacion-clientes","tag-comparativo","tag-herramientas","tag-recursos"],"acf":[],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v27.6 - https:\/\/yoast.com\/product\/yoast-seo-wordpress\/ -->\n<title>Las 10 mejores herramientas de scraping para principiantes y avanzados | Salesdorado<\/title>\n<meta name=\"description\" content=\"Si desea extraer los datos de un sitio web, opte por una herramienta de cacer\u00eda web. Estas son las 10 mejores herramientas para WebScraping\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/salesdorado.com\/es\/automatizacion\/mejores-herramientas-de-webscraping\/\" \/>\n<meta property=\"og:locale\" content=\"es_ES\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Las 10 mejores herramientas de scraping para principiantes y avanzados | Salesdorado\" \/>\n<meta property=\"og:description\" content=\"Si desea extraer los datos de un sitio web, opte por una herramienta de cacer\u00eda web. Estas son las 10 mejores herramientas para WebScraping\" \/>\n<meta property=\"og:url\" content=\"https:\/\/salesdorado.com\/es\/automatizacion\/mejores-herramientas-de-webscraping\/\" \/>\n<meta property=\"og:site_name\" content=\"Salesdorado\" \/>\n<meta property=\"article:published_time\" content=\"2020-10-13T12:30:42+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2023-05-16T14:25:48+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/salesdorado.com\/wp-content\/uploads\/2020\/10\/outils-webscraping.jpg\" \/>\n\t<meta property=\"og:image:width\" content=\"1440\" \/>\n\t<meta property=\"og:image:height\" content=\"810\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/jpeg\" \/>\n<meta name=\"author\" content=\"Axel Lavergne\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"Escrito por\" \/>\n\t<meta name=\"twitter:data1\" content=\"Axel Lavergne\" \/>\n\t<meta name=\"twitter:label2\" content=\"Tiempo de lectura\" \/>\n\t<meta name=\"twitter:data2\" content=\"9 minutos\" \/>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Las 10 mejores herramientas de scraping para principiantes y avanzados | Salesdorado","description":"Si desea extraer los datos de un sitio web, opte por una herramienta de cacer\u00eda web. Estas son las 10 mejores herramientas para WebScraping","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/salesdorado.com\/es\/automatizacion\/mejores-herramientas-de-webscraping\/","og_locale":"es_ES","og_type":"article","og_title":"Las 10 mejores herramientas de scraping para principiantes y avanzados | Salesdorado","og_description":"Si desea extraer los datos de un sitio web, opte por una herramienta de cacer\u00eda web. Estas son las 10 mejores herramientas para WebScraping","og_url":"https:\/\/salesdorado.com\/es\/automatizacion\/mejores-herramientas-de-webscraping\/","og_site_name":"Salesdorado","article_published_time":"2020-10-13T12:30:42+00:00","article_modified_time":"2023-05-16T14:25:48+00:00","og_image":[{"width":1440,"height":810,"url":"https:\/\/salesdorado.com\/wp-content\/uploads\/2020\/10\/outils-webscraping.jpg","type":"image\/jpeg"}],"author":"Axel Lavergne","twitter_card":"summary_large_image","twitter_misc":{"Escrito por":"Axel Lavergne","Tiempo de lectura":"9 minutos"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/salesdorado.com\/es\/automatizacion\/mejores-herramientas-de-webscraping\/#article","isPartOf":{"@id":"https:\/\/salesdorado.com\/es\/automatizacion\/mejores-herramientas-de-webscraping\/"},"author":{"name":"Axel Lavergne","@id":"https:\/\/salesdorado.com\/es\/#\/schema\/person\/cd744347dfca9e520f11f2341f52cfe8"},"headline":"Las 10 mejores herramientas de scraping para principiantes y avanzados","datePublished":"2020-10-13T12:30:42+00:00","dateModified":"2023-05-16T14:25:48+00:00","mainEntityOfPage":{"@id":"https:\/\/salesdorado.com\/es\/automatizacion\/mejores-herramientas-de-webscraping\/"},"wordCount":1726,"commentCount":0,"publisher":{"@id":"https:\/\/salesdorado.com\/es\/#organization"},"image":{"@id":"https:\/\/salesdorado.com\/es\/automatizacion\/mejores-herramientas-de-webscraping\/#primaryimage"},"thumbnailUrl":"https:\/\/salesdorado.com\/wp-content\/uploads\/2020\/10\/outils-webscraping.jpg","keywords":["Comparativo","Herramientas","Recursos"],"articleSection":["Account Based Marketing","Automatizaci\u00f3n","Captaci\u00f3n de clientes"],"inLanguage":"es","potentialAction":[{"@type":"CommentAction","name":"Comment","target":["https:\/\/salesdorado.com\/es\/automatizacion\/mejores-herramientas-de-webscraping\/#respond"]}]},{"@type":"WebPage","@id":"https:\/\/salesdorado.com\/es\/automatizacion\/mejores-herramientas-de-webscraping\/","url":"https:\/\/salesdorado.com\/es\/automatizacion\/mejores-herramientas-de-webscraping\/","name":"Las 10 mejores herramientas de scraping para principiantes y avanzados | Salesdorado","isPartOf":{"@id":"https:\/\/salesdorado.com\/es\/#website"},"primaryImageOfPage":{"@id":"https:\/\/salesdorado.com\/es\/automatizacion\/mejores-herramientas-de-webscraping\/#primaryimage"},"image":{"@id":"https:\/\/salesdorado.com\/es\/automatizacion\/mejores-herramientas-de-webscraping\/#primaryimage"},"thumbnailUrl":"https:\/\/salesdorado.com\/wp-content\/uploads\/2020\/10\/outils-webscraping.jpg","datePublished":"2020-10-13T12:30:42+00:00","dateModified":"2023-05-16T14:25:48+00:00","description":"Si desea extraer los datos de un sitio web, opte por una herramienta de cacer\u00eda web. Estas son las 10 mejores herramientas para WebScraping","breadcrumb":{"@id":"https:\/\/salesdorado.com\/es\/automatizacion\/mejores-herramientas-de-webscraping\/#breadcrumb"},"inLanguage":"es","potentialAction":[{"@type":"ReadAction","target":["https:\/\/salesdorado.com\/es\/automatizacion\/mejores-herramientas-de-webscraping\/"]}]},{"@type":"ImageObject","inLanguage":"es","@id":"https:\/\/salesdorado.com\/es\/automatizacion\/mejores-herramientas-de-webscraping\/#primaryimage","url":"https:\/\/salesdorado.com\/wp-content\/uploads\/2020\/10\/outils-webscraping.jpg","contentUrl":"https:\/\/salesdorado.com\/wp-content\/uploads\/2020\/10\/outils-webscraping.jpg","width":1440,"height":810},{"@type":"BreadcrumbList","@id":"https:\/\/salesdorado.com\/es\/automatizacion\/mejores-herramientas-de-webscraping\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/salesdorado.com\/es\/"},{"@type":"ListItem","position":2,"name":"Automatizaci\u00f3n","item":"https:\/\/salesdorado.com\/es\/.\/automatizacion\/"},{"@type":"ListItem","position":3,"name":"Las 10 mejores herramientas de scraping para principiantes y avanzados"}]},{"@type":"WebSite","@id":"https:\/\/salesdorado.com\/es\/#website","url":"https:\/\/salesdorado.com\/es\/","name":"Salesdorado","description":"El medio de referencia sobre ventas B2B","publisher":{"@id":"https:\/\/salesdorado.com\/es\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/salesdorado.com\/es\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"es"},{"@type":"Organization","@id":"https:\/\/salesdorado.com\/es\/#organization","name":"Salesdorado","url":"https:\/\/salesdorado.com\/es\/","logo":{"@type":"ImageObject","inLanguage":"es","@id":"https:\/\/salesdorado.com\/es\/#\/schema\/logo\/image\/","url":"https:\/\/salesdorado.com\/wp-content\/uploads\/2023\/09\/sdo-icon.png","contentUrl":"https:\/\/salesdorado.com\/wp-content\/uploads\/2023\/09\/sdo-icon.png","width":176,"height":176,"caption":"Salesdorado"},"image":{"@id":"https:\/\/salesdorado.com\/es\/#\/schema\/logo\/image\/"}},{"@type":"Person","@id":"https:\/\/salesdorado.com\/es\/#\/schema\/person\/cd744347dfca9e520f11f2341f52cfe8","name":"Axel Lavergne","image":{"@type":"ImageObject","inLanguage":"es","@id":"https:\/\/secure.gravatar.com\/avatar\/61f747d3f9cf567b4798115cbe804631716aceb94350e6facdf49965a8571d70?s=96&d=mm&r=g","url":"https:\/\/secure.gravatar.com\/avatar\/61f747d3f9cf567b4798115cbe804631716aceb94350e6facdf49965a8571d70?s=96&d=mm&r=g","contentUrl":"https:\/\/secure.gravatar.com\/avatar\/61f747d3f9cf567b4798115cbe804631716aceb94350e6facdf49965a8571d70?s=96&d=mm&r=g","caption":"Axel Lavergne"},"description":"Axel est un des co-fondateurs de Salesdorado. Il est aussi le fondateur de reviewflowz, un logiciel de gestion des avis clients.","sameAs":["https:\/\/salesdorado.com\/","https:\/\/www.linkedin.com\/in\/lavergneaxel\/","https:\/\/salesdorado.com\/wp-content\/uploads\/2023\/08\/axel-lavergne.jpeg","18SMiJ_YMKevIubRtPv-bVr5W3uQct3aB8goMkty1v6s","Fondateur @ Salesdorado & reviewflowz.com"],"url":"https:\/\/salesdorado.com\/es\/author\/axelmetacompany-co\/"}]}},"_links":{"self":[{"href":"https:\/\/salesdorado.com\/es\/wp-json\/wp\/v2\/posts\/38860","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/salesdorado.com\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/salesdorado.com\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/salesdorado.com\/es\/wp-json\/wp\/v2\/users\/49"}],"replies":[{"embeddable":true,"href":"https:\/\/salesdorado.com\/es\/wp-json\/wp\/v2\/comments?post=38860"}],"version-history":[{"count":0,"href":"https:\/\/salesdorado.com\/es\/wp-json\/wp\/v2\/posts\/38860\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/salesdorado.com\/es\/wp-json\/wp\/v2\/media\/17601"}],"wp:attachment":[{"href":"https:\/\/salesdorado.com\/es\/wp-json\/wp\/v2\/media?parent=38860"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/salesdorado.com\/es\/wp-json\/wp\/v2\/categories?post=38860"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/salesdorado.com\/es\/wp-json\/wp\/v2\/tags?post=38860"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}