Puppeteer: Implementación de proyecto NestJS

Puppeteer

Implementación de un proyecto NestJS de WebScrapping (Puppeteer) en AWS Lambda

Puppeteer — Después de algunos meses de intentar ejecutar un proyecto de web scrapping de NestJs dentro de un AWS Lambda, finalmente obtuve la solución.

Estaba usando https://github.com/adieuadieu/serverless-chrome, así que noté que AWS por defecto no tiene fuentes del sistema, necesitaba configurarlo manualmente. Por eso, estaba teniendo este problema:

 

2022–04–13T13:04:46.622Z 9b8249dc-60ad-560c-a06f-130cac3fd345 INFO @serverless-chrome/lambda: Error trying to spawn chrome: Error: connect ECONNREFUSED 127.0.0.1:9222 at TCPConnectWrap.afterConnect [as oncomplete] (net.js:1144:16) { errno: ‘ECONNREFUSED’, code: ‘ECONNREFUSED’, syscall: ‘connect’, address: ‘127.0.0.1’, port: 9222}

 


DevTools listening on ws://127.0.0.1:9222/devtools/browser/b3db09ab-4250-4c63-be21-07eb1eeefa3d
[0413/133945.501862:FATAL:platform_font_skia.cc(97)] Check failed: InitDefaultFont(). Could not find the default font

Para saber más sobre el error lo publiqué aquí:

https://github.com/adieuadieu/serverless-chrome/issues/335

Después de un tiempo de búsqueda, finalmente pude encontrar otra solución, necesitaba usar “chrome-aws-lambda”, esta biblioteca ya tiene configuradas las fuentes del sistema, lo que puede ser un acceso directo a nuestro trabajo. Asumiré que ya tienes un titiritero en tu proyecto.

Para instalar necesitas ejecutar:

 

npm install chrome-aws-lambda — save-prod

 

Creé este tutorial con dos formas de usar Puppeteer, usando el titiritero puro o usando el titiritero extra (¿Cuál es el mejor? Depende de cuál sea tu propósito).

1 — Si usas Titiritero puro puedes usar el siguiente código:

const chromium = require('chrome-aws-lambda');

exports.handler = async (event, context, callback) => {
  let result = null;
  let browser = null;

  try {
    browser = await chromium.puppeteer.launch({
      args: chromium.args,
      defaultViewport: chromium.defaultViewport,
      executablePath: await chromium.executablePath,
      headless: chromium.headless,
      ignoreHTTPSErrors: true,
    });

    let page = await browser.newPage();

    await page.goto(event.url || 'https://example.com');

    result = await page.title();
  } catch (error) {
    return callback(error);
  } finally {
    if (browser !== null) {
      await browser.close();
    }
  }

  return callback(null, result);
};

2 — Si usa Puppeteer Extra para tener complementos, puede usar el siguiente código:

const chromium = require('chrome-aws-lambda');
 const { PuppeteerExtra } = require('puppeteer-extra');
 
 exports.handler = async (event, context, callback) => {
   let result = null;
   let browser = null;
 
   try {
     const puppeteerExtraInstance = new PuppeteerExtra(chromium.puppeteer, undefined);
     puppeteerExtraInstance.use(pluginXYZ);
     
     browser = await puppeteerExtraInstance.launch({
       args: chromium.args,
       defaultViewport: chromium.defaultViewport,
       executablePath: await chromium.executablePath,
       headless: chromium.headless,
       ignoreHTTPSErrors: true,
     });
 
     let page = await browser.newPage();
 
     await page.goto(event.url || 'https://example.com');
 
     result = await page.title();
   } catch (error) {
     return callback(error);
   } finally {
     if (browser !== null) {
       await browser.close();
     }
   }
 
   return callback(null, result);
 };

Uno de estos códigos antes garantizará que tiene cromo y un titiritero con fuentes del sistema y se lanzará en AWS Lambda.

Si obtiene algo como la imagen de arriba, su web scrapping dentro de lambda se estará ejecutando:

Puppeteer


¡Espero que esto ayude!

Recent Post