Saltar al contenido principal

Web Crawl

El componente Web Crawl te permite extraer contenido de múltiples páginas web simultáneamente. Puedes crear listas de URLs dinámicas combinando múltiples entradas de texto con una plantilla, similar al componente Text Aggregator.

Costo en Créditos

Depende del contenido de las páginas. Rastrear la página de introducción cuesta 5 créditos, como referencia.

Uso

El componente Web Crawl tiene múltiples manejadores de entrada que aceptan datos de texto, y un único manejador de salida que produce el contenido rastreado en formato markdown. Puedes conectar cualquier número de variables de texto a los manejadores de entrada y usarlas en tu plantilla de URLs usando la sintaxis {{variable}}.

Manejo de Variables

Las variables deben ser referenciadas explícitamente en la plantilla de URLs para ser utilizadas. Simplemente conectar una variable al manejador de entrada no es suficiente - debes usar la sintaxis {{variable}} en la plantilla para incluir su valor. Cualquier variable conectada que no esté referenciada en la plantilla de URLs será ignorada.

Si una variable referenciada contiene datos vacíos, esa variable será reemplazada con una cadena vacía en las URLs.

Propiedades

URLs

  • Tipo: texto
  • Descripción: Una plantilla que debe evaluar a un array JSON válido de URLs. Usa la sintaxis {{variable}} para referenciar variables de entrada.
  • Predeterminado: Plantilla vacía

Formato de Salida

El componente produce el contenido sin procesar de todas las páginas rastreadas en formato markdown. El contenido se procesa para:

  • Convertir HTML a markdown
  • Preservar el formato de texto
  • Incluir encabezados y listas
  • Mantener enlaces
  • Eliminar estilos innecesarios

Ejemplos

Para variables de entrada:

  • dominio = "docs.example.com"
  • producto = "widget"

Plantilla de URLs:

[
"https://{{dominio}}/{{producto}}/overview",
"https://{{dominio}}/{{producto}}/features"
]

Esto rastreará ambas URLs y devolverá su contenido en formato markdown.

Notas Importantes

  1. La plantilla de URLs debe evaluar a un array JSON válido de cadenas
  2. Todas las URLs deben ser válidas y accesibles
  3. Algunos sitios web pueden bloquear o limitar el rastreo
  4. El componente respeta las reglas de robots.txt