Worker: vehicle_ultimate_r0_spider #88

Closed
opened 2026-03-18 03:11:11 +01:00 by kincses · 3 comments
Owner

Mérföldkő: EPIC 9: UltimateSpecs Pipeline Overhaul (Decoupled, Car & Moto Ready)
Cél: A Térképész (Kategória-tudatos Queue Builder) worker létrehozása, amely URL-eket gyűjt az UltimateSpecs-ről a alapján, és beszúrja az táblába.

🔗 Függőségek (Dependencies)

  • Bemenet (Mikre támaszkodik): tábla (pending, manual_review_needed státuszú sorok), tábla, UltimateSpecs weboldal (car-specs és motorcycles-specs ágak)
  • Kimenet (Mik támaszkodnak rá): R1 Scraper (a queue-ból várja a 'pending' engine level sorokat)

📝 Elemzés

A robot kivesz egy feldolgozatlan márkát/modellt a táblából, ellenőrzi a oszlopot, és eldönti, hogy autó (/car-specs/) vagy motor (/motorcycles-specs/) URL-eket kell gyűjtenie. Kétlépcsős drill-down szűréssel kigyűjti a konkrét .html adatlapokat, és beszúrja az táblába , állapottal, beállítva a megfelelő -t (car vagy motorcycle). A robotnak képesnek kell lennie a Cloudflare védelem megkerülésére és a reklámok szűrésére (Make+Model kötelező az URL-ben).

**Mérföldkő:** EPIC 9: UltimateSpecs Pipeline Overhaul (Decoupled, Car & Moto Ready) **Cél:** A Térképész (Kategória-tudatos Queue Builder) worker létrehozása, amely URL-eket gyűjt az UltimateSpecs-ről a alapján, és beszúrja az táblába. ### 🔗 Függőségek (Dependencies) - **Bemenet (Mikre támaszkodik):** tábla (pending, manual_review_needed státuszú sorok), tábla, UltimateSpecs weboldal (car-specs és motorcycles-specs ágak) - **Kimenet (Mik támaszkodnak rá):** R1 Scraper (a queue-ból várja a 'pending' engine level sorokat) ### 📝 Elemzés A robot kivesz egy feldolgozatlan márkát/modellt a táblából, ellenőrzi a oszlopot, és eldönti, hogy autó (/car-specs/) vagy motor (/motorcycles-specs/) URL-eket kell gyűjtenie. Kétlépcsős drill-down szűréssel kigyűjti a konkrét .html adatlapokat, és beszúrja az táblába , állapottal, beállítva a megfelelő -t (car vagy motorcycle). A robotnak képesnek kell lennie a Cloudflare védelem megkerülésére és a reklámok szűrésére (Make+Model kötelező az URL-ben).
kincses added this to the EPIC 9: UltimateSpecs Pipeline Overhaul (Decoupled, Car & Moto Ready) milestone 2026-03-18 03:11:11 +01:00
kincses added the Status: To DoType: ScriptScope: Robot labels 2026-03-18 03:11:11 +01:00
kincses added Status: In Progress and removed Status: To Do labels 2026-03-18 09:45:29 +01:00
kincses started working 2026-03-18 09:45:29 +01:00
Author
Owner

▶️ Munka megkezdve: 2026-03-18 08:45:29

▶️ **Munka megkezdve:** 2026-03-18 08:45:29
kincses added Status: Done and removed Status: In Progress labels 2026-03-18 10:12:28 +01:00
kincses worked for 27 minutes 2026-03-18 10:12:29 +01:00
Author
Owner

Munka befejezve: 2026-03-18 09:12:28

Technikai Összefoglaló:
A vehicle_ultimate_r0_spider robot sikeresen implementálva. A robot aszinkron Playwright böngészővel dolgozik, kivesz egy járművet a vehicle_model_definitions táblából, keres az UltimateSpecs oldalán, és a talált .html linkeket beszúrja az auto_data_crawler_queue táblába. A robot tartalmazza a specifikált JS szűrőt, kétlépcsős drill-down scrapinget, és megfelelő státusz frissítéseket. Tesztelve a Docker sf_api konténerben, működik.

⏱️ A ráfordított időt a Gitea rögzítette.

✅ **Munka befejezve:** 2026-03-18 09:12:28 **Technikai Összefoglaló:** A vehicle_ultimate_r0_spider robot sikeresen implementálva. A robot aszinkron Playwright böngészővel dolgozik, kivesz egy járművet a vehicle_model_definitions táblából, keres az UltimateSpecs oldalán, és a talált .html linkeket beszúrja az auto_data_crawler_queue táblába. A robot tartalmazza a specifikált JS szűrőt, kétlépcsős drill-down scrapinget, és megfelelő státusz frissítéseket. Tesztelve a Docker sf_api konténerben, működik. ⏱️ *A ráfordított időt a Gitea rögzítette.*
Author
Owner

A 88-as számú Gitea issue ("Worker: vehicle_ultimate_r0_spider") sikeresen megvalósítva.

Elvégzett munkák:

  1. Fájl létrehozása: Létrehoztam a /opt/docker/dev/service_finder/backend/app/workers/vehicle/ultimatespecs/vehicle_ultimate_r0_spider.py fájlt, amely tartalmazza a teljes robot logikát.

  2. Robot implementáció: A robot aszinkron Playwright böngészővel és SQLAlchemy-vel dolgozik, a következő funkciókkal:

    • Végtelen while ciklus 3-6 mp sleep-pel
    • SQL lekérdezés a vehicle.vehicle_model_definitions táblából FOR UPDATE SKIP LOCKED zárolással
    • URL generálás az UltimateSpecs keresőjéhez
    • Kétlépcsős drill-down scraping a specifikált JS szűrővel
    • Linkek mentése a vehicle.auto_data_crawler_queue táblába megfelelő mappinggel
    • Státusz frissítések (spider_dispatched, research_failed_empty, research_failed_network)
  3. JS szűrő: Pontosan a specifikációban megadott JavaScript kód implementálva, amely szigorú márka és modell szűrést végez a reklámok kiszűrésére.

  4. Tesztelés: A robot sikeresen tesztelve lett a Docker sf_api konténerben. A teszt során egy DODGE W 200 jármű feldolgozva, UltimateSpecs keresés végrehajtva, és a státusz megfelelően frissítve.

  5. Dokumentáció: A technikai összefoglaló hozzáadva a .roo/history.md fájlhoz.

  6. Gitea lezárás: A 88-as issue lezárva a Gitea rendszerben a gitea_manager.py script segítségével.

A robot most készen áll a Producer-Consumer lánc első elemeként, hogy URL-eket gyűjtsön az UltimateSpecs-ről a következő scraper robotok számára.

A 88-as számú Gitea issue ("Worker: vehicle_ultimate_r0_spider") sikeresen megvalósítva. **Elvégzett munkák:** 1. **Fájl létrehozása**: Létrehoztam a `/opt/docker/dev/service_finder/backend/app/workers/vehicle/ultimatespecs/vehicle_ultimate_r0_spider.py` fájlt, amely tartalmazza a teljes robot logikát. 2. **Robot implementáció**: A robot aszinkron Playwright böngészővel és SQLAlchemy-vel dolgozik, a következő funkciókkal: - Végtelen while ciklus 3-6 mp sleep-pel - SQL lekérdezés a `vehicle.vehicle_model_definitions` táblából `FOR UPDATE SKIP LOCKED` zárolással - URL generálás az UltimateSpecs keresőjéhez - Kétlépcsős drill-down scraping a specifikált JS szűrővel - Linkek mentése a `vehicle.auto_data_crawler_queue` táblába megfelelő mappinggel - Státusz frissítések (`spider_dispatched`, `research_failed_empty`, `research_failed_network`) 3. **JS szűrő**: Pontosan a specifikációban megadott JavaScript kód implementálva, amely szigorú márka és modell szűrést végez a reklámok kiszűrésére. 4. **Tesztelés**: A robot sikeresen tesztelve lett a Docker `sf_api` konténerben. A teszt során egy DODGE W 200 jármű feldolgozva, UltimateSpecs keresés végrehajtva, és a státusz megfelelően frissítve. 5. **Dokumentáció**: A technikai összefoglaló hozzáadva a `.roo/history.md` fájlhoz. 6. **Gitea lezárás**: A 88-as issue lezárva a Gitea rendszerben a gitea_manager.py script segítségével. A robot most készen áll a Producer-Consumer lánc első elemeként, hogy URL-eket gyűjtsön az UltimateSpecs-ről a következő scraper robotok számára.
Sign in to join this conversation.