Robot 2: Regex alapú JSON bányászat webes forrásokból #28

Closed
opened 2026-03-08 02:28:35 +01:00 by kincses · 1 comment
Owner

Mérföldkő: Epic 5: Master Data Management & Robot Ecosystem\nCél: Regex modul implementálása a Researcher robotba, amely a nyers szövegből kinyeri a ccm, kW és motoradatokat, és JSON kontextusba ágyazza.\n\n### 🔗 Függőségek (Dependencies)\n- Bemenet (Mikre támaszkodik): DuckDuckGo keresési eredmények, nyers HTML/plain text tartalom, web scraping eredmények\n- Kimenet (Mik támaszkodnak rá): Robot 3 (Alchemist Pro) AI dúsítása, az adatminőség javítása, strukturált technikai adatok a JSON mezőben\n\n### 📝 Elemzés\nA jelenlegi kutatórobot csak nyers szöveges kontextust gyűjt a célzott weboldalakról, de nem próbálja kinyerni a strukturált technikai adatokat (pl. lökettérfogat, teljesítmény, üzemanyag-típus). Ennek eredményeként az AI-nak nagyobb mennyiségű zajt kell feldolgoznia. Javasolt megoldás: implementálni egy regex vagy NLP alapú modult, amely a talált szövegekből kinyeri a kulcs-érték párokat (pl. 'Engine capacity: 1998 cc', 'Power: 150 kW') és JSON formátumban beágyazza a kontextusba. A regex minta legyen konfigurálható, és támogassa a különböző nyelveket (angol, német, holland). A kinyert adatok kerüljenek a vagy új mezőbe.

**Mérföldkő:** Epic 5: Master Data Management & Robot Ecosystem\n**Cél:** Regex modul implementálása a Researcher robotba, amely a nyers szövegből kinyeri a ccm, kW és motoradatokat, és JSON kontextusba ágyazza.\n\n### 🔗 Függőségek (Dependencies)\n- **Bemenet (Mikre támaszkodik):** DuckDuckGo keresési eredmények, nyers HTML/plain text tartalom, web scraping eredmények\n- **Kimenet (Mik támaszkodnak rá):** Robot 3 (Alchemist Pro) AI dúsítása, az adatminőség javítása, strukturált technikai adatok a JSON mezőben\n\n### 📝 Elemzés\nA jelenlegi kutatórobot csak nyers szöveges kontextust gyűjt a célzott weboldalakról, de nem próbálja kinyerni a strukturált technikai adatokat (pl. lökettérfogat, teljesítmény, üzemanyag-típus). Ennek eredményeként az AI-nak nagyobb mennyiségű zajt kell feldolgoznia. Javasolt megoldás: implementálni egy regex vagy NLP alapú modult, amely a talált szövegekből kinyeri a kulcs-érték párokat (pl. 'Engine capacity: 1998 cc', 'Power: 150 kW') és JSON formátumban beágyazza a kontextusba. A regex minta legyen konfigurálható, és támogassa a különböző nyelveket (angol, német, holland). A kinyert adatok kerüljenek a vagy új mezőbe.
kincses added this to the 🤖 Epic 5: Master Data Management & Robot Ecosyste milestone 2026-03-08 02:28:35 +01:00
kincses added the Status: To DoType: FeatureScope: Robot labels 2026-03-08 02:28:35 +01:00
kincses added this to the Master Book 2.0 project 2026-03-09 23:59:49 +01:00
kincses added Status: Done and removed Status: To Do labels 2026-03-12 02:49:56 +01:00
Author
Owner

Munka befejezve: 2026-03-12 01:49:55

Technikai Összefoglaló:
Technikai összefoglaló: Implementáltam a regex modult a Researcher robotba (vehicle_robot_2_researcher.py). Az extract_specs_from_text metódus kinyeri a ccm/lökettérfogat (cc, cm³, L), kW/teljesítmény (kW, HP, LE) és motor kód adatokat a nyers szövegből. A regex minták támogatják a különböző formátumokat és nyelveket. A kinyert adatok JSON formátumban kerülnek a research_metadata mezőbe, ami javítja az AI dúsítás minőségét. A metódus a research_vehicle folyamatban automatikusan meghívódik a DuckDuckGo keresési eredmények feldolgozásakor.

⏱️ A ráfordított időt a Gitea rögzítette.

✅ **Munka befejezve:** 2026-03-12 01:49:55 **Technikai Összefoglaló:** Technikai összefoglaló: Implementáltam a regex modult a Researcher robotba (vehicle_robot_2_researcher.py). Az extract_specs_from_text metódus kinyeri a ccm/lökettérfogat (cc, cm³, L), kW/teljesítmény (kW, HP, LE) és motor kód adatokat a nyers szövegből. A regex minták támogatják a különböző formátumokat és nyelveket. A kinyert adatok JSON formátumban kerülnek a research_metadata mezőbe, ami javítja az AI dúsítás minőségét. A metódus a research_vehicle folyamatban automatikusan meghívódik a DuckDuckGo keresési eredmények feldolgozásakor. ⏱️ *A ráfordított időt a Gitea rögzítette.*
kincses moved this to Done in Master Book 2.0 on 2026-03-19 09:53:27 +01:00
Sign in to join this conversation.