Robot 2: Regex alapú JSON bányászat webes forrásokból #28
Reference in New Issue
Block a user
Delete Branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
Mérföldkő: Epic 5: Master Data Management & Robot Ecosystem\nCél: Regex modul implementálása a Researcher robotba, amely a nyers szövegből kinyeri a ccm, kW és motoradatokat, és JSON kontextusba ágyazza.\n\n### 🔗 Függőségek (Dependencies)\n- Bemenet (Mikre támaszkodik): DuckDuckGo keresési eredmények, nyers HTML/plain text tartalom, web scraping eredmények\n- Kimenet (Mik támaszkodnak rá): Robot 3 (Alchemist Pro) AI dúsítása, az adatminőség javítása, strukturált technikai adatok a JSON mezőben\n\n### 📝 Elemzés\nA jelenlegi kutatórobot csak nyers szöveges kontextust gyűjt a célzott weboldalakról, de nem próbálja kinyerni a strukturált technikai adatokat (pl. lökettérfogat, teljesítmény, üzemanyag-típus). Ennek eredményeként az AI-nak nagyobb mennyiségű zajt kell feldolgoznia. Javasolt megoldás: implementálni egy regex vagy NLP alapú modult, amely a talált szövegekből kinyeri a kulcs-érték párokat (pl. 'Engine capacity: 1998 cc', 'Power: 150 kW') és JSON formátumban beágyazza a kontextusba. A regex minta legyen konfigurálható, és támogassa a különböző nyelveket (angol, német, holland). A kinyert adatok kerüljenek a vagy új mezőbe.
✅ Munka befejezve: 2026-03-12 01:49:55
Technikai Összefoglaló:
Technikai összefoglaló: Implementáltam a regex modult a Researcher robotba (vehicle_robot_2_researcher.py). Az extract_specs_from_text metódus kinyeri a ccm/lökettérfogat (cc, cm³, L), kW/teljesítmény (kW, HP, LE) és motor kód adatokat a nyers szövegből. A regex minták támogatják a különböző formátumokat és nyelveket. A kinyert adatok JSON formátumban kerülnek a research_metadata mezőbe, ami javítja az AI dúsítás minőségét. A metódus a research_vehicle folyamatban automatikusan meghívódik a DuckDuckGo keresési eredmények feldolgozásakor.
⏱️ A ráfordított időt a Gitea rögzítette.