ZHAW-Logo OAPA-Logo TAT-Logo
zurück  
Diplomarbeit 2005 (DA05): Arbeits-Archiv
 
DA Bao 05/5 - Automatisierung News Feeds (RSS, Webcrawler u.A.)
Studierende: Boun Lor, lorbou
  Fabio Pisacane, pisacfab

Betreuer: Gerold Baudinot, baug
  Eduard Mumprecht, mpre

Die Problematik der Gliederung von diversen Dokumenten und anderen Informationsquellen in einem Datenbank-System ist schon oft studiert und implementiert worden. Es handelt sich dabei um so genannte Dokumenten Management Systeme (DMS). Die Firma InfoCodex SA hat hierzu eine eigene Losung entwickelt. Die DMS-Software InfoCodex arbeitet mit einer Inhalts- Erkennung basierend auf Worterbuch-gestutzten lexikalen und semantischen Netzwerken, mit Einbezug von Worterbuchern in Englisch, Franzosisch, Deutsch und Italienisch. Somit arbeitet sie sprachunabhangig und ist in der Lage, die mittels eines neuronalen Netzes untersuchten Dokumente in einem so genannten Taxonomie-Baum, wo die Begriffe aufgrund ihrer Bedeutung gruppiert werden, darzustellen. Damit hat der Anwender die Moglichkeit, auf verschiedene Arten nach Inhalten in Dokumenten zu suchen: sprachunabhangige Suche, Voll-Text-, Synonym sowie Index- und Ahnlichkeits-Suche. Die Firma Kendox Systems GmbH hat fur die InfoCodex-Software eine Programmierschnittstelle InfoCodex-API entwickelt, womit die Applikation durch Dritte um neue Funktionalitaten erweitert werden kann. In dieser Diplomarbeit wird dieses API genutzt, um InfoCodex mit neuen Informations-Quellen in Form von News-Feeds zu erweitern. News-Feeds sind standardisierte Dateien im XML-Format (Extensible Markup Language), welche den Vorteil haben, sehr spezifische Informationen eines oder mehrerer Themengebiete zu beinhalten. Sie konnen mit so genannten Feed-Readern individuell abonniert werden. Im Gegensatz dazu ergibt beispielsweise die Suche mit Suchmaschinen im World Wide Web viel breiter gestreute Artikel, welche oft nur Werbung oder Ahnliches enthalten. Es existieren diverse Typen von News-Feeds. Das in dieser Arbeit entwickelte Programm unterstutzt die gangigsten Formate RSS 1.0, RSS 2.0 und Atom 0.3.

zurück