Suchportale und Intranet

Transcription

Suchportale und Intranet
SearchEngine
Suchportale und IntranetSuchmaschinen mit YaCy
... und Beispiele von Anwendern
Michael Christen, [email protected]
open-it summit, 23.05.2013
Messegelände Berlin
Abstract
Search Appliances sind weit verbreitete Werkzeuge, um Suchportale für Intranets oder Unternehmens/
Institutsdaten zu realisieren. In diesem Vortrag wird gezeigt, dass kommerzielle Appliances durch die
freie Suchmaschinensoftware YaCy ersetzt werden kann.
Wir zeigen als live-Demonstration:
•
wie einfach es ist, ein Suchmaschinenportal selbst zu erstellen
•
wie man einen Suchindex für das Web oder Intranet erstellt
•
wie leicht es ist, ein Produktions- set-up zu machen um wiederkehrende Aufgaben zu kontrollieren.
•
wie die Suchmaschine dann als Nachrichtendienst genutzt werden kann und mit automatischen
Suchanfrage und RSS feeds Nachrichten aus den indexierten Daten erzeugt werden
•
wie die Suchmaschine als SEO-Tool genutzt werden kann.
YaCy wurde als Peer-to-Peer Suchmaschine für das Web konzipiert, aber im stand-alone Modus kann
sie auch wie eine Appliance genutzt werden. Durch zahlreiche Projekte in diesem Umfeld hat die
Software nun eine Funktionsmenge erreicht, die sie zum Kandidaten für den Ersatz von kommerziellen
Appliances macht.
Suchportale & Intranet-Suchmaschinen mit YaCy
Open-IT Summit, Messegelände Berlin, 23.05.2013
Michael Christen
[email protected], http://yacy.net
Anwendungen für eine Search Appliance
Suche für
Web-Portal
Intranet- und
Filesuche
geteiltes Wissen
für verteilte
Systeme
Konsolidierung
der Datenablage
(ftp/smb-Suche)
Nachrichtendienste
SEO & WebAdmin Tools
automatisches
Suchen ohne
Suchananfrage
fremde Server
durchstöbern
und Strukturen
analysieren
Suchportale & Intranet-Suchmaschinen mit YaCy
Open-IT Summit, Messegelände Berlin, 23.05.2013
Finden was
andere nicht
finden (können)
z.B. öffentl. FTP
Server, torrents,
div. binaries, etc.
Michael Christen
[email protected], http://yacy.net
Anwendungen: Web-Portal Suche
Suche für
Web-Portal
geteiltes Wissen
für verteilte
Systeme
Suchmaschine
Vernetzung
Create / Share
von Wissen
Produktion
Dokumente
Projektsteuerung
Versionskontrolle
Discussion
Suchportale & Intranet-Suchmaschinen mit YaCy
Open-IT Summit, Messegelände Berlin, 23.05.2013
Bugtracker
(micro)Blogging
Michael Christen
[email protected], http://yacy.net
Anwendungen: Intranet- und Filesuche
Intranet- und
Filesuche
Konsolidierung
der Datenablage
(ftp/smb-Suche)
Suchmaschine
Vernetzung
Create / Share
von Wissen
Produktion
Dokumente
Projektsteuerung
Versionskontrolle
Vorteile im Unternehmen:
• Information ist unabhängig
Discussion
Bugtracker
(micro)Blogging
vom Ablagesystem sichtbar
• Gemeinsame Navigation
Vernetzung von Menschen
unterstützt Vernetzung
•
Technologische Vernetzung
Nutzer wählen das optimale „wie setze ich Technik ein um Wissen zu generieren?“
System zur Ablage
Soziotechnische Vernetzung
„wie gehen Menschen mit Technik um?“
Suchportale & Intranet-Suchmaschinen mit YaCy
Open-IT Summit, Messegelände Berlin, 23.05.2013
Michael Christen
[email protected], http://yacy.net
Anwendungen: Nachrichtendienste
Nachrichtendienste
automatisches
Suchen ohne
Suchananfrage
Funktionsweise:
• Jede Suche kann ein RSS Nachrichtenstrom sein
• Suchergebnisse können nach Aktualität geordnet werden
• Suchergebnisse können automatisch weiterverarbeitet
werden (RSS Reader, Alerts, u.s.w.)
Vorteile im Unternehmen:
• Zeitnahe Reaktionsfähigkeit
• Alerts für Aktivitäten der
Mitarbeiter (im Intranet)
• Alerts für Aktivitäten der
Konkurrenz (im Einsatz in
einer Websuche)
Beispiel: Ausschreibungssuche
Suchportale & Intranet-Suchmaschinen mit YaCy
Open-IT Summit, Messegelände Berlin, 23.05.2013
Michael Christen
[email protected], http://yacy.net
Anwendungen: Business Analytics, SEO, Web-Admin
SEO & WebAdmin Tools
fremde Server
durchstöbern
und Strukturen
analysieren
Funktionen:
• Die Datenstruktur fremder Server durchstöbern und
Strukturen analysieren
• Tote Links aufdecken
• Visualisierung von Verlinkungsstrukturen
• Durchsuchbarkeit des eigenen Webauftritts testen
Suchportale & Intranet-Suchmaschinen mit YaCy
Open-IT Summit, Messegelände Berlin, 23.05.2013
Michael Christen
[email protected], http://yacy.net
Anwendungen: zusätzliche nützliche Funktionen
Finden was
andere nicht
finden (können)
Suchergebnisdarstellung:
z.B. öffentl. FTP
Server, torrents,
div. binaries, etc.
• Facetten zu Hosts, Zeit, Dateitypen, Autoren, Protokoll
• mehr Suchinterfaces: nicht nur 'übliche' Websuche,
sondern auch GSA-Interface, RSS-Nachrichten, File-Suche,
Opensearch, JSON, XML, native Solr-Interface
• Benutzergenerierte Suchfacetten über Vokabularien
• nicht ausschliesslich http(s), auch ftp + SMB-Shares
Harvester, Datenaquise:
• Parser: ,unübliche‘ Formate (z.B. torrents), Anpassung an
spezielle Unternehmensdaten möglich
• Skalierbarkeit durch Vernetzungsfähigkeit
• besseres Timing: Individueller Crawler-Scheduler
• Vielfältiges Harvesting: Crawler, Intranet-Scanner, sitelist,
RSS feed import, OAI-PMH Import, mediawiki-Dump u.s.w.
Suchportale & Intranet-Suchmaschinen mit YaCy
Open-IT Summit, Messegelände Berlin, 23.05.2013
Michael Christen
[email protected], http://yacy.net
Wissen wie Suchmaschinen funktionieren
search server
web interface
I
crawler
api
search index
opensearch gsa
robots balancer queues
schema
facets
network interfaces
ranking
moderation
file http ftp smb oai-pmh
doc
parser
document cache
pdf
xls html rss zip eml
Suchportale & Intranet-Suchmaschinen mit YaCy
Open-IT Summit, Messegelände Berlin, 23.05.2013
solr
monitoring
I/O requests Disk/RAM
administration/
steering
Michael Christen
[email protected], http://yacy.net
YaCy Komponenten
search server
crawler
api
search index
monitoring
network interfaces
document cache
parser
Suchportale & Intranet-Suchmaschinen mit YaCy
Open-IT Summit, Messegelände Berlin, 23.05.2013
administration/
steering
Michael Christen
[email protected], http://yacy.net
YaCy subsumiert Solr
Embedded Solr
Solr ist die Indexing-Engine in YaCy
administration
crawler
parser
monitoring
oder: externer Solr
Solr kann per Solr-API extern
eingebunden werden, Schemas lassen
sich anpassen.
Solr API in YaCy
search interface
der in YaCy integrierte Solr kann über
die Standard Solr-API (http/xml)
angesprochen werden
Suchportale & Intranet-Suchmaschinen mit YaCy
Open-IT Summit, Messegelände Berlin, 23.05.2013
Michael Christen
[email protected], http://yacy.net
Solr mit YaCy als Framework
YaCy ist ein Suchmaschinen-Framework für Solr
- Solr Schema in YaCy basiert auf dem „Solr Cell“ Schema
- Support für remote Solr
- Das YaCy Schema kann einem externen Solr Schema angepasst
werden
Suchportale & Intranet-Suchmaschinen mit YaCy
Open-IT Summit, Messegelände Berlin, 23.05.2013
Michael Christen
[email protected], http://yacy.net
YaCy Nutzer: Peer-to-Peer Netz ,freeworld‘
freie dezentrale Suchmaschine für alle
freeworld:
http://search.yacy.net
Suchmaschine, bestehend
aus den Peers freiwilliger
1200 Peers im Monat,
weltweit verteilt
> 1 Milliarde Dokumente
Suchportale & Intranet-Suchmaschinen mit YaCy
Open-IT Summit, Messegelände Berlin, 23.05.2013
Michael Christen
[email protected], http://yacy.net
YaCy Nutzer: Johannes Gutenberg Universität Mainz
http://www.uni-mainz.de/
Gutenberg-Universität Mainz
Suchportale & Intranet-Suchmaschinen mit YaCy
Open-IT Summit, Messegelände Berlin, 23.05.2013
Michael Christen
[email protected], http://yacy.net
YaCy Nutzer: Free Software Foundation Europe
http://fsfe.org
Free Software Foundation Europe
Suchportale & Intranet-Suchmaschinen mit YaCy
Open-IT Summit, Messegelände Berlin, 23.05.2013
Michael Christen
[email protected], http://yacy.net
YaCy Nutzer: Karlsruhe Institut für Technologie
http://www.kit.edu
Karlsruhe Institut für Technologie
Suchportale & Intranet-Suchmaschinen mit YaCy
Open-IT Summit, Messegelände Berlin, 23.05.2013
Michael Christen
[email protected], http://yacy.net
YaCy Nutzer: Verwaltungssuchmaschine NRW
Anpassungen an YaCy
für die Migration der
Verwaltungssuchmaschine NRW von
einer GSA im Vollausbau nach YaCy:
• Implementierung des GSA Anfrageund Suchergebnisformates, entsprechend
https://developers.google.com/search-appliance/
documentation/68/xml_reference
• Mandantenfähigkeit
• Crawler-Verbesserungen
• Synonym-Matching
• Host Browser / Crawling - Diagnose
http://vsm.d-nrw.de
Verwaltungssuchmaschine NRW
> 10 Millionen Dokumente
Suchportale & Intranet-Suchmaschinen mit YaCy
Open-IT Summit, Messegelände Berlin, 23.05.2013
Michael Christen
[email protected], http://yacy.net
YaCy Nutzer: EnergieCity Leipzig
http://www.energiecity-leipzig.de/
Energie- und Umwelttechnik für nachhaltiges Bauen
Suchportale & Intranet-Suchmaschinen mit YaCy
Open-IT Summit, Messegelände Berlin, 23.05.2013
Michael Christen
[email protected], http://yacy.net
YaCy Betrieb: automatische Prozesse, Verfügbarkeit
Linux Back-End
yacy0: master node
Config + Crawls
port 443
Portal
Admin
h
rc
a
Se
es
u
q
Re
ts
Cron-Jobs
Search-API Admin
Appliance
Administration
during set-up:
• Set-Up-Replikation:
full copy of master node
to replication node
port 8090
Index
Backup
Storage
Load Balancer using a
Reverse Proxy with
Failover Configuration
• Supervisor:
,hot restore‘
Se
ch
ar
yacy1: replication node
es
qu
Re
checkalive-Ping +
restart if peer is dead
• Software Update:
automated download
and alternating update
Search-API
ts
Search Users
• Index Replikation:
dump to Backup +
Restore from Backup
Search Interface
port 8100 (or 80)
,hot dump‘
• No Downtime:
Availability is ensured
for all processes
port 8091
Suchportale & Intranet-Suchmaschinen mit YaCy
Open-IT Summit, Messegelände Berlin, 23.05.2013
Michael Christen
[email protected], http://yacy.net
Bitte sprechen Sie mich an!
Messestand 139, Halle 7.1A
SearchEngine
Dipl. Inf. Michael Christen
[email protected]
http://pro.yacy.net
Produkte und Beratung:
•
•
•
•
QR-Code: vCard
YaCy Search Appliance - Vorkonfiguration und Migration
Betriebssupport - Inbetriebnahme, Support
Software Entwicklung - Funktionserweiterungen, Suchportale
Schulungen - Suchmaschinentechnik, Wissensmanagement,
YaCy Operating