IBM Content Collector Deep Dive

Transcription

IBM Content Collector Deep Dive
IBM Content Collector Deep Dive
Dirk Jahn
Thomas Schrenk
© 2012 IBM Corporation
© 2012 IBM Corporation
Agenda
• Überblick – IBM Content Collector
– Einordnung in die IBM ILG Strategie
– Anwendungsfälle aus der Praxis
• Die wichtigsten Neuerungen zu ICC 3.0 im Überblick
• Neue Quelle: IBM Connections
• Die wichtigsten Neuerungen in ICC Mail
– Demo
• Die wichtigsten Neuerungen in ICC File Systems
• Die wichtigsten Neuerungen in ICC Sharepoint
– Demo
• Monitoring und Reporting
© 2012 IBM Corporation
Einordnung von ICC in die
IBM ILG Strategie
© 2012 IBM Corporation
© 2012 IBM Corporation
Warten hilft nicht
Realbeispiel aus einem Kundenprojekt1
Die geordnete Datenlöschung erzeugt den größten Kosteneffekt
Sinkende Speicherpreise,
Kompression und StorageTiering alleine können den
überproportionalen
Speicherkostenanstieg durch
Datenwachstum nicht auffangen
© 2012 IBM Corporation
Wo liegen die Herausforderungen?
http://3.bp.blogspot.com/_jJhsrr5HjcA/S-05F7qcxBI/AAAAAAAACks/YRcdYkUr2DE/s1600/Unordnung.jpg
6
© 2012 IBM Corporation
Die Information Governance Herausforderungen
der weltweiten Informationen sind in den letzten 2 Jahren entstanden
€2.2M 98%
3.5%
1
Unternehmen, die
abgesichertes Löschen als
wichtigstes Thema von
Data Governance sehen4
Duchschnittskosten für das
Sammeln und und
Reviewen von Informationen
pro Rechtsangelegenheit2
Umsatz-Anteil für IT
Information Management
Ausgaben
44x
70%
22%
Prognostiziertes
Informationswachstum,
2009-20201
Anteil an überflüssigen
aufbewahrten
Informationen3
Unternehmen, die
heute schon
abgesichert Löschen
IDC Digital Universe Study, May 2010
Litigation Cost Survey of Major Companies, 2010 (from
Conference on Civil Ligitation, Duke Law School, May 2010).
3 Industry estimates
2
Source: CGOC Benchmark Report on Information
Governance, October 2010
4
© 2012 IBM Corporation
Kosten senken durch nachhaltige Verfahren…
© 2012 IBM Corporation
Value based archiving
•
Reduzierung des Risikos
–
–
–
–
•
Assess, classify
and govern
Aufbewahruns- und Löschmanagement
Löschen nach Ablauf
HW, Storage, Personal, Skills, Wartung
Einheitliche Plattform für verschiedenste Quellen
Einhaltung der SLAs
–
–
10
Value based
archiving
Vereinfachung des IT Betriebs
–
–
•
Records and
retention
management
Auslagerung auf kostengünstigere Medien (Tiered Storage)
Verkleinern der Daten der Quellsysteme
Deduplizierung der Informationen
Reduzierung der Datenmenge
–
–
•
eDiscovery
management
Reduzierung von Speicherkosten
–
–
–
•
Erfüllung rechtlicher/gesetzlicher Vorgaben
Sicherstellen geschäftsrelevanter Informationen
Schutz gegen ungewolltes Löschen oder Ändern
eDiscovery über alle Daten
Skalierbares, zentrales Repository
Verkürzte Backup/Restore-Zeiten, Recovery
ECM platform
with repository
of record
Defensible
disposition
© 2012 IBM Corporation
Value based archiving
IBM ECM
Records
Management
Content
Collection
Advanced
Classification
11
Electronic
Discovery
© 2012 IBM Corporation
IBM Content Collection
Mail (Domino, Exchange)
Mailboxmanagement und Compliance
Microsoft Sharepoint
Archivierung, Entlastung, Migration
Weitere Anwendungen
Weitere Konnektoren möglich
•
•
•
•
•
•
12 12
SAP Daten
Content Collection
• Dynamische Routen
• Integration von Modulen
• Schnittstelle zu Content
Klassifizierung
• …
ECM
Repositories
Entlastung des SAP, Dokumentenablage
Dateisysteme
Management von Fileservern
Domino Applikationen
Entlastung und Compliance
Einheitlicher Ansatz zur Integration verschiedenster Quellsysteme
Anbindung von optionalen Modulen wie beispielsweise Klassifizierung
Flexible Archivierung je nach Inhalten und Regelwerken
Kosteneinsparung durch Zentralisierung
Entlastung der Anwendungen (Mailserver, Dateisysteme, Sharepoint)
Speicherkonsolidierung durch Deduplizierung
26.05.2011
© 2012 IBM Corporation
In der Praxis
•
Konsolidierung von Fileservern
–
–
–
–
•
Analyse der Dateien
Erstellung einer ICC Importdatei
Import der relevanten Dateien
Vergabe von Retentionzeiten
Mailarchivierung
– eDiscovery über Mails und social Content (Compliance)
– Ablage zugehöriger Mails zum Vorgang (Mail in die Akte und Fallbearbeitung)
•
Sharepoint
– Überführung kollaborativer Inhalte ins ECM System und zurück
– Vergabe von Aufbewahrungszeiten
– Nutzung von ECM Freigabeprozessen
•
SAP Dokumenten- und Datenarchivierung
– Reduzierung von Speicherkosten, Performanceverbesserung der SAP- Systeme
– Produktivitätssteigerung bei den SAP-Benutzern durch ECM-Integration
– Erweiterung des Wirkungskreises bei SAP-Geschäftsprozessen
© 2012 IBM Corporation
IBM Content Collector – Mail und File
•
•
14
Serverseitige Mailarchivierung
– Automatische Journalarchivierung zur
Erzielung von Compliance
– Automatische Mailboxarchivierung und
Speicherplatzersparnis
• E-Mail stub lifecycle management
• Deduplizierung
– Sammlung und Archivierung von NSFund PST Dateien
Benutzerinitiierte Mailarchivierung
– Vorgangsbezogene Archivierung mit
Verschlagwortung
– Webansicht, automatische temporäre
Wiederherstellung, Restubbing
– Suche, Treffermarkierung,
Wiederherstellung von Mails
– Offlinezugriff ermöglicht Benutzern
Zugriff zur archivierten Mail auch wenn
keine Verbindung besteht (über Cache).
•
•
•
•
•
•
•
Dokumentenimport aus Dateisystemen
Überwachung von lokalen oder entfernten
Computern oder Verzeichnissen
Regelbasierte Übernahme
– Metadaten
– Teile des Pfades
– dynamische Ermittlung des Zielordners
oder der Akte
– CSV und XML Indexdateien
Ersetzung der Dateien durch Verknüpfung auf
die archivierten Dateien
Synchronisierung der Security aus Dateisystem
Automatischer Import von Office Dokumenten
Integration mit CMS Systemen
© 2012 IBM Corporation
IBM Content Collector für Microsoft Sharepoint
•
Übertragung von Dokumenten und
Attributen
– Ereignisgesteuerte Übertragung zur
Archivierung
– Übertragungsregeln zentral konfigurierbar
(z.B. über Attribut Dokumentstatus)
– Verschieben, Kopieren und Stubben des
Dokuments
– Halten der letzten Version in Sharepoint
– Optionale Erweiterung automatische
Klassifikation
– Archivierung von Blogs und Wikis (HTML)
– Synchronisierung der Security
– Automatischer Import von Office
Dokumenten
•
15
Nutzung der MS SharePoint
Benutzeroberflächen + Webparts
© 2012 IBM Corporation
Agenda
• Überblick – IBM Content Collector
– Einordnung in die IBM ILG Strategie
– Anwendungsfälle aus der Praxis
• Die wichtigsten Neuerungen zu ICC 3.0 im Überblick
• Neue Quelle: IBM Connections
• Die wichtigsten Neuerungen in ICC Mail
– Demo
• Die wichtigsten Neuerungen in ICC File Systems
• Die wichtigsten Neuerungen in ICC Sharepoint
– Demo
• Monitoring und Reporting
© 2012 IBM Corporation
Die wichtigsten Neuerungen im Überblick
• Support für IBM Connections
• Support für CM8 / zOS für eMail Archivierung
– Die anderen Quellen wurden unter CM8 / zOS bisher schon
unterstützt
– Voraussetzung: CM/z 8.4 oder höher, keine Volltextsuche
• Neues „Look and Feel“ - Outlook-Extension
• Interaktive eMail-Klassifikation
• Recollection/Versionierung von Dokumenten
• Stub-Bereinigung im Quellsystem nach Löschung im Archiv
• Monitoring Tool zur Sammlung von Performance-Daten, Report
Tools für die Anzeige
© 2012 IBM Corporation
IBM Content Collector for IBM Connections
Collect from files, blogs, wikis, activities,
forums, bookmarks, profiles
Supported use-cases:
– Compliance archiving of content
from Connections
– eDiscovery search across
Connections (and any other data
types supported by ICC)
Not supported (currently):
- Space Management
- Post Processing like Stubbing
© 2012 IBM Corporation
Some technical details
• Collection Source
• One or more “Connection Source System(s)”
• Which “content types” to collect
• Which “users” to filter
• What is collected:
• Files: Current version will be archived.
Supplemental Information available in metadata
and may be preserved in repository attributes, if
defined
• Activities: All information will be archived
(Comments, Recommendations, Attachments,
Tags, Members, Trash)
• How is it stored ?
• Content from IBM Connections is archived as a
number of XML files and any related attachments.
• In P8 this is done by creating content elements for
•
each file
In CM8 this is done with multiple parts
• The content gets rendered to HTML for viewing
© 2012 IBM Corporation
IBM Content Collector for eMail (Outlook)
New „Look and Feel“ - Outlook-Extension
Adopting Microsoft Office “ribbon” style and hover help
© 2012 IBM Corporation
IBM Content Collector for eMail (Outlook)
Showing archive status in Outlook Extension
© 2012 IBM Corporation
IBM Content Collector for eMail (Outlook)
Supported Platforms:
– Microsoft Outlook Client
• Version 2007, 2010
– Microsoft Exchange Server
• Version 2007, 2010
Dropping support for Exchange 2003, Outlook 2003
Protect private items when a delegate searches from another mailbox
• Background for this enhancement – ‘Private items’
– One feature of Outlook/Exchange is the ability to mark items ‘Private’. By marking an item
private, if someone else has been delegated access to your mailbox (or certain folders)
they cannot see information about the items marked private.
– Users can mark Calendar, Contacts or Tasks items private
• received messages private can only be set ‘Private’ by the sender.
• You can prevent the IBM Content Collector search function from returning private
items by explicitly disabling this in Outlook client when you define the delegate user
and setting ‘Exclude private documents’ in the IBM Content Collector Configuration
Manager.
© 2012 IBM Corporation
Improvements to user search (Mail)
• New column in result list for display of attachment icon (if a mail has attachments)
• Sortable result list
• The default search date range and a maximum result limit can be configured
Search
Panel
Hit List
Document
preview
© 2012 IBM Corporation
Classification of Content
Types of Classification:
• No Classification
• Prompt for metadata - manual classification (by User)
• Prompt for metadata – classification is proposed by system, validated by
User
• Automated classification without user interaction
With the integration of IBM Content Classification, the content of
documents can be sent to analysis
– New: Classification (analysis) is proposed by system, displayed to and
validated by User
Demo
© 2012 IBM Corporation
Single Search across Mails in Notes and in
archived Mails
Location of
Message
Demo
© 2012 IBM Corporation
Viewing archived Mails - Repository Client
• IBM Content Navigator is avialable now
• ICN: Open, extensible architecture with Plug-Ins (e.g. for viewer)
– ICC Viewer is included as standard
– Viewing archived mails, native mail formats
• Repositories
– CM8
– FileNet P8
Demo
© 2012 IBM Corporation
IBM Content Collector for File Systems
Recollecting of modified content as new version
ICC archives a file from file system, post processing: do not delete original file
The original file (file system) gets modified by user
ICC checks if a file was modified
The size has changed since it was tagged
The modified date of the file has changed since the file was tagged or is more
recent than the tag date
If a file hash was recorded in the tag and the collector has supplied a different hash
value
The modified file gets archived as a new version
© 2012 IBM Corporation
IBM Content Collector for Microsoft SharePoint
Icon Mirroring for Links
• With SharePoint 2010 the SharePoint connector will keep the original
document icon for the created link.
• With Sharepoint 2007 the SharePoint connector would use the generic link
icon when links were created.
© 2012 IBM Corporation
IBM Content Collector for Microsoft SharePoint
Document Restore and Recollection
• If you require to make changes to an archived document and are using the
Replace with Link post-processing option, you can restore the document from
the link and make your changes.
• To restore the document, you perform a “Check Out” action on the link in
SharePoint using the document context menu.
• Restored documents can be re-collected.
Demo
© 2012 IBM Corporation
Expiration of archived content
ICC Expiration Manager enables deletion of content
from the repository
Expiration dates set when content is archived
– Stored as metadata & configured at the Task
Route level by:
• Specified time period provided or
calculated
• User/ LDAP Group Membership
Retention Periods are day forward and apply to
new content but not for already archived content
Expiration Manager runs against the repository
and checks for documents that are older than their
retention date.
– Has options to list, count, or delete
documents
Recommendation: Use the lifecycle option to avoid
dead links
ICC for File Systems, eMail and SharePoint all support stub removal from the source when content is
deleted from the repository
© 2012 IBM Corporation
Agenda
•
•
•
•
Überblick – IBM Content Collector
Die wichtigsten Neuerungen im Überblick
Neue Quelle: IBM Connections
Die wichtigsten Neuerungen in ICC Mail
– Demo
• Die wichtigsten Neuerungen in ICC File Systems
• Die wichtigsten Neuerungen in ICC Sharepoint
– Demo
• Monitoring und Reporting
© 2012 IBM Corporation
Monitoring and Reporting
• ICC Dashboard monitors the
status of all IBM Content
Collector nodes in real time
• ICC Performance Reporting
monitors the status over time
© 2012 IBM Corporation
ICC Performance Reporting
Performance counters
•
•
•
Gathers statistical data based on
performance counters without
user interaction and stores them
into tables in the Content
Collector configuration DB
Makes performance data
available to reporting tools such
as Microsoft Excel or Cognos
Reports
Ships BIRT reporting engine (web
interface)
Report data gatherer on
Primary node / Secondary node(s)
Performance data & aggregated data produces
Report Viewer (BIRT) / Cognos
© 2012 IBM Corporation
Report data gatherer
• Gathers statistical data based on performance
counters on all IBM Content Collector servers
–
–
–
–
–
–
–
–
\CTMS Collector\Accessed Entities/sec
\CTMS Collector\Entity Errors/sec
\CTMS Collector\Location Errors/sec
\Processor(_Total)\% Processor Time
\PhysicalDisk\% Idle Time
\Memory\Available Bytes
\Memory\Cache Bytes
\Network Interface\Bytes Total/sec
(items accessed)
(items failed to process)
(locations failed to process)
(average workload)
(busiest disk)
(available physical memory)
(system cache size)
(total traffic)
© 2012 IBM Corporation
Report viewer
• Generates performance reports
on demand
– Start from start menu
– Start from ICC Config. Mgr.
• Includes two throughput reports
• Allows for easy extension
through additional reports
© 2012 IBM Corporation
Throughput Report - Export
• Export to PDF file
• The underlying data can be
exported to a CSV file for
accessibility
© 2012 IBM Corporation
“Blacklist” feature
The “blacklist” was added to improve system resiliency, recovery,
and auditability
• If the email collector fails to process a
message that message is added to the
blacklist
• The blacklist is stored in a database that
can be accessed through a new UI
control
• Administrators can see which email
documents failed
• Allow searching the blacklist for specific
entries
• Filtering by specific values is also
supported
• Administrators can then take action to
remove email documents from the list
so they will be processed again
37 37
© 2012 IBM Corporation
Q&A
© 2012 IBM Corporation