IBM Content Collector Deep Dive
Transcription
IBM Content Collector Deep Dive
IBM Content Collector Deep Dive Dirk Jahn Thomas Schrenk © 2012 IBM Corporation © 2012 IBM Corporation Agenda • Überblick – IBM Content Collector – Einordnung in die IBM ILG Strategie – Anwendungsfälle aus der Praxis • Die wichtigsten Neuerungen zu ICC 3.0 im Überblick • Neue Quelle: IBM Connections • Die wichtigsten Neuerungen in ICC Mail – Demo • Die wichtigsten Neuerungen in ICC File Systems • Die wichtigsten Neuerungen in ICC Sharepoint – Demo • Monitoring und Reporting © 2012 IBM Corporation Einordnung von ICC in die IBM ILG Strategie © 2012 IBM Corporation © 2012 IBM Corporation Warten hilft nicht Realbeispiel aus einem Kundenprojekt1 Die geordnete Datenlöschung erzeugt den größten Kosteneffekt Sinkende Speicherpreise, Kompression und StorageTiering alleine können den überproportionalen Speicherkostenanstieg durch Datenwachstum nicht auffangen © 2012 IBM Corporation Wo liegen die Herausforderungen? http://3.bp.blogspot.com/_jJhsrr5HjcA/S-05F7qcxBI/AAAAAAAACks/YRcdYkUr2DE/s1600/Unordnung.jpg 6 © 2012 IBM Corporation Die Information Governance Herausforderungen der weltweiten Informationen sind in den letzten 2 Jahren entstanden €2.2M 98% 3.5% 1 Unternehmen, die abgesichertes Löschen als wichtigstes Thema von Data Governance sehen4 Duchschnittskosten für das Sammeln und und Reviewen von Informationen pro Rechtsangelegenheit2 Umsatz-Anteil für IT Information Management Ausgaben 44x 70% 22% Prognostiziertes Informationswachstum, 2009-20201 Anteil an überflüssigen aufbewahrten Informationen3 Unternehmen, die heute schon abgesichert Löschen IDC Digital Universe Study, May 2010 Litigation Cost Survey of Major Companies, 2010 (from Conference on Civil Ligitation, Duke Law School, May 2010). 3 Industry estimates 2 Source: CGOC Benchmark Report on Information Governance, October 2010 4 © 2012 IBM Corporation Kosten senken durch nachhaltige Verfahren… © 2012 IBM Corporation Value based archiving • Reduzierung des Risikos – – – – • Assess, classify and govern Aufbewahruns- und Löschmanagement Löschen nach Ablauf HW, Storage, Personal, Skills, Wartung Einheitliche Plattform für verschiedenste Quellen Einhaltung der SLAs – – 10 Value based archiving Vereinfachung des IT Betriebs – – • Records and retention management Auslagerung auf kostengünstigere Medien (Tiered Storage) Verkleinern der Daten der Quellsysteme Deduplizierung der Informationen Reduzierung der Datenmenge – – • eDiscovery management Reduzierung von Speicherkosten – – – • Erfüllung rechtlicher/gesetzlicher Vorgaben Sicherstellen geschäftsrelevanter Informationen Schutz gegen ungewolltes Löschen oder Ändern eDiscovery über alle Daten Skalierbares, zentrales Repository Verkürzte Backup/Restore-Zeiten, Recovery ECM platform with repository of record Defensible disposition © 2012 IBM Corporation Value based archiving IBM ECM Records Management Content Collection Advanced Classification 11 Electronic Discovery © 2012 IBM Corporation IBM Content Collection Mail (Domino, Exchange) Mailboxmanagement und Compliance Microsoft Sharepoint Archivierung, Entlastung, Migration Weitere Anwendungen Weitere Konnektoren möglich • • • • • • 12 12 SAP Daten Content Collection • Dynamische Routen • Integration von Modulen • Schnittstelle zu Content Klassifizierung • … ECM Repositories Entlastung des SAP, Dokumentenablage Dateisysteme Management von Fileservern Domino Applikationen Entlastung und Compliance Einheitlicher Ansatz zur Integration verschiedenster Quellsysteme Anbindung von optionalen Modulen wie beispielsweise Klassifizierung Flexible Archivierung je nach Inhalten und Regelwerken Kosteneinsparung durch Zentralisierung Entlastung der Anwendungen (Mailserver, Dateisysteme, Sharepoint) Speicherkonsolidierung durch Deduplizierung 26.05.2011 © 2012 IBM Corporation In der Praxis • Konsolidierung von Fileservern – – – – • Analyse der Dateien Erstellung einer ICC Importdatei Import der relevanten Dateien Vergabe von Retentionzeiten Mailarchivierung – eDiscovery über Mails und social Content (Compliance) – Ablage zugehöriger Mails zum Vorgang (Mail in die Akte und Fallbearbeitung) • Sharepoint – Überführung kollaborativer Inhalte ins ECM System und zurück – Vergabe von Aufbewahrungszeiten – Nutzung von ECM Freigabeprozessen • SAP Dokumenten- und Datenarchivierung – Reduzierung von Speicherkosten, Performanceverbesserung der SAP- Systeme – Produktivitätssteigerung bei den SAP-Benutzern durch ECM-Integration – Erweiterung des Wirkungskreises bei SAP-Geschäftsprozessen © 2012 IBM Corporation IBM Content Collector – Mail und File • • 14 Serverseitige Mailarchivierung – Automatische Journalarchivierung zur Erzielung von Compliance – Automatische Mailboxarchivierung und Speicherplatzersparnis • E-Mail stub lifecycle management • Deduplizierung – Sammlung und Archivierung von NSFund PST Dateien Benutzerinitiierte Mailarchivierung – Vorgangsbezogene Archivierung mit Verschlagwortung – Webansicht, automatische temporäre Wiederherstellung, Restubbing – Suche, Treffermarkierung, Wiederherstellung von Mails – Offlinezugriff ermöglicht Benutzern Zugriff zur archivierten Mail auch wenn keine Verbindung besteht (über Cache). • • • • • • • Dokumentenimport aus Dateisystemen Überwachung von lokalen oder entfernten Computern oder Verzeichnissen Regelbasierte Übernahme – Metadaten – Teile des Pfades – dynamische Ermittlung des Zielordners oder der Akte – CSV und XML Indexdateien Ersetzung der Dateien durch Verknüpfung auf die archivierten Dateien Synchronisierung der Security aus Dateisystem Automatischer Import von Office Dokumenten Integration mit CMS Systemen © 2012 IBM Corporation IBM Content Collector für Microsoft Sharepoint • Übertragung von Dokumenten und Attributen – Ereignisgesteuerte Übertragung zur Archivierung – Übertragungsregeln zentral konfigurierbar (z.B. über Attribut Dokumentstatus) – Verschieben, Kopieren und Stubben des Dokuments – Halten der letzten Version in Sharepoint – Optionale Erweiterung automatische Klassifikation – Archivierung von Blogs und Wikis (HTML) – Synchronisierung der Security – Automatischer Import von Office Dokumenten • 15 Nutzung der MS SharePoint Benutzeroberflächen + Webparts © 2012 IBM Corporation Agenda • Überblick – IBM Content Collector – Einordnung in die IBM ILG Strategie – Anwendungsfälle aus der Praxis • Die wichtigsten Neuerungen zu ICC 3.0 im Überblick • Neue Quelle: IBM Connections • Die wichtigsten Neuerungen in ICC Mail – Demo • Die wichtigsten Neuerungen in ICC File Systems • Die wichtigsten Neuerungen in ICC Sharepoint – Demo • Monitoring und Reporting © 2012 IBM Corporation Die wichtigsten Neuerungen im Überblick • Support für IBM Connections • Support für CM8 / zOS für eMail Archivierung – Die anderen Quellen wurden unter CM8 / zOS bisher schon unterstützt – Voraussetzung: CM/z 8.4 oder höher, keine Volltextsuche • Neues „Look and Feel“ - Outlook-Extension • Interaktive eMail-Klassifikation • Recollection/Versionierung von Dokumenten • Stub-Bereinigung im Quellsystem nach Löschung im Archiv • Monitoring Tool zur Sammlung von Performance-Daten, Report Tools für die Anzeige © 2012 IBM Corporation IBM Content Collector for IBM Connections Collect from files, blogs, wikis, activities, forums, bookmarks, profiles Supported use-cases: – Compliance archiving of content from Connections – eDiscovery search across Connections (and any other data types supported by ICC) Not supported (currently): - Space Management - Post Processing like Stubbing © 2012 IBM Corporation Some technical details • Collection Source • One or more “Connection Source System(s)” • Which “content types” to collect • Which “users” to filter • What is collected: • Files: Current version will be archived. Supplemental Information available in metadata and may be preserved in repository attributes, if defined • Activities: All information will be archived (Comments, Recommendations, Attachments, Tags, Members, Trash) • How is it stored ? • Content from IBM Connections is archived as a number of XML files and any related attachments. • In P8 this is done by creating content elements for • each file In CM8 this is done with multiple parts • The content gets rendered to HTML for viewing © 2012 IBM Corporation IBM Content Collector for eMail (Outlook) New „Look and Feel“ - Outlook-Extension Adopting Microsoft Office “ribbon” style and hover help © 2012 IBM Corporation IBM Content Collector for eMail (Outlook) Showing archive status in Outlook Extension © 2012 IBM Corporation IBM Content Collector for eMail (Outlook) Supported Platforms: – Microsoft Outlook Client • Version 2007, 2010 – Microsoft Exchange Server • Version 2007, 2010 Dropping support for Exchange 2003, Outlook 2003 Protect private items when a delegate searches from another mailbox • Background for this enhancement – ‘Private items’ – One feature of Outlook/Exchange is the ability to mark items ‘Private’. By marking an item private, if someone else has been delegated access to your mailbox (or certain folders) they cannot see information about the items marked private. – Users can mark Calendar, Contacts or Tasks items private • received messages private can only be set ‘Private’ by the sender. • You can prevent the IBM Content Collector search function from returning private items by explicitly disabling this in Outlook client when you define the delegate user and setting ‘Exclude private documents’ in the IBM Content Collector Configuration Manager. © 2012 IBM Corporation Improvements to user search (Mail) • New column in result list for display of attachment icon (if a mail has attachments) • Sortable result list • The default search date range and a maximum result limit can be configured Search Panel Hit List Document preview © 2012 IBM Corporation Classification of Content Types of Classification: • No Classification • Prompt for metadata - manual classification (by User) • Prompt for metadata – classification is proposed by system, validated by User • Automated classification without user interaction With the integration of IBM Content Classification, the content of documents can be sent to analysis – New: Classification (analysis) is proposed by system, displayed to and validated by User Demo © 2012 IBM Corporation Single Search across Mails in Notes and in archived Mails Location of Message Demo © 2012 IBM Corporation Viewing archived Mails - Repository Client • IBM Content Navigator is avialable now • ICN: Open, extensible architecture with Plug-Ins (e.g. for viewer) – ICC Viewer is included as standard – Viewing archived mails, native mail formats • Repositories – CM8 – FileNet P8 Demo © 2012 IBM Corporation IBM Content Collector for File Systems Recollecting of modified content as new version ICC archives a file from file system, post processing: do not delete original file The original file (file system) gets modified by user ICC checks if a file was modified The size has changed since it was tagged The modified date of the file has changed since the file was tagged or is more recent than the tag date If a file hash was recorded in the tag and the collector has supplied a different hash value The modified file gets archived as a new version © 2012 IBM Corporation IBM Content Collector for Microsoft SharePoint Icon Mirroring for Links • With SharePoint 2010 the SharePoint connector will keep the original document icon for the created link. • With Sharepoint 2007 the SharePoint connector would use the generic link icon when links were created. © 2012 IBM Corporation IBM Content Collector for Microsoft SharePoint Document Restore and Recollection • If you require to make changes to an archived document and are using the Replace with Link post-processing option, you can restore the document from the link and make your changes. • To restore the document, you perform a “Check Out” action on the link in SharePoint using the document context menu. • Restored documents can be re-collected. Demo © 2012 IBM Corporation Expiration of archived content ICC Expiration Manager enables deletion of content from the repository Expiration dates set when content is archived – Stored as metadata & configured at the Task Route level by: • Specified time period provided or calculated • User/ LDAP Group Membership Retention Periods are day forward and apply to new content but not for already archived content Expiration Manager runs against the repository and checks for documents that are older than their retention date. – Has options to list, count, or delete documents Recommendation: Use the lifecycle option to avoid dead links ICC for File Systems, eMail and SharePoint all support stub removal from the source when content is deleted from the repository © 2012 IBM Corporation Agenda • • • • Überblick – IBM Content Collector Die wichtigsten Neuerungen im Überblick Neue Quelle: IBM Connections Die wichtigsten Neuerungen in ICC Mail – Demo • Die wichtigsten Neuerungen in ICC File Systems • Die wichtigsten Neuerungen in ICC Sharepoint – Demo • Monitoring und Reporting © 2012 IBM Corporation Monitoring and Reporting • ICC Dashboard monitors the status of all IBM Content Collector nodes in real time • ICC Performance Reporting monitors the status over time © 2012 IBM Corporation ICC Performance Reporting Performance counters • • • Gathers statistical data based on performance counters without user interaction and stores them into tables in the Content Collector configuration DB Makes performance data available to reporting tools such as Microsoft Excel or Cognos Reports Ships BIRT reporting engine (web interface) Report data gatherer on Primary node / Secondary node(s) Performance data & aggregated data produces Report Viewer (BIRT) / Cognos © 2012 IBM Corporation Report data gatherer • Gathers statistical data based on performance counters on all IBM Content Collector servers – – – – – – – – \CTMS Collector\Accessed Entities/sec \CTMS Collector\Entity Errors/sec \CTMS Collector\Location Errors/sec \Processor(_Total)\% Processor Time \PhysicalDisk\% Idle Time \Memory\Available Bytes \Memory\Cache Bytes \Network Interface\Bytes Total/sec (items accessed) (items failed to process) (locations failed to process) (average workload) (busiest disk) (available physical memory) (system cache size) (total traffic) © 2012 IBM Corporation Report viewer • Generates performance reports on demand – Start from start menu – Start from ICC Config. Mgr. • Includes two throughput reports • Allows for easy extension through additional reports © 2012 IBM Corporation Throughput Report - Export • Export to PDF file • The underlying data can be exported to a CSV file for accessibility © 2012 IBM Corporation “Blacklist” feature The “blacklist” was added to improve system resiliency, recovery, and auditability • If the email collector fails to process a message that message is added to the blacklist • The blacklist is stored in a database that can be accessed through a new UI control • Administrators can see which email documents failed • Allow searching the blacklist for specific entries • Filtering by specific values is also supported • Administrators can then take action to remove email documents from the list so they will be processed again 37 37 © 2012 IBM Corporation Q&A © 2012 IBM Corporation