Rapport

Transcription

Rapport
Multi-Document
Summaries of Swedish Documents
as Search Result
CARL-OSCAR
ERNEHOLM
Master of Science Thesis
Stockholm, Sweden 2012
Multi-Document
Summaries of Swedish Documents
as Search Result
CARL-OSCAR
ERNEHOLM
DD221X, Master’s Thesis in Computer Science (30 ECTS credits)
Degree Progr. in Computer Science and Engineering 300 credits
Master Programme in Computer Science 120 credits
Royal Institute of Technology year 2012
Supervisor at CSC was Viggo Kann
Examiner was Anders Lansner
TRITA-CSC-E 2012:087
ISRN-KTH/CSC/E--12/087--SE
ISSN-1653-5715
Royal Institute of Technology
School of Computer Science and Communication
KTH CSC
SE-100 44 Stockholm, Sweden
URL: www.kth.se/csc
Abstract
This thesis attempts to evaluate if it is viable for an
information retrieval application to cluster the documents of a search result and generate multi-document summaries in query time, for Swedish documents. It evaluates the performance and quality of
the document clustering algorithm k-means, and
two multi-document summarization algorithms;
one based on PageRank and the other based on
the Cover Coefficient concept.
The result shows that neither of the multi-document
summarization algorithms is fast enough to run in
query time, given a time limit of two seconds. But
that they are both able to produce Swedish summaries of reasonably high quality. It further shows
that k-means clusters documents quickly enough
to be used in query time, but that the quality of
the clusters are somewhat lacking and might not
be good enough for practical use.
Referat
Flertextsammanfattningar
av svenska dokument
som sökresultat
Denna rapport gör ett försök att utvärdera om
det är möjligt för en sökmotor att klustra och flertextsammanfatta svenska sökresultat fort nog för
att det ska kunna göras då sökfrågan ställs (query time). Den utvärderar hastigheten och kvalitén
hos klustringsalgoritmen k-means samt två flertextsammanfattaningsalgoritmer, den ena är baserad på PageRank och den andra är baserad på
Cover Coefficient-konceptet.
Resultatet visar att ingen av flertextsammanfattningsalgoritmerna är tillräckligt snabb för att köras
i query time givet en maximal körningstid på två
sekunder. Däremot producerar båda sammanfattningar av god kvalité. Det visas även att k-means
klustrar dokumenten tillräckligt snabbt för att kunna köras i query time, men att kvalitén hos klustren
är något bristfälliga, vilket kan innebära att de inte
är tillräckligt bra för att kunna användas praktiskt.
Contents
1
Introduction
1
1.1
Problem Statement
4
1.2
Use Case
5
Background
2
3
Document Clustering Algorithms
7
2.1
Document Clustering
7
2.2
Hierarchical clustering
9
2.3
k-means
10
2.4
Bisecting k-means
11
2.5
Miscellaneous Clustering Methods
11
Summarization Algorithms
13
3.1
Generating Quality Summaries
13
3.2
Language Independence
14
3.3
Summarizing using PageRanked Sentences
15
3.4
Cover Coefficient Matrix based Summarization
17
Method
4
5
Clustering Search Results
21
4.1
Requirements
21
4.2
Evaluation of the Clustering Implementation
22
Evaluating the Summarizers
26
5.1
The Summarizers
26
5.2
Evaluation Methods
26
5.3
Gathering Test Data
29
5.4
Performance Test
31
Implementation
6
7
The Search Engine
33
6.1
Apache Solr
33
6.2
Jellyfish
33
6.3
Working with a Search Engine
34
The Framework
36
7.1
Document Gathering
36
7.2
Preprocessing
36
7.3
Clustering Implementation
38
7.4
Summarization Implementation
38
Evaluation Results
8
9
Clustering Results
40
8.1
Result
40
8.2
Discussion
41
Evaluation Results of The Summarizers
43
9.1
Results
43
9.2
Discussion
44
10 Conclusion
48
Bibliography
49
Appendices
50
A Similarity and Distance Measures
51
A.1
Euclidean Distance
51
A.2
Cosine Similarity
51
A.3
Jaccard Similarity
52
A.4
Dice Similarity
52
B Preprocessing
53
B.1
Stemming
53
B.2
Lemmatization
54
B.3
Stop Word Removal
54
C Document Representation
C.1
The Vector Space Model
55
55
D List of Stop Words
E Sources of the Articles
Used in the Evaluation of MDS:s
E.1
E.2
E.3
E.4
E.5
E.6
E.7
E.8
The Death of Khaddafi
The Death of Kim Jong-Il
Juholt’s Resignation
The Knutby Murders
The Murder of Anna Lindh
The Pirate Bay Trail
(SD) Enters Riksdagen
The Tsunami in Japan 2011
F The Instructions for the Writing of
the Gold Standard Summaries
G The Gold Standard Summaries
G.1
G.2
G.3
G.4
G.5
G.6
G.7
G.8
The Death of Khaddafi
The Death of Kim Jong-Il
Juholt’s Resignation
The Knutby Murders
The Murder of Anna Lindh
The Pirate Bay Trail
(SD) Enters Riksdagen
The Tsunami in Japan 2011
H Generated Summaries
H.1
H.2
PageRank Summarizer
Cover Coefficient Summarizer
57
58
58
58
59
59
59
59
60
60
61
64
64
65
66
67
68
69
70
71
72
72
79
About This Document
This project is part of a larger project which consists of two master’s thesis
projects, one carried out by Carl-Oscar Erneholm and one carried out by Martin
Nycander. Both the work and the documentation in this report of the subject
of document clustering have been a collaborative effort. The overall project
organization is visualized in figure 1. The collaborative chapters are 2, 4, 6, 7
(except for the last section), 8 and appendices: A, B, C and D.
Collaborative
Individual
Collaborative
Multi-document
Summarization
Document
Clustering
Summary
document with
headers
Cluster
Labeling
Figure 1: Project organization overview.
Glossary
Centroid
A centroid is a document which represents a document cluster. Usually represented as a term vector, whose values are calculated means of the cluster
member vectors.
Summarizer
A computer program which summarizes a document or set of documents.
Gold Standard
An instance of something that is viewed as ideal and is used as a measure by
comparison with other instances.
Language Dependence
A method is language dependent if it makes assumptions on what language
it will work with. If a method works equally well any language it language
independent.
MDS
Multi-Document Summarizer, is an algorithm or method which can summarize multiple documents.
N -gram
Ordered lists of consecutive terms of length N.
Unigram
Synonymous to 1-gram.
Bigram
Synonymous to 2-gram.
ROUGE
ROUGE is a scoring system which measures the quality of generated summaries, by comparing them to a set of gold standard summaries.
NLP
Abbreviation for Natural Language Processing. It is the process of extracting
meaningful information from natural language input, and/or producing natural
language output.
Query Time
Point in time when a user is querying the search application.
Index Time
Point in time when a documents are being inserted into the search index.
Chapter 1
Introduction
Today, we have got vast quantities of information stored digitally and each day
more data is added to these gigantic databases. With these rapidly growing
databases it becomes harder and harder to find the right pieces of information in every given time. Therefore many different information retrieval (IR)
techniques have been developed.
The most common way to solve the problem of IR is a search engine. It is
assumed that the user wants some documents of the data set and knows some
of the keywords in these documents.
But what if the user want a summary of a topic? Most documents, even if they
are all about a single topic, are often very different and sometimes they present
conflicting information. No smaller subset of a bigger document group are
usually representative of the group as a whole. This springs from the fact that
documents often specialize on different angles of a single topic. For a human it
is often unrealistic to take the time and energy to read most of the documents
concerning a single topic, if not impossible.
Therefore it would be valuable if the search engine could condense the information of the search result into a single summary for each topic in the search
result. The summary would ideally speed up the users grasp of a new topic
by only presenting the most important pieces of information. The problem of
generating such a summary is called multi-document summarization (or MDS
for short) and will be the primary focus of the thesis.
Since most research in the field of information retrieval has been done with
documents written in English, this thesis will focus on documents written in
Swedish.
Search terms could be ambiguous or generate a too broad range of documents,
this poses a problem for MDS. In the case of ambiguous terms, the generated
summaries might confuse different meanings of a word.
Is a Jaguar a car or an animal?
1
This could be solved by dividing the search result into clusters. With the hopes
that the documents with ambiguous key words get grouped on their meaning so
that a summary may be generated for each meaning of the keywords. Achieving
this type of clustering is the secondary focus of this thesis.
The cluster implementation will be a joint effort of myself (Carl-Oscar Erneholm)
and Martin Nycander. The final product will be a piece of software that is able
to take a group of documents and generate a new document with headers and
summaries of the different topics present in the input document group. This
could be used as an alternative to the traditional search result list.
The generation of the headers will not be discussed in this thesis but is a central
part of Martin’s thesis, this thesis will focus on multi-document summarization.
The idea behind this thesis comes from Findwise AB which is also the project
provider. The purpose of this thesis is to find new ways to present search result
to the user. The thesis will thus evaluate if it is viable to present search result as
a summary using some multi-document summarization technique.
2
Thanks
I would especially like to thank my friends and
family members who helped me out by writing the
gold standard summaries. This thesis would not
have been possible without their help!
Joel Ahlgren
Anders Erneholm
Nicklas Johansson
Sussanne Johansson
Nicolina Nyholm
Therese Ulfvin
Christer Wallin
3
1.1
Problem Statement
The purpose of this thesis is to answer the questions below. The questions were
chosen with the purpose to guide an implementation of a new type of search
query result. Instead of the usual listed search result, the new search result
is supposed to cluster the resulting documents and generate a heading and
summary for each cluster. By using this search result the user is able to get a
quick overview of the topics of the result and the content.
Document Clustering
1. What different techniques exist for clustering documents?
2. What are the language specific challenges for clustering documents in Swedish,
If any?
3. What is an ideal document clustering technique for both multi-document
summarization and cluster labeling?
Multi-Document Summarization
4. What are the human needs a summary tries to fulfill?
5. How should a multi-document summarizer be built in order to produce summaries where these needs are met?
6. Are any new problems introduced when generating multi-document summaries for documents written in Swedish rather than English?
7. How should the quality and performance of a generated multi- document
summarizer of Swedish documents, be evaluated?
8. Is it possible to generate multi-document summaries of quality quickly enough
to be usable in query time?
4
1.2
Use Case
This project is largely based with the following use case in mind.
1. An user visits a typical IR-application, such as a search engine.
2. The user initiates a summary search.
3. The summary application gets the top 200 results (which usually corresponds
to the first 20 pages) from the search engine.
a) The results are then clustered into groups of similar documents.
b) Each cluster is summarized using a multi-document summarizer and
labeled by a cluster labeling algorithm.
4. The resulting summary is returned to the user within a reasonable amount of
time.
5. The user can now read a summary of the different topics regarding the specific
search query.
5
Part I
Background
6
Chapter 2
Document Clustering Algorithms
The purpose of this chapter is to explain what document clustering is and why
it is needed. But also to answer the first and second question of the problem
statement in Section 1.1.
Document Clustering
1. What different techniques exist for clustering documents?
2. What are the language specific challenges for clustering documents in
Swedish? If any.
To this end this chapter will attempt to give a brief description of the different
clustering algorithms that were considered for implementation and evaluation.
How the language of the documents effects the clustering algorithms will also
be discussed.
2.1
Document Clustering
Document clustering algorithms try to solve the problem of grouping documents in such a way that the documents in each group is similar to each other
but dissimilar to other groups [14, 11].
It is important to know that there is a difference between document clustering
and document classification. The difference between the two is that document
classification attempts to classify what predefined group a document belongs
to [11, 18], while document clustering creates those classifications based on the
input it is given. This means that the clustering algorithm requires very little,
or no knowledge of the domain it is clustering.
The goal of the final product is to generate summaries and headings from
document groups to be used as an alternative to the traditional search result
list. The first step is to generate document groups from the search result list of
documents.
7
Document clustering algorithms need a way to tell if two documents are similar or not. There are algorithms for calculating these document similarity
measures1 . Similarity measures could look for similarities in any feature of
documents: time of creation, pictures, headings, content, diagrams, tables and
so on. What features are used depend on the criteria of the clustering and the
available features. In this case the final product needs document groups where
the documents are about the same topic, therefore content is very relevant
while creation date, for example, is mostly irrelevant [11].
By using the similarity measures the clustering algorithms try to find groups of
documents where the documents within the groups are as similar as possible
while documents of different groups are as differentiated as possible. Finding
optimal solutions is usually computationally hard and thus unfeasible for real
time applications. However, heuristics for finding good local optimums exist.
The two most commonly used classes of clustering algorithms are the hierarchical algorithms and the k-means variants, which both are heuristics for
finding local optimums [11]. Hierarchical algorithms work by building a tree of
documents where different possible clusters are subtrees of the document tree.
The two main problems the k-means variants faces are deciding the number
of clusters in the solution and finding suitable centroids that the clusters can
revolve around.
2.1.1
Language Independence
Most document clustering algorithms do not have information of the content
of the documents other than through the similarity measures [3, 18, 11, 14].
Therefore the language dependency of most clustering algorithms are only tied
to the similarity measure used, since this is the only part of the algorithms that
actually comes in contact with the language.
Most similarity measures, give the similarity of term vector representations
of the documents rather than the actual content, for example the similarity
measures described in appendix A. Therefore the only way the language can
effect the quality of the these clustering algorithms is through the term vector
representation which is described in appendix C. Term vector representations
are purely statistical, the actual meaning behind the terms are not taken into
account by these models. This means that as long as the language has suitable
features which are representative of the content (such as words), the vector
space model can use these and is then nearly language independent.
The only place where language comes into consideration in the construction
1
See appendix A for a list of common document similarity measures.
8
of term vector representations is in the preprocessing stages. Preprocessing
and language dependent preprocessing steps are discussed in further detail in
appendix B.
Swedish, is a language very rich in morphology and especially rich in solid
compounds, which makes it harder to analyze computationally. Regarding each
solid compound as a term of its own seems unpractical as it would expand the
term space greatly. An option would be to split the compounds into smaller
terms, however it should be noted that some meaning could be lost in the
splitting [18, p. 12].
Hence, as long as an algorithm only uses term vector similarity measures and
do not use the content of the document in any other way, it is nearly language
independent.
2.2
Hierarchical clustering
One approach to document clustering is to use a hierarchical tree structure of
documents. It is the “divide and conquer” approach to document clustering.
The greatest strength of hierarchical clustering algorithms is the possibility to
choose any clustering solution from the generated cluster hierarchy.
The hierarchical clustering algorithms can be divided into two groups, agglomerative (bottom-up) and divisive (top-down). In agglomerative algorithms
all documents begin in their own cluster, each iteration clusters are merged,
each merge forms a link in the hierarchy, see algorithm 2. Divisive clustering
algorithms start with all documents in one cluster and then iteratively divide
the cluster and the resulting clusters. Each split forms a bond in the hierarchy,
see algorithm 1.
Unlike k-means, which requires the number of clusters in the solution to be
predetermined, a hierarchical algorithm can be set to find good local optima
by analyzing the hierarchy and stop after a certain threshold of some quality
metric has been reached. This provides great flexibility in implementation.
The flexibility however comes at a cost of speed. The time complexity of hierarchy clustering algorithms varies from algorithm to algorithm but is for
exhaustive similarity analysis never less than O(n2 ), where n is the number of
documents [18]. This is because all possible document pairs are compared in
these cases.
9
Algorithm 1 General structure of divisive clustering algorithms. Usually t = 2
Assign all documents to a single cluster
while iterations < n do
Split the worst cluster into t sub clusters
iterations ← iterations + 1
end while
Algorithm 2 General structure of agglomerative clustering algorithms. Usually
t=2
Assign each document a cluster of its own
while iterations < n do
Merge t most similar clusters
iterations ← iterations + 1
end while
2.3
k-means
k-means is a clustering algorithm which operates in document vector space.
It keeps track of a fictive “centroid” document for each cluster. A centroid
document is usually the mean vector of all documents in the cluster.
k-means begins by assigning each cluster a random document, and then iteratively assigns every document to the closest centroid and updates the centroid.
It does this until the distribution is stable, that is: no document changes cluster,
see algorithm 3 for the pseudo code [3, 18].
The time complexity of k-means is: O(nkl), where n is the number of documents, k is the desired number of clusters and l is the number of iterations
[3, 18, 11], which is very fast for a clustering algorithm.
Like most clustering algorithms k-means needs some external way to tell how
similar two documents are. Many similarity measures exist, see appendix A,
which are compatible with k-means, but the consensus of the community is that
the cosine similarity measure is the more appropriate measure for document
clustering [21]. A k-means algorithm which uses a cosine similarity measure is
often referred to as a spherical k-means.
There are many variants and extensions to the k-means algorithm. There are
various ways of initializing the clusters (e.g. k-means ++ [4]), different ways of
measuring similarity between documents (e.g. euclidean-, dice-, jaccard- or
cosine-similarity [11]) and different ways of calculating centroids (e.g. k-means,
k-medians[20] or k-medoids[19]).
10
Algorithm 3 Pseudo code for the k-means algorithm.
Assign k random documents to a cluster each.
changes ← k
while changes > 0 do
changes ← 0
for all documents do
Assign document d to the cluster c, whose centroid minimizes
dist(centroidc , d)
if document d changes cluster then
changes ← changes +1
end if
end for
for all clusters do
1
Update centroid for cluster C to ∣C∣
∑x j ∈C x j
end for
end while
2.4
Bisecting k-means
A more hierarchical approach of k-means is the bisecting k-means algorithm.
It is a divisive hierarchical algorithm which uses normal k-means to divide the
clusters, it works in the following manner:
1. Find 2 sub-clusters using normal k-means.
2. Repeat step 1 a number of times and use the split which has highest overall
similarity in the cluster.
3. Repeat step 1 and 2 recursively for each sub-cluster until the desired number of
clusters has been reached.
Bisecting k-means has been proven to provide better results than normal
k-means in most cases [21]. Although it is presumably slower than regular
k-means since it adds a lot of extra overhead.
2.5
Miscellaneous Clustering Methods
There are however other clustering algorithms that do not fall into the previously
mentioned two categories, this section covers a few of the other available
methods.
A genetic algorithm works with a large set of candidate solutions, lets the best
solutions “survive” and forms new generations by mixing and mutating. In the
11
document clustering case the individual candidates are clustering solutions
and then some kind of fast quality measure is used to determine how “good”
the partitioning is, such as measuring overall similarity [11, p. 258].
Simulated annealing is another technique that is somewhat similar to a genetic
algorithm. But instead of a population of candidate solutions, we only track
one and swap documents between clusters. If the swap resulted in a better
partitioning, we keep it. The algorithm terminates after a sufficient number of
iterations and returns near optimal clusters [11, p. 258].
12
Chapter 3
Summarization Algorithms
This chapter aims to answer question 4, 5 and 6 from the problem statement
in section 1.1. It will also attempt to explain the theory behind the two multidocument summarization algorithms evaluated in this thesis.
3.1
Generating Quality Summaries
Since the goal of a summarizer is to generate quality summaries it is worth to
discuss what a quality summary is and what needs it tries to meet. This is the
subject of the third and fourth question of the problem statement:
Multi-Document Summarization
4. What are the human needs a summary tries to fulfill?
5. How should a multi-document summarizer be built for it to produce summaries
where these needs are met?
Humans read summaries to get a quick grasp over new topics, summaries
written by humans usually reflect this need. They are usually short while still
containing the most valuable pieces of information.
Computer generated summaries try to model the quality and style of human
written summaries, which are regarded as ideal in this context. This means
that a summarizer should aim to generate regular text with correct grammar
and spelling, that brings up what humans regard as the most important parts.
Information that is repeated and information that stands out, such as headings
and captions are usually close to the core message of the document. Most
summarizers focus on identifying the repeated information as it is easy to
measure what words or phrases are repeated throughout the documents. Few
summarizers focus entirely on selecting information that is present in headings
and captions. This is mostly for two reasons: not all documents have text
13
with tagged captions and the captions are usually too few to get a big enough
sample set of relevant information. However it is possible to combine these
two techniques to achieve even better results, this could for example be done
by boosting sentences or phrases that contain words present in the captions.
Given that a summarizer has built a model of what phrases/information are important it must generate the actual text of the summary. There are above all two
ways to do this. One way is to construct new sentences from the information,
but this is a complex task which is most often avoided. Instead sentence extraction is often used. Sentence extractions simply identify sentences of the input
documents that seem suitable to use in a summary and uses those sentences to
construct the target summary. Sentence extraction has the benefit that each
sentence is grammatically correct and each word is spelled correctly, given that
the source documents are free from errors of course. Most often the sentences
are ranked based on their key information density by the summarization algorithm. When the summary is put together the highest ranked sentences are
simply concatenated together. For this thesis two sentence ranking algorithms
will be implemented and evaluated.
While a single document usually will not have multiple sentences containing
the same message, the same is usually not the case for multiple documents.
Using multiple sentences that says the same thing in a summary is wasteful
and should be avoided. The most common way to reduce this problem is to set
an upper limit on the similarity of the sentences in the summary.
Another issue with sentence extraction is continuity. It is not uncommon
for sentences to reference something in a previous sentence. If not the two
sentences are both extracted and placed in the correct order the meaning will
be lost or changed which might confuse the reader. There are however no easy
solutions to this problem, since even identifying such errors is hard without
analyzing the grammar of the sentence. Therefore this problem is usually
ignored.
3.2
Language Independence
Language dependent summarizers make assumptions on what language is
used and uses that information to make a more informed decision on what
the summary should contain. Almost no language dependent summarizers
are designed for any other language than English, this thesis however aims to
evaluate options of constructing summaries for documents written in Swedish.
Question 6 of the problem statement in section 1.1, addresses the issue of
summarizing documents written in other languages than English, this section
14
will attempt to answer this question:
Multi-Document Summarization
6. Are any new problems introduced when generating multi-document summaries for documents written in Swedish rather than English?
Very little research has been done on language dependent summarization of
documents written in languages other than English. No Swedish language
dependent algorithms were found during the research phase of this project, so
instead some language independent solution had to be used.
An algorithm is said to be language independent if it seems to get roughly
equally good results when used with data of a variety of languages and no tested
language got significantly inferior results.
Constructing sentences is an example of a language dependent activity since
the grammar and style of most languages differs in some way. The sentence
extracting approach however can be language independent since the sentences
it extracts are entire grammatically correct units. Therefore both summarization
algorithms that will be evaluated in this thesis uses sentence extraction.
Both summarizers should be language independent according to their respective articles [16, 8], however none of them has been tested on documents written
in Swedish. This means that a poor result in the evaluation would falsify the
hypothesis that the algorithms are language independent.
This thesis will evaluate and compare the quality and performance of two
methods of multi-document summarization. One is based on PageRank and
the other on the Cover Coefficient concept, both use sentence extraction, both
are language independent and both rank the sentences.
3.3
Summarizing using PageRanked Sentences
This summarization method is greatly inspired by the PageRank algorithm, but
applied to sentences instead of web pages. The idea to use PageRank to rank
sentences for summarization was first explored by Mihalcea and Tarau in 2005,
[16]. This section will give a short description of the original PageRank, explain
how the modified PageRank works and how the original was modified to be
able to rank sentences.
15
3.3.1
PageRank
PageRank is a link analysis algorithm that was first introduced in 1998 by
Page and Brin [5]. It was designed to rank web pages in a set on their relative
importance based on how they link to each other. The more web pages that
links to a web page the more important it is to PageRank. The importance of the
linking web pages is also taken into account in the calculation. In the PageRank
algorithm each web page is represented as a set of vertices in a graph and the
links between the web pages are directed edges. PageRank can be viewed as a
statistical model of a random surfer. The surfer starts at a random web page
and clicks links at random, at each web page there is a small chance that the
surfer manually enters the address of a new random web page. This probability
is defined as 1 − d where d is called “the dampening factor” which is usually set
to around 0.85. This model can be viewed as a Markov chain, the elements of
the transition matrix is defined in equation 3.1.
⎧
⎪
⎪
l(p i , p j ) = ⎨
⎪
⎪
⎩
(d−1)
n
(d−1)
n
+d⋅
1
∣out(p i )∣
if p i links to p j
otherwise
(3.1)
Where out(p i ) is defined as the set of edges pointing from p i and n is the total
number of web pages. The dominant eigenvector of this transition matrix will
contain the probabilities of the random surfer stopping at any of the pages after
a big number of transitions. This probability is the PageRank of a web page, a
higher probability means that the web page is more important.
3.3.2
Adapting PageRank to Rank Sentences
For this ranking algorithm to be used as a sentence ranker some features of
web sites must be translated to features of sentences. Since PageRank in a
more abstract sense ranks nodes in a directed graph, we need a model where
sentences are represented as nodes in a directed graph.
The original PageRank uses the links of web sites as the directed edges, in effect
a web page A linking to web page B signifies that A “recommends” B. It also
1
distributed an equal weight to all the outgoing links ∣out(p
for each web page
i )∣
p i , so that the sum of the weights of the outgoing links are 1.
To make the sentence graph model fit with the PageRank algorithm there must
be directed weighted edges that signify a “recommendation” from one sentence
to another. Also the sum of the weights of the outgoing “recommendations”
should be 1, so that all sentences get an equal power to “recommend”. Mihalcea
and Tarau used a document similarity measure to get a number on to what
extent the two sentences “recommend” each other [5]. Note that this means
16
that all edges point both ways and have equal weight, given that the similarity
function is symmetrical.
Mihalcea and Tarau recommended the use of a similarity measure that uses
term overlap of the sentences normalized by the size of the sentences. This
description fits the definition of the dice similarity fairly well. The dice similarity
is defined as twice the number of intersecting terms of the sentences divided
by the sum of the length of the sentences, see section A.4.
The PageRank sentence ranking scores are thus found in the dominant eigenvector of this modified PageRank transition matrix.
The sentences that receive the greatest PageRank are usually those sentences
that are similar to many of the sentences, or very similar to some of the more
“popular” sentences. As with the regular PageRank it is more valuable to be
recommended by the more “popular” nodes.
This sentence ranking system works under the common assumption that most
sentences that are good representatives of the document as a whole, is similar
in content to many of the sentences in the document. A sentence similar to
many other sentences in the document should contain information close to
the core of what the document in large is about.
3.4
Cover Coefficient Matrix based Summarization
The Cover Coefficient (CC) concept were first used by Fazli Can and Esen A.
Ozkarahan in: “Concepts of the cover-coefficient-based clustering methodology” from 1985 [6].
The CC concept uses a primitive representation of the documents called: “the
boolean model of information retrieval” (BIR). It views each document as a
set of words, that is: no term frequency or other information is used. In the
BIR each document can be seen as term occurrence vector, which is a boolean
vector where each dimension i of the vector corresponds to a term t i and the
value of each element denotes if that term is present in the document.
These vectors can be combined into a document by term matrix D, where each
term occurrence vector d i is a row in the matrix.
At the core of the CC concept is the C matrix. The C matrix is a document
by document matrix where each entry c i j denotes how much document d i
“covers” document d j . The “coverage” can be seen as a double-stage probabilistic
17
RRR 1
RRR
RRR0
R
D = RRRR 1
RRR
RRRR 1
RRR 1
0
1
1
0
1
1
0
1
0
1
0
1
0
1
0
0
1
0
1
1
RRR0.29
RRR
RRR0.00
R
C = RRRR 0.15
RRR
RRRR 0.08
RRR 0.12
0RRRR
R
1 RRRR
R
1 RRRR
R
0RRRR
R
1 RRRR
0.00
0.29
0.08
0.28
0.13
0.29 0.13 0.29 RRRR
R
0.08 0.21 0.17 RRRR
R
0.23 0.06 0.23 RRRR
R
0.08 0.36 0.19 RRRR
R
0.18 0.12 0.25RRRR
Figure 3.1: An example document term occurrence matrix D and the resulting
Cover Coefficient C Matrix
experiment, see equation 3.2.
n
c i j = ∑ A(d i , t k ) ⋅ B(t k , d j )
1 ≤ i, j ≤ m
(3.2)
k=1
Where A(d i , t k ) and B(t k , d j ) are each a part of the double-stage experiment,
n is the number of terms and m is the number of documents. A(d i , t k ) is the
probability of randomly choosing term t k from document d i and B(t k , d i ) is
the probability of randomly choosing document d i out of all the documents
that contains the term t k . These two probabilistic experiments are illustrated
in equation 3.3 and 3.4.
A(d i , t k ) =
d i (t k )
sum(d i )
(3.3)
B(t k , d j ) =
d j (t k )
n
∑l=1 d l (t k )
(3.4)
Where d i (t k ) is 1 if term t k is present in document d i and 0 otherwise; sum(d i )
is the number of different terms present in the document. The C matrix can be
interpreted as a similarity table of sorts, the higher c i j or c ji is the higher the
overlap of the terms in document d i and document d j are. However in contrast
to most similarity metrics, the C matrix is usually not symmetric as can be seen
in the example C matrix in figure 3.1. Since the double-stage experiments of
each row in the C matrix encompass the whole of probability space, the sum of
the probabilities of each row in the C matrix are 1 [6].
3.4.1
Ranking Sentences using Cover Coefficients
In 2009 Gonenc Ercan and Fazli Can introduced a way to rank sentences for
extraction based summaries using the cover coefficient concept [8]. They took
advantage of the similarity property of the C matrix and made the assumption
that sentences that are similar to the whole document are good candidates to
use in a summary.
To rank the sentences the rows of the D matrix must contain the boolean BIR
vectors of the sentences (rather than entire articles) as rows. Since the sum of
18
the elements of each row in resulting the C matrix are equal 1, we can conclude
that the diagonal elements c ii measure the dissimilarity of sentence i to the
other sentences in the sentence space. Or it can be viewed the other way around,
the similarity Ψ of sentence i to the rest of the sentences can be calculated like
this:
Ψ = 1 − c ii .
The sentences with high Ψ similarity value is most probably central to the text
and thus a good candidate to include in a summary.
When summarizing multiple documents using the cover coefficient concept
one should let the D matrix contain representations of all sentences from all
documents. The Ψ value will then show which sentences are central to the
entire document set. However when summarizing multiple documents special
precaution should be made to avoid repetition of information. Ercan and Can
proposes to set an upper limit to how similar a sentence can be to any other
sentence in the summary using the cover coefficients [8]. Their criterion for a
repetition were:
cjj
c ii
< c i j or
< c ji
π
π
where π is a predetermined constant. Setting π to 2 means that the sentences
cannot be in the same summary if any of their coverage probabilities are greater
than half of a perfect coverage.
The final summary is constructed by concatenating the sentences with the
highest Ψ value.
19
Part II
Method
20
Chapter 4
Clustering Search Results
The purpose of this chapter is to motivate and formulate the methodology of
the evaluation of the clustering algorithm implementation. It will also attempt
to answer question 3 from the problem definition in section 1.1.
Document Clustering
3. What is the ideal document clustering technique for both multi-document
summarization and cluster labeling?
To this end this chapter will also formulate a hypothesis and a test which
may falsify it. The result of the test will be presented in the evaluation of the
clustering algorithm, in Chapter 8.
4.1
Requirements
While inspecting the use case in Section 1.2 it became apparent that a document
clustering algorithm had the following requirements.
Running time — The algorithm will have to run fast, since it will process the
result from the search engine coming back to the user.
Cluster quality — The clustering module is a part of a pipeline, where the later
stages of the pipeline will expect a certain level of quality in the clusters.
Structure — The clusters do not gain anything from having a hierarchical
structure. Flat clusters should do just fine.
Development time — The time assigned for the clustering phase was merely
two weeks, which is enough to implement a sturdy well tested clustering
algorithm.
21
Using these requirements and the background information from chapter 2 the
candidate algorithm is chosen to be k-means due to its promise of speed and
simplicity in development. It also creates a flat structure of clusters of a high
quality [21]. With this pretense, we can formulate a hypothesis.
Hypothesis 1. k-means is an ideal document clustering technique for document
clustering in an information retrieval application.
Hypothesis 1 can be accepted if it passes the evaluation described below. That
is if hypotheses 2 and 3 are accepted.
4.2
Evaluation of the Clustering Implementation
To ensure the quality of the clustering implementation it will be evaluated
on three different metrics. Two of them, F-measure and purity, measure the
“quality” of the clusters while the last measures the speed performance of the
implementation.
For the k-means implementation to be of any use it needs to be significantly
superior to the random clustering algorithm, see hypothesis 2.
Hypothesis 2. k-means is able to produce clusters with significantly higher Fmeasure and purity scores than the random clustering algorithm, when 2 ≤ k ≤ 5
and the documents are of reasonable size.
4.2.1
Test Data
To evaluate the result of a clustering algorithm we need to know what a good
cluster distribution looks like. The goal of a document clustering algorithm
should be to put documents in clusters similar to how a human would categorize
them. The most common way to achieve this is to let humans categorize a
predefined set of documents, these categorizations are called a “gold standard”
of a particular document set. The gold standard is then viewed as a kind of ideal
cluster distribution with respect to how a human would cluster the documents.
To make the test data as close to real world applications as possible, a large data
set with pre-categorized documents were needed as gold standard. Another
requirement of the test data were that the documents should be in Swedish,
this narrows down the array of publicly available data sets significantly.
Wikipedia offers such a resource in many languages including Swedish and were
therefore used for the clustering evaluation. The evaluation will also attempt to
follow the use case as close as possible, therefore the Swedish Wikipedia will be
22
indexed by a search engine. Each test will be a query on the search engine on
various categories in Wikipedia, the result of the query will be clustered and the
clusters evaluated. The search queries will be chosen in such a way the search
result has enough documents to cluster and a varying number of categories.
The Wikipedia Data set
• 429 887 documents
• Accessed 2012-02-19.
• 1355 characters is the average length of a document.
4.2.2
F-Measure
F-measure is a test of accuracy commonly used in the information retrieval
field. It is defined as the harmonic mean of the precision P and recall R, of the
whole clustering solution, see equation 4.1.
F=
2PR
P+R
(4.1)
The definition of precision and recall we will use, is the one presented by
Ricard Marxer and Hendrik Purwins [15]. The precision P and recall R of the
whole clustering solution can be calculated as the weighted sum of the clusters
individual precision and recall, see equation 4.2 and 4.3.
P=
1
∑ P(c) ⋅ ∣c∣
∑ ∣c∣ c∈C
(4.2)
1
∑ R(c) ⋅ ∣c∣
∑ ∣c∣ c∈C
(4.3)
c∈C
R=
c∈C
Where C is the set containing all gold standard categories. The cluster specific
precision and recall are in turn the weighted sum of the precision and recall of
the [cluster, category] pairs, see equation 4.4 and 4.5.
P(c) =
1
∑ P(c, k) ⋅ ∣c ∩ k∣
∣c∣ k∈K
(4.4)
R(c) =
1
∑ R(c, k) ⋅ ∣c ∩ k∣
∣c∣ k∈K
(4.5)
23
Where K is the set containing all generated clusters. The precision and recall of
[cluster, category] pairs can be described as follows:
Precision The fraction of documents in a cluster that is of a specified category.
Recall The fraction of the documents of a specific class that populates a cluster.
They can be calculated using equation 4.6 and 4.7 below.
P(c, k) = {
1 − ∣c C ∩ k∣ / ∣c C ∣
1
R(c, k) = {
(∣c ∩ k∣ − 1) /(∣c∣ − 1)
1
if ∣C∣ > 1
otherwise
if ∣c∣ > 1
otherwise
(4.6)
(4.7)
Again, C is the set of gold standard categories, when the set only contains
one category the purity score is automatically perfect. While c C denotes the
complement to the set c. In this case c C means all documents that are not of
category c.
4.2.3
Purity
Purity is a more simple and straightforward measure, it measures the coherence
of a cluster. It is calculated as the fraction of documents in a cluster that belong
to the most common category of that cluster, see equation 4.8. If all documents
in a cluster belong to the same category, that cluster achieves the perfect purity
score of 1.0.
P(C i ) =
1
max(n hi )
ni h
(4.8)
Where maxh (n hi ) is the number of documents of the dominant category in
cluster C i and n i is the total number of documents in cluster C i . The overall
purity of a clustering result can be calculated as the weighted sum of the purity
of all clusters weighted by the size of the clusters, see equation 4.9 [18].
∣C∣
P(C) = ∑
i
ni
P(C i )
n
(4.9)
n is the number of documents and ∣C∣ is the number of clusters.
However it is important to note that purity does not take cluster size or the
number of categories into account. If a document is alone in a cluster that cluster
24
will get a perfect purity score of 1.0, even though this often is not considered
“good” clustering. The purity score must also be compared to the number of
categories. With a larger number of categories higher purity values becomes
harder to achieve, while with a lower number of categories a lower purity score
is impossible, if there only are two categories the lowest possible purity score is
0.5.
4.2.4
Performance
The performance of the algorithm is an important aspect to measure since the
use case scenario illustrates a query time feature in a search engine. Measuring
the actual time it takes to run the algorithm is therefore crucial for the evaluation
of the algorithm.
The use case scenario will handle about 0−200 documents from the search result.
Studies have shown that users are willing to wait two seconds for information
retrieval applications [17], from this assumption hypothesis 3 was constructed.
This suggest that the performance threshold for the clustering algorithm would
be to be able to cluster about 100 pages / second.
Hypothesis 3. k-means is able to cluster 200 documents of reasonable size in
under two seconds, on a reasonably powerful consumer laptop.
The suggested approach for testing hypothesis 3 is as follows.
1. Get all n pages from the corpus.
2. Start measuring time.
3. For every 200 pages from the corpus:
a) Run cluster algorithm with the selected 200 documents.
4. Stop measuring time.
5. Calculate time difference between stop and start events and divide by n/200.
— Is the resulting value above or below 2?
25
Chapter 5
Evaluating the Summarizers
This chapter aims to answer the question regarding the method of evaluation
from the problem statement in section 1.1, namely question seven:
Multi-Document Summarization
7. How should the quality and performance of a generated multi- document
summarizer of Swedish documents, be evaluated?
5.1
The Summarizers
The summarizers that are implemented and evaluated are the PageRank summarizer and Cover Coefficient summarizer explained in the background, chapter 3.
Also two baseline summarizers, one that will pick the first sentences from each
document and the other will take random sentences until the threshold size has
been reached. The baseline summarizers are trivial algorithms which the more
sophisticated algorithms (PageRank and Cover Coefficient) will be compared
to. If the sophisticated algorithms can’t beat the base line at producing quality
summaries we can conclude that they are not producing high enough quality
summaries, for practical use.
Furthermore the PageRank and Cover Coefficient summarizers implements
two boosting schemes: early boost and heading boost. Early boost boosts
sentences appearing earlier in the document while heading boost boosts the
score of sentences containing words from the heading.
5.2
Evaluation Methods
The target audience of the summaries are humans, therefore human opinion
is needed to make any kind of relevant evaluation. Martin Hassel wrote an
excellent outline of different evaluation methods in his PhD Thesis: “Resource
26
Lean and Portable Automatic Text Summarization” [10]. In it he divides the
different evaluation methods into two groups: intrinsic evaluation and extrinsic
evaluation.
5.2.1
Extrinsic Evaluation
Extrinsic evaluation lets some humans read the actual generated summaries and
then tries to measure the level of knowledge gained by reading it. It could be by
testing their knowledge in a questionnaire before and after reading the summary.
If the summary is a summary of instructions it is possible to measure how the
result of following the instructions in the summary differ from following the
actual instructions.
The greatest drawback of extrinsic evaluation is that it is expensive on human
resources. A separate test must be put together for each summarizer and
document group. Also each time a summarizer is changed in any way the
tests must be repeated to evaluate the new version, making an iterative work
flow tremendously expensive. These expenses make any extrinsic evaluation
unviable for this thesis.
5.2.2
Intrinsic Evaluation
In contrast to extrinsic evaluation methods the humans never reads and evaluates the generated summaries in intrinsic evaluation, per se. Instead the human
testers write summaries of their own, that later will be compared to the generated summaries. The human written summaries are viewed as “ideal” for the
purpose of the evaluation, they will henceforth be referred to as gold standard
summaries. Intrinsic evaluations are much cheaper in human resources than
the extrinsic variants. With intrinsic evaluation, only a few gold summaries
need to be generated per document group. Any number of summarizers can
be evaluated using the same set of gold standard summaries.
The weakness of intrinsic evaluation is that the target audience has no direct
say in the evaluation process of the summarizer. They are never shown the
generated summaries and their opinion of them are thus not taken into account.
A summary could be of good quality without being similar to any gold standard
summary (and therefore regarded as a poor summary by intrinsic evaluation)
and vice versa.
However due to time constraints only intrinsic evaluation will be performed in
this thesis, extrinsic evaluation will be left as future work.
27
5.2.3
ROUGE
How should the similarity between the gold standard summaries and the generated summaries be measured? The ROUGE measure has become the de
facto standard for evaluation of single- and multi-document summarization.
ROUGE is a script for comparing gold standard summaries with computer
generated summaries [12]. It was developed by Chin-Yew Lin after his success
at finding a correlation between perceived summary quality and n-gram cooccurrence in generated and gold standard summaries [13]. Unsurprisingly
ROUGE measures n-gram co-occurrence between two or more summaries
(usually a generated-summary and a set of gold standard summaries), and gives
it a similarity measure between 0 and 1. ROUGE has several different modes of
operation which will result in different ROUGE scores:
ROUGE-1 . . . n
The simplest of the ROUGE scores, it calculates the recall of n-grams from
a generated summary and a set of gold standard summaries. ROUGE-2
for example calculates the bigram recall of some summaries.
ROUGE-L
Measures the similarity by calculating the longest common subsequence
of terms between the generated summary and the gold standard summaries.
ROUGE-Sn
Calculates the recall of skip-bigrams. Skip-bigrams are ordered pairs of
terms in the sentences where n is the maximum number of terms that
may be between the two terms.
ROUGE-SUn
Is a variant of ROUGE-Sn which also rewards unigram recall. This means
that it will reward sentences with similar term sets even when the terms
are out of order.
According to the evaluation of the ROUGE scores mentioned earlier [12] the
most accurate ROUGE score for evaluation of multi-document summarization
is: ROUGE-1, ROUGE-2 and ROUGE-S4. Therefore these are the scores that
will be calculated in the evaluation.
28
Category
The Death of Khaddafi
The Death of Kim Jong-Il
Juholt’s Resignation
The Knutby Murders
The Murder of Anna Lindh
The Pirate Bay Trail
(SD) enters Riksdagen
Tsunami in Japan 2011
Total
Documents
11
13
8
10
10
10
7
10
79
Words (k)
4.2
4.4
4.3
4.9
4.0
5.5
5.9
4.1
37.1
Terms (k)
2.1
2.2
1.6
2.3
2.0
2.5
2.6
2.0
17.4
Table 5.1: An overview of the sizes of the document groups summarized in the evaluation.
The words are measured in thousands of words and the terms are the number of words
that are left after the preprocessing.
5.3
Gathering Test Data
ROUGE needs document groups with gold standard summaries to function,
this section will explain how these articles and gold summaries was procured.
5.3.1
Gathering Documents to Summarize
For the evaluation to generate reliable results multiple document groups had
to be gathered, where the documents of each group should cover roughly the
same topic. The documents gathered were articles from online versions of
Swedish newspapers. Most of the articles are from Dagens Nyheter but some
are from Svenska Dagbladet, Aftonbladet, Expo Idag, Sydsvenskan and UNT.se.
All articles are from the years 2004-2012. Using news articles as input for multidocument summarizers is practical since it is easy to find groups of articles
about the same news event.
The categories of news stories should be large, but a too large data set would
make the gold standard creation process too cumbersome. Also each group
should be approximately equal in size, this way their combined result will give
us a clear picture of how effective the summarization algorithms are at that
size. With this in mind we decided to gather eight document groups, each
containing about ten articles and each with a total of about 4500 words. See
table 5.1 for an overview of the document groups and their sizes, for the actual
articles see appendix E.
29
Category
The Death of Khaddafi
The Death of Kim Jong-Il
Juholt’s Resignation
The Knutby Murders
The Murder of Anna Lindh
The Pirate Bay Trail
(SD) enters Riksdagen
Tsunami in Japan 2011
Total
Gold Std Summaries
2
3
2
2
3
2
3
2
19
Table 5.2: An overview of the gold standard summaries that were gathered for the evaluation.
5.3.2
Creating the Gold Standard Summaries
Since there are no good available gold standard summaries for multi-document
summarization evaluation in Swedish, such summaries had to be created for this
thesis. The gold standard summaries must of course be written by humans, this
is a nontrivial time-consuming task. Since the process is very costly, producing
a giant, rigorous set of gold standard is unfeasible given the resources available
to a masters thesis. But the gold standard set gathered for this thesis should
none the less be enough for the result to carry some weight.
Since the style of summarization can vary greatly from person to person, more
than one gold standard summary should be created for each document group.
With this in mind and the limitation of resources it were decided that two
to three gold standard summaries per category should be enough. In total 19
summaries were written to be used as gold standard for this thesis, See table 5.2
for an overview of how many gold summaries were written for each document
group. See appendix G for the actual gold standard summaries.
To ensure that all participants of the gold standard writing process were working with the same information they were all given the same instructions, see
appendix F. As can be seen in the instructions, all participants were asked to
fill in some personal information, this was to make sure that the demographic
of the participants were somewhat balanced. A balanced demographic would
probably result in greater variety in the written gold standard summaries. But
since the generated summaries are all compared to the same sets of gold standard summaries, no generated summary will have any advantage over any other
summary. As long as multiple document sets are tested, lack of variety in gold
standard summaries should not be of much concern.
30
Age
0 - 30
31 - 60
61 - 90
participants
3
2
2
Table 5.3: An overview of the age distribution of the gold standard summary authors.
Level of Education
Primary
Secondary
Tertiary
participants
1
4
2
Table 5.4: An overview of the distribution of completed educational levels of the gold
standard summary authors.
There were seven participants who wrote gold standard summaries, three
women and four men, for age distribution and the distribution of educational
level see table 5.3 and 5.4.
5.4
Performance Test
The goal of the summarizers is that they should be fast enough to run in query
time. That is, a user should not be kept waiting for an unreasonable amount of
time after the search button is pressed.
Studies have shown that users are willing to wait two seconds for information
retrieval applications to respond [17]. As described in section 1.2 200 document
should be handled by the application. Therefore the summarizers will be tested
at reasonable cluster sizes of about 50 − 70 documents to see if the algorithms
can keep up to the goal speed at 100 documents per second.
31
Part III
Implementation
32
Chapter 6
The Search Engine
This chapter will briefly describe the existing information retrieval products
used in the evaluation and implementation parts of this project.
6.1
Apache Solr
Apache Solr is an enterprise search platform written in Java. It uses Apache
Lucene search library for indexing and searching and provides a simple interface
for its indexing and searching capabilities. It can be incorporated as a servlet
in tomcat and has many features useful for NLP, such as tokenization, token
filtering, stemming etc.
It is also one of the many search engines that Jellyfish supports.
6.2
Jellyfish
Jellyfish acts as an abstraction layer between the search engine and the end-user.
Jellyfish has the benefit that the underlying search engine can easily be swapped
to another supported search engine. It also has the ability to modify the search
query on its way to the search engine and the result on its way to the user.
This makes it possible to improve the search query, change the result and the
representation of the result for the user. For example, clustering the search
result and creating a summary of them.
Since the goal of this joint project is to show a new way to present search result,
one could see the final product for the use case (see section 1.2) as a Jellyfish
module which modifies the appearance of the search result.
33
6.3
Working with a Search Engine
The main focus of the application is that it will interface against a search engine
to get its data. The search engine is utilized for its ability to find documents
relevant to the user query.
In practice, it means that the clustering, labeling and summarization algorithms
will be implemented as filters to and from the search engine going to the web
browser. The JellyFish framework makes this easy, it can run a number of
features. An overall architectural design is described in figure 6.1.
Both clustering, summarization and labeling are all implemented as JellyFish
features and focus on their specific tasks. Figure 6.2 displays the setup. Note
that the preprocessing is moved to index time to save precious execution time,
but in theory it could just as well be kept as a submodule of the various features.
34
Figure 6.1: High level architecture of solution.
Figure 6.2: Architecture of query time components.
35
Chapter 7
The Framework
This chapter will touch on how the algorithms in chapter 4 were implemented
and what preprocessing was used on the input data.
7.1
Document Gathering
The data used in the evaluation of the document clustering algorithm are articles
from the Swedish Wikipedia. The data is taken from a raw dump of all the
articles in XML-format1 , with the article text itself in wikitext format. When
indexing the data we strip the articles from all formatting to get only plain text,
which is then preprocessed.
7.2
Preprocessing
The preprocessing is built as a pipeline of stages which cleans the incoming
data in various ways. These stages are of course something that already exists in
many search engines. But to really be certain of what actually happens and to
stay search engine independent it was decided that most of the preprocessing
would be implemented from scratch.
Each stage takes a variable number of strings as input and outputs a variable
number of strings. By combining the stages in different orders in a pipeline
different results can be achieved.
There are four main types of stages. There are filtering stages, which simply
remove certain text tokens; there are merging stages which reduces the number
of text tokens by merging them; there are mutating stages which alters the
tokens in some way; and finally there are splitting stages which splits tokens
into more tokens. Below, in table 7.1, is a list of the implemented stages.
1
The XML-format is badly documented, but partially described at http://meta.
wikimedia.org/wiki/Help:Export.
36
Step
Type
Tokenizer
Splitting Uses the Stanford NLP “PTBTokenizer”[2] to
split tokens into word tokens.
Splitting Uses the Stanford NLP “WordToSentenceProcessor”[2] along with the
“PTBTokenizer” to split a text into its
sentences.
Splitting Builds n-grams from a series of tokens. The
input “test”, “text” would have the output “test”, “text”, “test text” if the ngram builder would be set to build bigrams.
Sentence
splitter
n-gram builder
Description
Term counter
Merging Finds duplicates of tokens, merges them into
one token and counts their frequencies.
Stop word
remover
Filtering Removes all tokens which matches a predefined
list of known “stop words”, see appendix D for
the full list.
Filtering Removes all tokens that are only made up of
symbols. It does this by removing everything
that matches the following regular expression
^[^a-zA-ZÅÄÖåäö0-9]+$.
Symbols
remover
Lemmatizer
Stemmer
Case
normalizer
Wikitext
stripper
Mutating Uses lemmatization to convert tokens into their
lemmas, or their base form. The lemmatization
module used is an internal Findwise component, which is not open to the public, but it is
a rule based variant which uses a long list of
known words and their lemmas.
Mutating Uses the Swedish stemmer from the Lucene
Snowball Library[1].
Mutating Attempts to normalize the case of characters
such that “Fish” and “fish” will both be “fish”.
Mutating Strips each text token from wikitext, which is
the formatting tagging used by Wikipedia.
Table 7.1: All the implemented stages for preprocessing raw data.
For further details regarding common preprocessing in NLP-applications, see
appendix B.
37
7.3
Clustering Implementation
The clustering implementation expects input documents from the search engine,
which are the result of a search query. It receives these documents and then
preprocessed them using the following pipeline:
Tokenizer → Symbols remover→ Case normalizer→ Stop word remover→
Stemmer→ Term counter
The output is used to calculate the TF-IDF (see appendix C) vector for each
document. Finally it executes the k-means algorithm (Section 2.3) on
√ the
documents. Using the “good rule of thumb” to assign a value to k: k = n/2
[9, p. 365]. Which produces clusters of documents where each document is a
member of exactly one cluster.
7.4
Summarization Implementation
The implementation architecture of the summarizers was as follows:
1. Retrieve clusters from the clustering algorithm
2. For every cluster:
a) Send the cluster to the summarization algorithm
b) Get a summary of desired size from the summarization algorithm
c) Assign the summary to the cluster
The implementation of both the PageRank summarizer and the Cover Coefficient summarizer preprocesses the documents in the following way before any
algorithm specific computation takes place. First they both use the Sentence
splitter stage and then for each resulting sentence they clean and minimize
the term space using this pipeline:
Tokenizer → Case normalizer→ Stop word remover→
Stemmer→ Term counter
This results in a reduced term frequency vector for each sentence, these vectors
are then used to represent the sentences for the summarizers.
38
Part IV
Evaluation Results
39
Chapter 8
Clustering Results
This chapter contains and discusses the results from the evaluation described
in Chapter 4.
8.1
Result
Below, in table 8.2 is the results from the evaluation described in Section 4.2.2
and Section 4.2.3. The random clustering algorithm has also been tested in
order to give a baseline measurement.
The performance test described in Section 4.2.4 was executed with all of the
CPU
Memory
Hard drive
Intel Core 2 Duo Processor SU7300, 1.4 GHz
DDR3 1066 MHz SD RAM, 4 GB
SSD OCZ Vertex 3, 550 MB/s read, 500 MB/s write
Table 8.1: Hardware specifications of target test computer.
k
Test Runs
Algorithm
F-measure
Purity
Average
Stddev
Average
Stddev
2
45
k-means
Random
0.46
0.43
0.09
0.02
0.78
0.77
0.12
0.13
3
120
k-means
Random
0.49
0.37
0.03
0.01
0.66
0.64
0.11
0.12
4
210
k-means
Random
0.48
0.31
0.03
0.01
0.57
0.55
0.09
0.10
5
252
k-means
Random
0.48
0.27
0.04
0.01
0.51
0.47
0.07
0.08
Table 8.2: F-measure and Purity results for the clustering algorithm.
40
corpus documents, generating the results in table 8.3. The input sizes 50, 100,
150, 200, 250 and 300 were tested against the entire corpus. No baseline has
been given in this case, only absolute values to compare against the acceptance
threshold of 100 documents per second. The machine running the performance
tests is a standard consumer laptop with the specifications depicted in table 8.1.
Performance Results
Documents to cluster
Total time (seconds)
Documents / second
50
100
150
200
250
300
313
1372
756
568
1221
352
2014
213
2724
158
3544
121
Table 8.3: Performance results for the k-means clustering algorithm at different document
set sizes. Using a corpus of 429 887 documents.
8.2
Discussion
Inspecting table 8.2 we see that k-means outperforms the random clustering
algorithm on average, although the standard deviation is a bit higher. The data
strongly suggests that we can accept hypothesis 2 from Section 4.2.
However, when manually inspecting the actual clusters that the k-means algorithm produces, the quality is not good enough for the intended purposes of
summarization and labeling. But it is worth to note that the k-means algorithm
is better than random. We believe that there must exist better algorithms than
k-means for this application, see Section 8.2.1.
The strong suite of k-means might not be quality, but it does hold its promise
of performance which can be clearly seen in table 8.3. It is able to cluster up
to 300 documents and still manage te keep under the threshold speed of 100
documents per second. This is much thanks to that all the preprocessing is
done in index-time. The only thing done in query time is simply reading the
term frequency vectors from the search engine, calculating the TF-IDF vectors
from them and then running the clustering algorithm. Hypothesis 3 can be
accepted without a doubt.
Since both hypothesis 2 and 3 are accepted, we can accept hypothesis 1.
8.2.1
Future work
The clustering work of this project is by no means complete. There are many
areas which can be inspected more thoroughly.
41
The most obvious improvement would be a better way to find k for k-means, a
more accurate k would result in higher quality clusters. The current “rule of
thumb” way of determining k is only little better than a guess. A more informed
way of choosing the initial set of centroids might also improve the quality of
the clusters in some cases, good initial centroids makes k-means less likely to
get stuck in a low local maxima. Finally as k-means does not seem to provide
high enough quality clusters, more clustering algorithms could be evaluated. A
higher quality clustering is required for the subsequent algorithms to function
properly.
42
Chapter 9
Evaluation Results of The Summarizers
This chapter will present and discuss the results of the multi-document summarizer evaluation outlined in chapter 5. Using these results, we will attempt
to answer the final question of the problem statement in section 1.1:
Multi-Document Summarization
8. Is it possible to generate multi-document summaries of quality quickly enough
to be usable in query time?
9.1
Results
Table 9.1, 9.2 and 9.3 show the ROUGE scores of the PageRank Summarizer
and Cover Coefficient Summarizer as well as the two baseline implementations:
First Sentences and Random Sentences. ROUGE is a method of measuring
quality of summarizers by looking at the similarity between the generated
summaries and some gold standard summaries written by humans, it was
explained in further detail in section 5.2.3.
The First Sentences summarizer simply takes the first sentence from each
document in the set, then the second sentence from each document and so on
until the length threshold is reached. The Random Sentence summarizer picks
random sentences from the document set, duplicate sentences are not allowed.
The PageRank summarizer and the Cover Coefficient summarizer also boosts
the rank of the sentences that appear early in their documents and sentences
with words that appeared in the heading.
rank = SentenceRankScore 1−bw ⋅ BoostScore bw
BoostScore = ke yBoost ⋅ earl yBoost
ke yBoost = 1 + (kb ⋅ termsInCommonWithHeader)
43
BoostScore = {
eb if sentence is within the first 33% of the document
1
otherwise
After some systematic testing where all combinations of bw = [0.1, 0.2, ⋯, 0.9],
kb = [0.1, 0.2, ⋯, 0.9] and eb = [1.0, 1.5, ⋯, 5.0] were tested, the following
values of the variables: bw (boost weight), kb (key boost) and eb (early boost)
were found to lead to good results.
bw = 0.3
kb = 0.3
eb = 3.0
The result of the performance test can be seen in table 9.4 and 9.5. The first
row of both tables measures the mean time of 100 test runs it took for the
summarizer to summarize a document set of a given size. The second row
of both tables shows at what speed the summarizers summarize at a given
document set size, measured in documents per second.
The documents in the sets are the same documents that were used in the
ROUGE evaluation, see section 5.3 for further information on the properties of
these documents. Each test run uses a set of documents of the given size that
were put together by picking random documents from the entire document set,
until the size the set was of the given size.
For specifications of the performance test computer see table 9.6.
9.2
Discussion
The Cover Coefficient summarizer constantly outperforms the PageRank summarizer in both quality and performance, though only slightly. However the
First Sentence summarizer seem to get almost as good results as the Cover
Coefficient summarizer. The First Sentence summarizer is of course much
easier to implement and runs a lot faster than the more sophisticated summarizers. Since the First Sentence and Random Sentence summarizers only pick
sentences until the threshold length is reached their running time does not
scale with the size of the document set.
But why use sophisticated solutions when the First Sentence summarizer is just
as good? Since all articles used in the evaluation test were news articles the vast
majority of them started with a few sentences which summarized that article.
44
ROUGE-1
Max Length (Words)
PageRank
Cover Coefficient
First Sentences
Random Sentences
100 (CI95%)
150 (CI95%)
200 (CI95%)
0.28 (0.23-0.32)
0.32 (0.27-0.36)
0.33 (0.29-0.37)
0.18 (0.14-0.22)
0.28 (0.23-0.32)
0.31 (0.27-0.35)
0.31 (0.27-0.35)
0.18 (0.14-0.23)
0.26 (0.22-0.30)
0.28 (0.24-0.31)
0.28 (0.24-0.32)
0.16 (0.12-0.20)
Table 9.1: The ROUGE-1 scores for the summarization algorithms, at different summary
sizes with a 95% confidence interval for each score.
ROUGE-2
Max Length (Words)
PageRank
Cover Coefficient
First Sentences
Random Sentences
100 (CI95%)
150 (CI95%)
200 (CI95%)
0.09 (0.06-0.11)
0.13 (0.10-0.16)
0.12 (0.09-0.15)
0.02 (0.01-0.03)
0.10 (0.07-0.13)
0.12 (0.09-0.15)
0.12 (0.09-0.14)
0.02 (0.01-0.03)
0.10 (0.07-0.12)
0.11 (0.09-0.14)
0.11 (0.08-0.13)
0.02 (0.01-0.03)
Table 9.2: The ROUGE-2 scores for the summarization algorithms, at different summary
sizes with a 95% confidence interval for each score.
ROUGE-S4
Max Length (Words)
PageRank
Cover Coefficient
First Sentences
Random Sentences
100 (CI95%)
150 (CI95%)
200 (CI95%)
0.06 (0.04-0.08)
0.09 (0.07-0.12)
0.09 (0.06-0.11)
0.01 (0.01-0.02)
0.08 (0.05-0.10)
0.09 (0.07-0.11)
0.08 (0.06-0.10)
0.01 (0.01-0.02)
0.07 (0.05-0.09)
0.09 (0.07-0.11)
0.08 (0.06-0.10)
0.01 (0.01-0.02)
Table 9.3: The ROUGE-S4 scores for the summarization algorithms, at different summary
sizes with a 95% confidence interval for each score.
Performance - PageRank
Document Set Size
10
20
30
40
50
60
70
Running time (sec)
Documents/Second
0.097
103
0.261
77
0.408
74
0.580
70
0.827
60
1.147
52
1.395
50
Table 9.4: The performance result of the PageRank based summarization algorithm, the
results are the average out of 100 test runs at different document set sizes.
45
Performance - Cover Coefficient
Document Set Size
10
20
30
40
50
60
70
Running Time (sec)
Documents/Second
0.100
100
0.217
92
0.376
80
0.551
73
0.711
70
0.891
67
1.099
64
Table 9.5: The performance result of the Cover Coefficient based summarization algorithm,
the results are the average out of 100 test runs at different document set sizes.
CPU
Memory
Intel Core i3 CPU M350, 2.27GHz
DDR3 1334 MHz SDRAM, 8 GB
Table 9.6: Hardware specifications the performance test computer.
It would not be out of the question to assume that those sentences might also
be quite good to use in a summary for the entire article set, if the article set is
cohesive. If this is the case we can assume that the First Sentence summarizer
will do much worse when the articles do not include this summary. If it is
known that the document sets will have short summaries at the beginning of
each document, using these sentences will do just as well as a more sophisticated
solution, while also being much faster.
However, for more varied document sets, we would be better off using a more
advanced summarizer. Since the PageRank summarizer and the Cover Coefficient summarizer perform equally well as the First Sentence summarizer
without using the summary at the beginning of each document, it is reasonable
to assume that they would produce just as good summaries for documents
that do not include summaries at the beginning. This is of course not true
for the First Sentence summarizer which assumes that the beginning of each
document is good to use as a summary, it would thus not perform as good in
that case.
Both the PageRank summarizer and the Cover Coefficient summarizer are
however significantly better at producing quality clusters than the random
summarizer. This means that they are able to find many important sentences for
their summaries. Since neither of them had been tested on Swedish documents
earlier, their language independence has now been confirmed for yet another
language.
One thing that might improve the results further would be splitting the Swedish
compound words, Swedish uses compound words at many places where English
would simply use its constituents. This is problematic since it drives up the
46
term space which muddles down the statistical analysis of the words, without
providing much additional information [7].
Another observation is that the ROUGE steadily gives less score the longer
the summaries get. This is to be expected since the summarizers rank the
sentences on how appropriate they are to use in a summary, this means that
the longer the generated summaries are the more lower ranking sentences have
to be included. The lower ranking sentences will thus bring down the score
of the entire summary, since the ROUGE scores presumably also thinks those
sentences are worth less.
For the summarizers to be fast enough they must be able to summarize at at
least: 100 documents per second, see section 5.4. The performance test shows
that neither summarizer is fast enough for running in query time, with the
given requirements. This means that the summarizers could be used for query
time summarizing, but that they would likely be perceived as slow by the users,
especially at larger cluster sizes.
9.2.1
Future Work
The result shows that the multi-document summarizers can be implemented
to generate what appears to be summaries of reasonable quality and that they
are almost fast enough to be used satisfactory in query time of an information
retrieval application. This kind of search result is thus just barely viable from
an usability standpoint. What also needs to be shown is how useful this kind
of search result would be for the actual user, an extrinsic evaluation of the
summarizers would next logical step from this thesis.
It seems like the summarizers are too slow to be used in query time for larger
document groups. Thus even faster summarizers might be needed for summarizations of search results that require greater document set sizes. A study to
find faster summarizers is needed for query time summarization to be practical.
47
Chapter 10
Conclusion
The results show that the summarization algorithms are able to generate summaries of good quality. But that they are not quite fast enough and will usually
take longer than two seconds to perform their task. The quality of the summarizers during the evaluation has however now confirmed that the algorithms
perform reasonably well on Swedish texts, affirming the claim the summarizers
are language independent.
It would be viable to use these summarization algorithms if some of the requirements that were put forward in the use case (section 1.2) were lifted. If
the number of documents in the result were halved from 200 to 100 both summarization algorithms would be quick enough to be used at query time, as the
required speed drops from 100 documents/second to 50 documents/second.
The clustering implementation however seems to only be slightly better than
the random baseline. We can therefore speculate that it does not perform
well enough to be perceived as accurate by a user, though this has yet to be
confirmed. If a clustering algorithm was to be found that is about as fast as
k-means but able to produce higher quality clusters this should be of great
interest to anyone who plans to implement the kind of search result illustrated
by the use case in section 1.2.
The greatest problem facing an implementation of this new search result, is
probably producing quality clusters. Since the summarizers uses the clusters
as input they must necessarily be of high quality. No matter how good a
summarizer is, if the input is not cohesive enough it may be impossible to
summarize the documents. Finding sentences that are central to the documents
is meaningless if there is no central message to begin with.
48
Bibliography
[1]
Lucene Snowball Stemmer. Version 2.4.0; http://snowball.tartarus.
org/.
[2] Stanford CoreNLP: A Suite of Core NLP Tools, September 2011. Version
1.2.0; http://nlp.stanford.edu/software/corenlp.shtml.
[3] N.O. Andrews and E.A. Fox. Recent developments in document clustering.
2007.
[4] D. Arthur and S. Vassilvitskii. k-means++: The advantages of careful
seeding. In Proceedings of the eighteenth annual ACM-SIAM symposium
on Discrete algorithms, pages 1027–1035. Society for Industrial and Applied
Mathematics, 2007.
[5] S. Brin and L. Page. The anatomy of a large-scale hypertextual web search
engine. Comput. Netw. ISDN Syst., 30(1-7):107–117, April 1998.
[6] F. Can and E. A. Ozkarahan. Concepts of the cover-coefficient-based
clustering methodology. In SIGIR, pages 204–211, 1985.
[7] R. Cöster, M. Sahlgren, and J. Karlgren. Selective compound splitting of
Swedish queries for boolean combinations of truncated terms. Comparative Evaluation of Multilingual Information Access Systems, pages 337–344,
2004.
[8] G. Ercan and F. Can. Cover coefficient-based multi-document summarization. Advances in Information Retrieval, pages 670–674, 2009.
[9] K. Mardia et al. Multivariate Analysis. Academic Press, 1979.
[10] M. Hassel. Resource Lean and Portable Automatic Text Summarization.
PhD thesis, School of Computer Science and Communication, Royal
Institute of Technology, Stockholm, Sweden, June 2007.
[11] M. Konchady. Building Search Applications: Lucene, LingPipe, and Gate.
Musée d’art contemporain de Montréal, 2008.
49
[12] C.Y. Lin. Rouge: A package for automatic evaluation of summaries. In
Proceedings of the workshop on text summarization branches out (WAS
2004), volume 16, 2004.
[13] C.Y. Lin and E. Hovy. Automatic evaluation of summaries using n-gram
co-occurrence statistics. In Proceedings of the 2003 Conference of the
North American Chapter of the Association for Computational Linguistics
on Human Language Technology-Volume 1, pages 71–78. Association for
Computational Linguistics, 2003.
[14] C.D. Manning, P. Raghavan, and H. Schutze. Introduction to information
retrieval, volume 1. Cambridge University Press Cambridge, 2008.
[15] R. Marxer, H. Purwins, and A. Hazan. An f-measure for evaluation of
unsupervised clustering with non-determined number of clusters. Report
of the EmCAP project (European Commission FP6-IST, contract 013123),
http://mtg. upf. edu/files/publications/unsuperf. pdf, pages 1–3, 2008.
[16] R. Mihalcea and P. Tarau. A language independent algorithm for single and
multiple document summarization. In Proceedings of IJCNLP, volume 5,
2005.
[17] F.F.H. Nah. A study on tolerable waiting time: how long are web users
willing to wait? Behaviour & Information Technology, 23(3):153–163, 2004.
[18] M. Rosell. Introduction to text clustering. CSC KTH, 2008.
[19] L.K.P.J. Rousseeuw. Clustering by means of mediods. Statistical data
analysis based on the L1-norm and related methods, page 405, 1987.
[20] W.S. Sarle. Algorithms for clustering data. Technometrics, 32(2):227–229,
1990.
[21] M. Steinbach, G. Karypis, V. Kumar, et al. A comparison of document
clustering techniques. In KDD workshop on text mining, volume 400,
pages 525–526. Boston, 2000.
50
Appendix A
Similarity and Distance Measures
Similarity/Distance is a function of two documents, they are two ways to measure the same thing, both being each others inverse most of the time. Distance
is low if similarity is high and vice versa. There are many ways to measure
the similarity between documents but most depend on how the documents
themselves are represented.
Most commonly the documents are represented as weighted vectors using the
vector space model (appendix C.1), this makes it possible to use generic vector
similarity measures. Typically one wants to normalize the similarity measure
to the 0 − 1 range, to make comparison easier.
A.1
Euclidean Distance
The most well known distance measure is of course the euclidean distance [11].
This similarity measure is problematic if the vectors are derived from the vector
space model. In that case the vectors with many terms becomes longer while
shorter documents has shorter vectors, shorter documents would therefore
always seem to be dissimilar from longer documents even though they cover
the same topic.
The length of a document has little correlation with the content of the document.
Therefore a more useful similarity measure should focus on the contents of the
documents and disregard the length of the documents.
A.2
Cosine Similarity
While euclidean distance takes the length of the documents into account cosine
similarity does not. If the documents has a similar proportion of terms they
will be regarded as similar by cosine similarity.
Cosine similarity simply calculates the cosine angle of the two vectors, a low
51
angle signifies high similarity. If the vector space model is used, then no
elements in the vectors can be negative. That being the case the angle θ of the
two vectors can only be within the range of: 0○ ≤ θ ≤ 90○ . The angle being 90○
when the documents has nothing in common and 0○ in the case of a perfect
match, the cosine of those angles will normalize the range to 0 ≤ cos(θ) ≤ 1
[18].
CosineSimilarity(d i , d j ) =
A.3
di ○ d j
∥d i ∥ ⋅ ∥d j ∥
=
1
∑ d i w k, j
∥d i ∥ ⋅ ∥d j ∥ k
Jaccard Similarity
The Jaccard similarity is similar to the cosine similarity, except that the frequencies are discarded. It works merely with sets of words, a word either exists or it
does not exist in a document. Consider the set A and B to be the sets of words
from the two documents being compared, then the Jaccard similarity can be
calculated as seen in equation A.1 [11].
Jaccard(A, B) =
A.4
∣A ∩ B∣
∣A ∪ B∣
(A.1)
Dice Similarity
A close relative to the Jaccard similarity is the Dice similarity. It boosts the
numerator with a factor of 2 and lets the denominator be the sum of the number
of terms in the sets instead, see equation A.2 [11].
Dice(A, B) =
52
2 ∣A ∩ B∣
∣A∣ + ∣B∣
(A.2)
Appendix B
Preprocessing
The preprocessing step is extremely important, it modifies the document into
a information dense set of features. Without a good preprocessing of the
documents any Natural Language Processing (NLP) algorithm will have a hard
time producing anything useful out of them.
The purpose of the preprocessing step is to modify the documents in such a
way that the space of possible documents is reduced while keeping as much of
the relevant information as possible.
The features of the document relevant to the content should be highlighted
while less relevant features of the content should be reduced or removed. Some
features might reflect a similar piece of information in the content. The members of those feature groups should often be merged into a single feature so
that their importances are highlighted, and not regarded as several features of
lesser significance.
A document is most often represented as a sequence or as a set of terms. This
means that in practice the objective of the preprocessing is to reduce the number
of possible terms without losing or distorting too much information.
For clarity the examples given of the different preprocessing steps will be given
with English words, but they apply equally well to Swedish words.
B.1
Stemming
Stemming is a way to group some derivations of the same word to a single term,
a stem [14]. The words in the group are then replaced by the common stem
and thus reducing the term space. The stemmer does this by removing parts
of the words that differ. For example: “fish”, “fishes”, “fishing” and “fisher” can
all be stripped down to their common stem: “fish”. This is a technique where
several related document features (terms) are merged into a single feature.
53
B.2
Lemmatization
Lemmatization is a more proper way of merging terms than stemming [14].
It attempts to find the base form (lemma) of the word. This reduces the term
space just as stemming does, but it maintains the readability of the word.
B.3
Stop Word Removal
Another way to make the term space smaller is to remove certain terms. Many
terms are with information of what the document might be about: such as “car”,
“driving” and “race”. While some carry almost no information and has little use
other than binding the sentences together, such as: “the”, “and” and “then”.
Stop word removal means removing words low on information, often from a
predefined list. See appendix D for the list used in this thesis.
54
Appendix C
Document Representation
C.1
The Vector Space Model
The most common way to represent documents is the vector space model. In
this model each document is represented as a vector and each dimension of
that vector corresponds to a term, each term is its own feature. As the order of
the words is not a part of the model it is often called a “bag of words” model.
Each element of a term space vector is usually weighted by the “importance” of
the term of that dimension. But what makes a term important to a document
and how can we determine if it is? Since the objective of the vector space model
is to represent the document, a term that is representative of the content of the
document should be regarded as important.
The most trivial way to weight such a vector is by the term frequencies, in this
case each element of the vector contains the absolute frequency of that term in
that document. This seems like a good solution, it makes sense that important
terms are frequently repeated in the document.
This is a rather naïve approach, many words appearing commonly in many
documents do not reveal important information about the content of the documents. Simple term frequency vectors do indeed give high scores to important
terms, but they also give high scores to other words common in the document,
limiting the value of this weighting scheme.
C.1.1
TF-IDF
A more powerful way to weight the term vector is by term frequency – inverse
document frequency, or TF-IDF for short. Each element of a TF-IDF vector is
the term frequency of that term divided by the number of documents the term
appears in, see equation C.1. This weighting scheme has two useful properties;
words that appear in many documents are given a low weight while words
that appear frequently in just a few documents are given a greater weight. In
other words it highlights the differences of rare words between documents
55
while caring less about words common in many documents. Words with high
TF-IDF scores in a document are most likely keywords of that document.
tfidf(t) =
term frequency(t)
document frequency(t)
(C.1)
But while TF-IDF is usually a useful way to represent documents, one must
keep in mind that the TF-IDF scoring of documents depends on the other
documents in the document group. If all documents in the document group
contain the word “football” for example, it would score low on all documents,
but might still in a sense be an important word.
56
Appendix D
List of Stop Words
Following is a list of the stop words used in the data preprocessing used in the
implementation.
och, i, av, en, som, att, till, den, på, för, med, är, det, de,
ett, om, har, hade, vid, var, och, även, kan, kunde, hos, flera,
han, hon, honom, hennes, henne, hans, jag, sig, du, då, ej, vi,
sedan, vilkas, era, ert, så, sådana, vilken, samma, deras, oss,
från, under, efter, inte, men, man, eller, sin, sina, sitt, mot,
blev, över, dess, dessa, detta, finns, mellan, också, när, bland,
genom, där, skulle, dock, fick, samt, inom, denna, olika, ut,
än, vilket, annat, var, vara, senare, mycket, s, annat, vilket,
ha, in, alla, många, utan, stora, upp, enda, flest, bli, blir,
blivit, medan, medans, måste, vad, vill
57
Appendix E
Sources of the Articles
Used in the Evaluation of MDS:s
The articles were taken from various Swedish newspapers but most of them are
from Dagens Nyheter. Since these articles are not in the public domain only
links can be provided. They were last accessed 2012-05-23.
E.1
The Death of Khaddafi
http://www.dn.se/ledare/signerat/khaddafis-drom-om-socialism-blev-en-libysk-mardrom
http://www.dn.se/nyheter/varlden/khaddafi-valde-sitt-eget-slut--med-vapen-i-hand
http://www.dn.se/nyheter/varlden/khaddafi-ar-dod
http://www.dn.se/nyheter/varlden/befalhavaren-ingen-vet-vem-som-skot-khaddafi
http://www.dn.se/nyheter/varlden/khaddafi-skots-med-sin-egen-gyllene-pistol
http://www.dn.se/nyheter/varlden/khaddafi-far-enkel-begravning
http://www.dn.se/nyheter/varlden/omvarlden-valkomnar-rapporter-om-gripandet
http://www.dn.se/nyheter/varlden/khaddafi-libyen-kommer-att-brinna
http://www.dn.se/nyheter/varlden/nya-uppgifter-om-khaddafis-dod
http://www.dn.se/nyheter/varlden/fn-vill-utreda-khaddafis-dod
http://www.dn.se/nyheter/varlden/han-berattar-om-khaddafis-sista-tid
E.2
The Death of Kim Jong-Il
http://www.dn.se/nyheter/varlden/kim-jong-il-dod
http://www.dn.se/nyheter/varlden/forsvara-kim-in-i-doden
http://www.dn.se/nyheter/varlden/avhoppare-tror-pa-revolt-i-nordkorea
http://www.dn.se/nyheter/varlden/krismoten-efter-kim-jong-ils-dod
http://www.dn.se/nyheter/varlden/hundratals-tjansteman-redan-avrattade
http://www.dn.se/nyheter/varlden/kim-jong-un-utsedd-till-ob
http://www.dn.se/nyheter/varlden/kim-jong-ils-begravning-en-bild-av-enighet
http://www.dn.se/nyheter/varlden/nordkorea-tar-farval-av-kim
http://www.dn.se/nyheter/varlden/farbror-far-nyckelroll-i-nordkoreas-regering
http://www.dn.se/nyheter/varlden/naturen-sorjer-kim-jong-il
http://www.dn.se/nyheter/varlden/icke-gratande-nordkoreaner-sands-till-arbetslager
http://www.dn.se/nyheter/varlden/brodern-ifragasatter-kim-jong-un
http://www.dn.se/nyheter/varlden/myterna-frodas-om-overjordisk-ledare
58
E.3
Juholt’s Resignation
http://www.aftonbladet.se/nyheter/article14247180.ab
http://www.dn.se/nyheter/politik/kallor-till-dnse-juholt-avgar
http://www.dn.se/nyheter/politik/live-juholts-presskonferens-i-oskarshamn
http://www.expressen.se/nyheter/hakan-juholt-avgar-som-partiledare/
http://www.svd.se/nyheter/inrikes/juholt-avgar-som-partiledare_6786963.svd
http://www.svd.se/nyheter/inrikes/juholt-jag-avgar-som-partiledare_6786823.svd
http://www.sydsvenskan.se/sverige/article1603039/TV-Hakan-Juholts-presskonferens.html
http://www.unt.se/ledare/juholts-avgang-var-ofrankomlig-1640067.aspx
E.4
The Knutby Murders
http://www.dn.se/nyheter/sverige/knutbypastorn-overklagar-till-hd
http://www.dn.se/nyheter/sverige/pastorns-advokat-kraver-rattvis-behandling
http://www.dn.se/nyheter/sverige/allt-talar-for-livstid-for-pastorn
http://www.dn.se/nyheter/sverige/vittnen-i-knutby-pressas
http://www.dn.se/nyheter/sverige/barnflickan-var-inte-psyksjuk
http://www.dn.se/nyheter/sverige/aklagaren-kravde-livstid-for-barnflickan
http://www.dn.se/nyheter/sverige/knutby-jag-alskade-asa-hon-var-profeten-och-jag-lararen
http://www.dn.se/nyheter/sverige/experter-fortsatt-oense-i-knutbymalet
http://www.dn.se/nyheter/med-bibeln-vid-vags-ande
http://www.dn.se/nyheter/sverige/barnflickan-jag-levde-i-en-knapp-varld
E.5
The Murder of Anna Lindh
http://www.aftonbladet.se/nyheter/article10395645.ab
http://www.aftonbladet.se/nyheter/article10395504.ab
http://www.dn.se/nyheter/sverige/utredningen-om-mordet-pa-anna-lindh-klar
http://www.dn.se/nyheter/sverige/lindhmordet-i-ratten-20-januari
http://www.dn.se/nyheter/sverige/atal-for-lindhmordet-i-januari
http://www.dn.se/ledare/huvudledare/tomheten-efter-anna-lindh
http://www.dn.se/nyheter/sverige/laget-kritiskt-for-anna-lindh
http://www.dn.se/nyheter/politik/anna-lindh-hyllad-nar-riksdagen-oppnade
http://www.dn.se/nyheter/anna-lindh-fick-hotbrev-fore-mordet
http://www.dn.se/ledare/signerat/anna-lindh-var-en-stor-utrikespolitiker
E.6
The Pirate Bay Trail
http://www.dn.se/kultur-noje/nyheter/provningstillstand-for-pirater-efter-javsanklagelser
http://www.dn.se/kultur-noje/musik/sunde-de-skiter-i-vad-vi-gor-sa-lange-vi-lyder
http://www.dn.se/kultur-noje/nyheter/forsvaret-riv-upp-piratdomen
http://www.dn.se/kultur-noje/nyheter/ingen-pirate-bay-rattegang-forran-i-sommar
http://www.dn.se/fordjupning/europa-2009/pirate-bay-atalade-polisanmaler-upphovsrattsorganisation
http://www.dn.se/nyheter/sverige/inget-jav-i-pirate-bay-mal
http://www.dn.se/kultur-noje/nyheter/forsvaret-piratdomaren-maste-tala
http://www.dn.se/kultur-noje/musik/advokatbyra-i-pirate-bay-malet-polisanmaler-betalningsattack
http://www.dn.se/kultur-noje/musik/ihrfeldt-ny-pirate-bay-domare
http://www.dn.se/kultur-noje/musik/skivbolag-trappar-upp-striden-mot-pirate-bay
59
E.7
(SD) Enters Riksdagen
http://www.aftonbladet.se/debatt/article12513706.ab
http://www.dn.se/nyheter/politik/sd-i-fokus-i-partiledardebatten
http://www.dn.se/nyheter/politik/krav-pa-utredning-pa-sd-dagar
http://www.dn.se/nyheter/politik/i-huvudet-pa-sds-partiledarehttp://expo.se/2010/sverigedemokraterna-i-riksdagen_3369.html
http://expo.se/2010/valanalys-darfor-kom-sverigedemokraterna-in-i-riksdagen_3364.html
http://www.dn.se/nyheter/valet-2010/alliansen-segrar--sd-blir-vagmastare
E.8
The Tsunami in Japan 2011
http://www.dn.se/nyheter/varlden/omkring-2000-doda-hittade
http://www.dn.se/nyheter/varlden/japaner-emot-nystart-av-reaktorer
http://www.dn.se/nyheter/varlden/svensk-lamnade-tokyo-for-ny-jordbavning-i-shizouka
http://www.dn.se/nyheter/varlden/tio-ganger-forhojda-varden-i-tokyo
http://www.dn.se/nyheter/varlden/japaner-vill-skrota-karnkraften
http://www.dn.se/nyheter/varlden/michiko-saito-83-visar-sitt-motstand-varje-eftermiddag
http://www.dn.se/nyheter/varlden/karnkraften-ar-sjalvmord-for-japan
http://www.dn.se/nyheter/varlden/tio-ar-av-uppbyggnad-vantar-for-tsunamidrabbade
http://www.dn.se/nyheter/varlden/storre-lackor-an-vantat-fran-japansk-reaktor
http://www.dn.se/nyheter/varlden/japan-siktar-pa-en-framtid-utan-karnkraft
60
Appendix F
The Instructions for the Writing of
the Gold Standard Summaries
Since Swedish were the mother language of all the participants in the gold
standard summary writing process, the instructions were written in Swedish.
However an English translation is also available, for the English speaking
readers.
61
Instruktioner
1. Läs samtliga artiklar i häftet — artiklarna handlar alla om samma nyhetshändelse.
2. Skriv en sammanfattning på 6-12 meningar, ta med det du tycker verkar viktigt.
3. Kolla så all information i sammanfattningen står i någon av artiklarna. Du får
inte skriva om sånt som inte nämns i artiklarna!
4. Skriv ner dessa punkter om dig själv:
a) Namn
b) Ålder
c) Utbildning
d) Yrke/Sysselsättning
5. Skicka in din sammanfattning och personuppgifterna ovan till min mail adress:
[email protected].
Sammanfattningarna kommer användas i mitt civilingenjörsexamensarbete.
Tack för hjälpen, din insatts kommer vara till stor nytta!
— Carl-Oscar Erneholm
62
Instructions
1. Read all articles in this document — they are all about the same topic.
2. Write a summary about 10-12 sentences long. Remember to include that which
you think is important!
3. Check so that all the things you bring up in the summeray can be found somewhere in the articles. You may not write about stuff that aren’t in any article.
4. Write down these things about yourself:
a) Name
b) Age
c) Education
d) Work/Occupation
5. Send your summary and the personal information to my mail: [email protected].
The summaries will be used in my Masters thesis.
Thanks for your help, your effort will be of great use to me!
— Carl-Oscar Erneholm
63
Appendix G
The Gold Standard Summaries
G.1
The Death of Khaddafi
G.1.1
1
I dryga fyrtio år höll Khaddafi Libyen som gisslan för sin privata maktutövning.
Ekonomisk vanskötsel blandades med terror mot den egna befolkningen och
omvärlden. Oppositionella har trakasserats, torterats och avrättats. Den före
detta översten och diktatorn fångades i ett avloppsrör i sin födelsestad Sirte, som
tagits över av NTC-styrkor. Han fångades efter ett misslyckat flyktförsök från
staden. Han träffades sedan av skott mot huvudet och kroppen fördes till staden
Misrata. Det är dock oklart hur det gick till när han dog. Övergångsregeringen
planerar att begrava Muammar Khaddafi på en hemlig plats.
G.1.2
2
Kaddafis regim hade kunnat vara ytterligare fyra decennier om det inte hade
varit för den arabiska våren. Kaddafi tillträdde 1969, samma år som Pippi på de
sju haven spelades in. Detta skedde genom statskupp nästan utan blodspillan.
Det var då få som kände till honom vid hans tillträdande. Libyan var vid
Kaddafis tillträdande mer rikt än Sverige, tack vare Olje pengar. Ekonomisk
vanskötsel tillsammans med terror förändrade detta. Missnöjet med Kaddafi uppstod i slutet av sjuttiotalet. Allt eftersom stödet hos hans undersåtar minskade,
fick han förlita sig på små vältrände elitförband av libyer. Under inbördeskrigets
sista månader, sände han sina budskap via radio och TV kanaler i Syrien. Han
ville inte fångas på samma sätt som Sadam Hussein, likheterna var dock stora,
då han hittades och tillfångatogs i ett rör. Omständigheterna hur han dog är
oklara. Det sägs att han kan ha dödats med sin egna gyllene pistol.
64
G.2
The Death of Kim Jong-Il
G.2.1
1
69-åriga Kim Jong-II, Nordkoreas ledare, har avlidit. Orsaken är enligt obduktionen hjärtinfarkt tillsammans med hjärtstopp pga fysisk och psykisk
överansträngning. Kim Jong-II framstod som en slipad politiker med full
kontroll över sina undersåtar. Nationell sorgetid har utlysts och av den två
dagar långa begravningsceremonin var det tydligt att enighet rådde i landet
om saknaden av Kim Jong-II. Efter ceremonins avslutande kom de som inte
deltog att föras bort till speciella "arbetsläger", eftersom regeringen tilldömde
dessa minst sex månaders straffarbete. Hela folket bör ge sin fulla tillit till den
unge Kim Jong-Un, som utnämnts till överbefälhavare efter sin far. Mindre
än en timme efter beskedet om Kim Jong-IIs död påbörjades aktiviteter i flera
länder i omvärlden. Experter menar att militären är den starkaste maktfaktorn
i Nordkorea och att det är sannolikt att Kim Jong-Un kommer att visa sin styrka
därigenom. Detta genom att trappa upp provokationerna mot Sydkorea för att
se starkare ut inrikespolitiskt, något som dock inte tycks skett, ännu. Sydkorea
oroar sig för om Kim Jong-Un skulle känna sig hotad på hemmaplan med
tanke på landets tillgång till kärnvapen.Nordkoreaner som flytt landet hoppas
istället på att folket ska resa sig mot regimen för att bli kvitt den tortyr, svält och
hunger som råder. Amnesty ser en möjlighet till ett mer demokratiskt styre,
dock visar färska rapporter motsatsen, hundratals tjänstemän som ansetts som
ett hot mot Kim Jong-Un har t.ex "rensats" av regeringen.
G.2.2
2
Nordkoreas ledare Kim-Jong II har avlidit av en svår hjärtinfarkt under an av
sina vägledningsresor. Han efterträds av sin 30-årige son Kim-Jong Un som
upphöjs till högste militäre ledare. Nordkoreas ekonomi försämrades för andra
året i rad 2010, fattigdomen och livsmedelsbristen är stor. Militären är den
viktigaste maktfaktorn i Nord-Korea. I japan tillkallades en krisgrupp och
USA följet utvecklingen noga. Kim Jong IIs begravning visar på en bild av
enighet. Naturen sörjer Kim-Jong II och icke gråtande nordkoreaner sändes
till arbetsläger. Kim-Jong Un är en stor begåvning som lärde sig köra bil som
3-åring och under sin första golfrunda slog åtta eller om det var sjutton holein-one.
G.2.3
3
Nordkoreas ledare Kim Jong- II har avlidit uppger landets statliga television,
på grund av Fysisk och psykisk överbelastning, berättade en gråtande nyhetsp-
65
resentatör. Tortyr. Svält. Sjukdomar. Nordkoreaner som flytt landet vittnar om
vidriga förhållanden i regimens fångläger. Då Kim Jong- II kom till makten
1994 skickades tiotusentals personer till fångläger. Inte mycket behövdes för
att göra sig ovän med regimen. Människor angav varandra och ibland räckte
det att vara släkt med någon som uppfattades som potentiellt hot för att själv
tillfångatas. Politiska motståndare avrättades, ofta efter inga eller mycket bristfälliga rättegångar. Under de 17 år som passerat har lägren kraftigt expanderat.
I maj i år rapporterade Amnesty att uppskattningsvis 200.000 personer sitter
i slavliknande förhållanden. Matransonerna de får är så små att de drygar
ut måltiderna med ormar och råttor. Enligt statliga medier efterträds Kim
Jong- II av sonen Kim Jong- Un. Direkt efter faderns död pekades han ut som
efterträdare och landets högste ledare. Nu har han även utsetts till högste ledare
för landets väpnade styrkor. Det är en arme på 1,2miljoner soldater. Amnestys
förhoppning är att Kim Jong- Uns maktövertagande ska leda till ett öppnare
Nordkorea där mänskligare rättigheter bättre tas tillvara. Dessvärre tyder det
mesta just nu på att motsatsen sker. Bakom Kim Jong- Un vid begravningsceremoni gick hans farbror, den inflytelserike Jang Song Thaek, som klättrat snabbt
i hierarkin de senaste åren. Denne tros allmänt bli den unge arvtagarens främste rådgivare. Sorgeceremonierna i Nordkorea efter diktatorn Kim Jong- IIs
uppges ha avslutats. Nu följer bestraffningarna av de Nordkoreaner som inte
medverkade på föreskrivet sätt i det kollektiva gråtandet, hävdas i rapport från
Sydkorea.
G.3
Juholt’s Resignation
G.3.1
1
Håkan Juholt avgår meddelade han på en presskonferens i Oskarshamn på
lördagseftermiddagen. Hans avgång var väntad. Carin Jämtin tar tillfälligt över
ledarskapet. Juholt har haft problem ända sedan han valdes på en extrakongress
25 mars 2011. Återkommande problem har varit att han påstått saker som senare
visats vara felaktiga. Han medger att han har gjort misstag och vill nu inte stå i
vägen för den nystart som Socialdemokraterna så väl behöver.
G.3.2
2
Efter bara tio månader avslutades Håkan Juholts tid som S-ledare. Håkan Juholt
har haft problem ända sedan han valdes till partiordförande på en extrakongress
i Stockholm den 25 mars 2011. Redan i installationstalet hävdade han att de
stora fackförbunden och partiet skulle överlägga om Pensionssystemet vilket
avvisades från fackligt håll. Vidare avslöjades att hans sambo är dömd för
66
bedrägeri, vilket Juholt aldrig berättat för valberedningen, Några dagar senare
blir det känt att sambon bott i flera år på skattebetalarnas bekostnad i den
gemensamma lägenheten. Ett återkommande problem för Juholt har varit att
han har påstått saker som sen visat sig felaktiga. Efter en månads semester kommer Juholt tillbaka ” som en ny människa” men klantar till det på en gång när
han i Sälen anklagade regeringen för att ha gjort upp med Sverigedemokraterna
redan 2009, när partiet inte fanns i riksdagen. Till sist blev avgången ofrånkomlig. Håkan Juholt avgår omedelbart som partiledare för Socialdemokraterna.
Juholt lämnar själv beskedet på en presskonferens i Oskarshamns Köpcentrum
Flanaden. Jag har gjort misstag som partiordföranden. Hur stora dessa är, det
får framtida forskning avgöra.
G.4
The Knutby Murders
G.4.1
1
Pastorn Helge Fossmo var åtalad för mord på sin första hustru och anstiftan
till mord dels på sin andra hustru och dels på sin granne. Barnflickan Sara
Svensson som hade ett förhållande med pastorn utförde mordet på hans andra
hustru och mordförsöket på grannen. Hon bedöms av vissa experter som
psykiskt sjuk och genomfört dåden under inflytande av pastorn. Experterna
oense om det första mordet verkligen var mord eller om det var olyckshändelse.
Helge Fossmo döms av Hovrätten till livstids fängelse och barnflickan Sara
Svensson dömdes till rättspsykiatrisk vård. Helge Fossmo överklagar och sätter
sitt sista hopp till Högsta domstolen (HD).
G.4.2
2
Pastorn för Knutbys pingstförsamling ,Helge Fossmo, döms till livstids fängelse
för anstiftan till mord på sin hustru samt till sin älskarinnas make. Barnflickan
Sara Svensson fälls till rättspsykiatrisk vård för mordförsök och mord på pastorns hustru samt mordförsök på pastorns älskarinna. Historien om Knutbys
församling har många sidor, varav tingsrätten tror på historien om att Fossmo
lurade Svensson att mörda på Guds begäran. I Svenssons beskrivning menar
hon att hon var en slav som levde under Fossmos befallning. Åsa Waldau,
även benämnd kristi brud, pekar också ut Fossmo som boven i dramat och
den som låg bakom hela planen. Knutbyförsamlingen har kallats som vittnen,
men då alla i församlingen följer samma agenda är det svårt att se vad som är
sanningen och var som är lögn då de kan välja att peka ut eller skydda vem
som helst. Efter informationen om att Fossmo vara otrogen så ändrades deras
historia avsevärt till exempel. Fossmos första fru dog efter ett fall i badkaret
67
som krossade hennes skalle, något som man nu utreder igen för att se om
det verkligen var en olycka eller ej. Dock har forskare och läkare inte lyckats
framställa tydligt bevismaterial och de är oense om hur det verkligen har gått
till. Två rättspsykiatriska undersökningar visar att Svensson lider av allvarliga
psykiska störningar. Dock har både ledamoten för socialstyrelsen och psykiatrikern Göran Källberg förkastat dessa påståenden och menar att Svensson var
frisk, iskall och beräknande när morden begicks. Fossmo å andra sidan anser
sig oskyldig och beskyller Åsa Waldau. Han fick ända sedan sin tillträdelse vara
hennes högra hand och kärleksslav som betjänade henne med kärlek. Man har
inte sett någon minskning av medlemmar i pingstkyrkan som kan hänföras till
Knutbyincidenten. Pastorn har överklagat till högsta domstolen och begärt att
få fallet omprövat.
G.5
The Murder of Anna Lindh
G.5.1
1
Utrikesminister Anna Lindh dog av skadorna hon fick vid knivöverfallet på
varuhuset NK. Sverige har förlorat en skicklig politiker och utrikesminister.
Anna Lindh fick innan mordet motta en mängd hotbrev och var under sitt
privata besök på NK utan livvaktsskydd. Anna Lindh var djupt engagerad
i Europasamarbetet och EU. Utredningen kring mordet på Anna Lindh var
omfattande. Rättegången mot det den misstänkte gärningsmannen Mijailo
Mijailovic börjar 20 januari.
G.5.2
2
Utrikesministern Anna Lindh var tillsammans med en väninna på varuhuset nk
i Stockholm när hon attackerades av en okänd gärningsman med kniv. Lindh
hade inte någon livvakt med sig då svenska politiker vill verka öppet i samhället.
Lindh fördes till Karolinska sjukhuset med knivskador på buk, bröst och arm.
Trots flertalet operationer så gick hennes liv inte att rädda och hon avled cirka
ett halvt dygn efter den inträffade attacken. Media behandlade händelsen bra,
trots att Lindhs närmaste fick lida av pressens intrång på deras privatliv. Polisen
lyckades gripa den misstänkte Mijailo Mijailvics och omfattande bevis har tagits
fram till rättegången som planeras starta den 20 januari. Chefsrådman Göran
Nilsson hoppas att förhandlingarna ska gå fort, men om tingsrätten beslutar om
en sinnesundersökning kan den förlängas med några veckor. Anna Lindh var
mycket omtyckt och respekterad i alla kretsar, i Sverige såväl som utomlands.
Många har skrivit och hyllat hennes ställning i världspolitiken. Efter morden
på Olof Palme och Anna Lindh har svensk demokrati fått sig en omskakning.
68
G.5.3
3
Utrikesminister Anna Lindh var på eftermiddagen tillsammans med en väninna
och handlade på varuhuset NK i Stockholm. Eftersom det handlade om ett
privat besök hade hon ingen livvakt. Klockan 16.19 attackerades Anna Lindh
med kniv av en okänd man klädd i kamouflagejacka. Gärningsmannen flydde
från platsen innan polisen han fram. Hon fick allvarliga skador i buk och bröst
och på armen. Anna Lindh fördes i ilfart till Karolinska sjukhuset där hon
opererades. Operationen blev mycket svår Anna Lindh har kraftiga blödningar
från levern och kärl i buken. Anna Lindhs liv gick inte att rädda. Anna Lindh
var uppmärksammad, respekterad och erkänd i alla kretsar, visst var engagemanget för FN, för nedrustning och globala frågor stark hos henne. Anna
Lindhs huvudsakliga fokus låg dock i Europa. Polisens utredning om mordet
på Utrikesminister Anna Lindh är klar. Den misstänkte Mijailo Mijailvics
advokat Peter Althin får en kopia materialet. Vi siktar på att kunna väcka åtal i
mitten på januari säger chefsåklagare Krister Petersson.
G.6
The Pirate Bay Trail
G.6.1
1
Fyra personer i den svenska Pirate Bay rättegången dömdes till ett års fängelse
och 30 miljoner kronor i böter. Domen har överklagats till hovrätten som
förmodligen inte blir av före nästa sommar . Kritiken mot tingsrättsdomaren
var hård när jävssituationen uppdagades i våras. Tingsrättsdommaren friades
dock senare. Två hovrättsdomare i Pirate Bay-målet bedöms jäviga och Högsta
domstolen (HD) har nu gett prövningstillstånd. Pirate-Bay, som står åtalade i
Nederländerna, polisanmäler upphovsrättsorganisationen Brein för bedrägeri,
mened och förfalskning. Skivbolagen trappar upp striden mot Pirate Bay och
kräver att de åtalade skall omöjliggöra för internetanvändare att besöka eller
använda sig av ”intrångstjänsten”.
G.6.2
2
Artiklarna behandlar främst den svenska rättegången kring The Pirate Bay
och dess grundare. Rättegången i Tingsrätten dömdes till åklagarens fördel,
men har överklagats till Högsta Domstolen. De påtalar anmälningarna om
jäv som gjorts mot nyckelpersoner på åklagarsidan i rättegången i Tingsrätten, som överklagats i Högsta Domstolen. Rättegången i Högsta Domstolen
fick en ny domare, som dock också visat sig vara gammal medlem i samma
intresseförening som den förre domaren, något som upprör försvaret. Det
nämns också att flera parter försöker stänga ner Pirate Bay under tiden som de
69
väntar på dom, och hotar med dryga stämningar/böter om Pirate Bay fortsätter
drivas. Artiklarna behandlar till viss del också en del ifrågasättbara sätt som
de anklagade (kanske) använt sig av för att försvåra arbetet för de som åtalar
dem. De nämner även vad som misstänks vara förfalskade bevis mot Pirate
Bays grundare i en Holländsk rättegång.
G.7
(SD) Enters Riksdagen
G.7.1
1
Med stöd av 5,7 procent av väljarna tar Sverigedemokraterna (SD) plats i Riksdagen. SD.s politik är att stoppa eller begränsa invandringen. Det finns inte
tillräckligt med jobb åt svenskarna. Sverige får en minoritetsregering med SD
i en vågmästarroll. De övriga partierna kommer inte att samarbeta med eller
göra sig beroende av SD. SD.s fick framgångar i valet tack vare en stor medial
uppmärksamhet.
G.7.2
2
Det genomgående temat i artiklarna kretsar kring hur Sverigedemokraterna
lyckades komma in i Riksdagen med genomtänkt retorik och osmidigheten hos
övriga Riksdagspartier. De beskriver hur bra mediaträning tillsammans med
oväntade händelser som uppmärksammats i media verkat för att ge Sverigedemokraterna bra medietäckning. Med hjälp av sin retorik och sin nya fasad lyckas
de fånga in missnöjda väljare från andra partier och personer som aldrig tidigare hade identifierat sig med ett nationalsocialistiskt parti. De har fått många
väljare genom sin missnöjespolitik, som dessutom fått mer bränsle i rådande
arbetsmarknadsklimat. Det påpekas också att det fortfarande finns ett ganska
stort motstånd mot invandring och invandrare, i stor del vad gäller invandring
från muslimska länder. De övriga Riksdagspartierna kritiseras för att ha polariserat debatten genom att utmåla Sverigedemokraterna som onda och sig
själva som goda, och att aktivt förtrycka partiet.
G.7.3
3
Sverigedemokraterna har nått sitt mål .med stöd av runt 5,7 procent tar partiet plats i riksdagen. Sverigedemokraterna partiledare Jimmie Åkesson var
påtagligt nöjd då han talade till partikamrater och samlat mediafolk. Det finns
många väljare som är missbelåtna med hur Sverige har utvecklats de senaste
decennierna. Sverigedemokraternas framgång skedde inte över en natt. Partiets
riksdagsinträde är ett resultat av en komplex process som pågått under en lång
70
tid. Sverigedemokraterna är ett parti sprunget ur vit makt-rörelse och rasistiska
rörelse hävdar Mona Salin . Sverigedemokraterna tar plats i riksdagen och
intar rollen som vågmästare. Att skälla ut partiet i stället för att bemöta det
utifrån dess politik gynnar bara Sverigedemokraterna. Under de senaste åren
har vi haft en rad debatter som satt partiets kärnfråga på agendan. Uppmärksamheten kring den kommunala flyktingmottagningen, de ensamkommande
flyktingbarnen, kravaller och stenkastning i förorter och inte minst slöj- och
burkadebatten. I vissa fall har Sverigedemokraterna spelat en roll i diskussionerna, i andra fall inte. När det gäller avslöjanden om partiets koppling till
vit makt-rörelse och framför allt rasistiska utspel verkar det inte ha påverkat
partiets sympatisörer.
G.8
The Tsunami in Japan 2011
G.8.1
1
Den 11 mars havererade kärnkraftverket i Fukushima, efter att nordöstra Japan
drabbats av en kraftig jordbävning och Tsunami. Samtliga tre reaktorer drabbades av omfattande explosioner. Det var stor riska för härdsmälta. Personalen
tvingades tillfälligt att överge byggnaden. Försök att pumpa in havsvatten för att
kyla ner bränslestavarna genomfördes. Flera efterskalv skakade Tokyoområdet
och den japanska ostkusten. Efter katastrofen har kärnkraftsmotståndet ökat i
Japan. Mellan 60-80 procent av befolkningen är idag emot kärnkraften.
G.8.2
2
Det var i samband med en svår jordbävning och en tsunami som kärnkraftverket Fukoshimas reaktorer skadades svårt. Nära 20.000 människor omkom
i jordbävningen och tsunamin.Det radioaktiva läckaget från det havererade
kärnkraftverket var betydligt högre än man först trodde.I Fukoshima har utsläppen av radioaktivitet i atmosfären beräknats till mellan 20 och 60 gånger
så stora som efter atombomben 1945. Myndigheteran beodrarde evakuering av
all inom en radie av två mil från kärnkraftverket. FN atomenergiorgan IAEA
trodde inte att detta skulle påverka opinonen, då Japan inte har så många andra
inhemska energialternativ.Olika opinionsundersökningar visar att mellan 60
och uppemot 80 procent av befolkningen i Japan i dag är emot kärnkraften.
Enbart ett fåtal av landets 54 kärn reaktorer är i gång. Hittills har Japan till stor
del ersatt kärnkraften med import av gas och olja och obligatoriska åtgärder för
att spara el.Målet var att öka kärnkraften från 30 procent av landets elekticitet
till 50 procent.I stället bör nu Japan enligt den Japanska premierministern
utveckla energikällor som sol vind och biomassa.
71
Appendix H
Generated Summaries
H.1
PageRank Summarizer
H.1.1
The Death of Khaddafi
Libyens förre ledare Muammar Khaddafi är död , uppger den nya övergångsregeringen NTC. Khaddafis arméchef Abu Bakr Younus Jabr dödades och både Muammar Khaddafis son Mutassim Khaddafi och hans talesperson Moussa Ibrahim
greps i samband med att Natostyrkornas beskjutning. Kathy Tedeschi , änka
efter en av de döda i den flygplanssprängning över Skottland 1988 som skyllts
på Khaddafis regim , satt samtidigt i USA och sammanfattade för Reuters
mångas känslor för Libyens forne diktator : – Jag hoppas att han är i helvetet
med Hitler. Hollands premiärminister Mark Rutte säger att rapporterna är "
goda nyheter " om de visar sig stämma och Rysslands premiärminister Dmitrij
Medvedev säger att " Khaddafis öde borde beslutas av folket i Libyen " skriver
BBC. Kommentarerna kom efter att NTC rapporterat att ex-diktatorn gripits
och inte efter rapporterna om Khaddafis död. Strax efter klockan 16 på torsdagen svensk tid höll Muammar Khaddafi ett tal som riktades till det libyska
folket. Låt det bli en lång strid och låt Libyen brinna " , sa Khaddafi också
enligt Al-Jazira och tillade : " Fortsätt strida även om ni inte hör min röst ".
Vem sköt det dödande skottet mot ex-diktatorn Khaddafi ? Han säger att det är
omöjligt att veta vem som sköt det dödande skottet. Bilderna av hur det gick
till när Muammar Khaddafi togs till fånga och omständigheterna kring hans
död har fått FN : s råd för mänskliga rättigheter att reagera. Han refererade till
mobiltelefonbilderna av en sårad Muammar Khaddafi , som först lever efter
att ha blivit fångad och sedan ses död bland en skrikande grupp soldater ur
rebellarmén. Rupert Colville väntade sig att den gruppen även kommer att
granska omständigheterna kring Khaddafis död. Teorin om hur det gick till
när Khaddafi dödades återges av brittiska The Times , som citerar en källa
nära den styrande regeringen. En annan version som cirkulerat på internet är
att rebellen Sanad Sadek Ureibi tog fast Khaddafi på en gata i Sirte och sköt
diktatorn efter oenighet med andra rebeller. Rebellerna från öst gillade inte
detta och en soldat drog fram Khaddafis gyllene pistol och sköt honom och
72
sade till gänget från Misrata : " Nu kan ni ta honom. " – Vi vet vem som dödade
Khaddafi. Libyens övergångsregering planerar att begrava Muammar Khaddafi
på hemlig plats , rapporterar tv-stationen al-Arabiyya.
H.1.2
The Death of Kim Jong-Il
Bilderna från den statliga nordkoreanska televisionen visar Nordkoreas nye
ledare Kim Jong-Un under en minnesceremoni för den avlidne diktatorn ,
hans far , Kim Jong-Il. Färska rapporter från det så slutna landet tyder på att
regeringen redan har hunnit rensa ut hundratals tjänstemän som ansetts hota
Kim Jong-Uns övertagande av makten. Bilderna från Kim Jong-Ils begravning
, som på onsdagen kablades ut från det annars närmast hermetiskt stängda
Nordkorea , visade ett sörjande som regisserats in i minsta detalj. Dagens
begravning av Nordkoreas diktator Kim Jong-Il gav ledtrådar till maktspelet
kring landets nye ledare , sonen Kim Jong-Un. Konstiga naturfenomen har
bevittnats i Nordkorea efter ledaren Kim Jong-Ils död , rapporterar den statliga
nyhetsbyrån KCNA. Det är några av de naturfenomen som inträffat i Nordkorea
efter ledaren Kim Jong-Ils död , enligt den statliga nyhetsbyrån KCNA. Bilder
på ett sörjande folk har i veckan kablats ut via den statliga nyhetsbyrån , och
det senaste tillskottet i den regisserade sorgeperioden är att även naturen har
drabbats av Kim Jong-Ils bortgång. Amnestys förhoppning är att Kim Jong-Uns
förmodade maktövertagande ska leda till ett öppnare Nordkorea där mänskliga
rättigheter bättre tas tillvara. Sorgeceremonierna i Nordkorea efter diktatorn
Kim Jong-Ils död uppges ha avslutats. Hela folket bör " som mänskliga sköldar "
försvara sin ledare Kim Jong-Un till döden och ge honom sin fulla tillit , skriver
nordkoreanska tidningar. Den sydkoreanska underrättelsetjänsten har tidigare
förutspått att Jang Song Thaek och hans fru Kim Kyong Hui ska komma att spela
en avgörande roll i att förbereda Kim Jong-Un för rollen som Nordkoreas ledare.
Nyhetsbyrån Reuters skriver att Sydkoreas militär inte iakttagit någon onormal
trupprörelse i Nordkorea efter Kim Jong-Ils död. Nordkoreas ledare Kim JongIl har avlidit , uppger landets statliga television. Sydkoreas militär har satts i
högsta beredskap efter beskedet om Kim Jong-Ils död och presidenten har kallat
Nationella säkerhetsrådet till extra krismöte , rapporterar den sydkoreanska
nyhetsbyrån Yonhap. På onsdagen begravdes Kim Jong-uns far Kim Jong-il
under ett stort pådrag , fullt med gråtande invånare.
H.1.3
Juholt’s Resignation
Carin Jämtin beredd att ta över ledarskapet Håkan Juholt avgår omedelbart
som partiledare för Socialdemokraterna. Socialdemokraternas partiledare
Håkan Juholt avgår från posten. Socialdemokraternas partiledare Håkan Juholt
73
avgick som partiledare efter bara tio månader på posten. Socialdemokraternas
partiledare Håkan Juholt avgår. Ryktet om Håkan Juholts avgång stämmer " med
mycket stor sannolikhet ". En fortsättning för Håkan Juholt som partiledare
hade därför ställt Socialdemokraterna i ett minst sagt obekvämt läge med en
öppen strid om vem som ska leda partiet. Under den senaste tiden har Håkan
Juholt sagt att han fortsätter som partiledare. Inför mötet hade några S-distrikt
krävt Håkan Juholts avgång , men efteråt sade partisekreteraren Carin Jämtin
att VU har fortsatt förtroende för honom. Precis som många medier hade
uppgivit innan meddelade Juholt att han avgår som partiledare. Under starka
applåder , busvisslingar och hejarop steg den lokalt populäre Håkan Juholt upp i
talarstolen för att berätta att han inte längre är socialdemokraternas partiledare.
Mot den bakgrunden lämnar jag med omedelbar verkan mitt uppdrag som
ordförande för Socialdemokraterna , sade Håkan Juholt och möttes av upprört
" Neeej ! " Håkan Juholt lämnade talarstolen och köpcentret utan att svara
på frågor medan journalistuppbådet och folksamlingen sakta började lösas
upp. Håkan Juholt har haft problem ända sedan han valdes till partiordförande
på en extrakongress i Stockholm den 25 mars 2011. Inför mötet hade några
S-distrikt krävt Håkan Juholts avgång , men efteråt sade partisekreteraren Carin
Jämtin att VU har fortsatt förtroende för honom. Flera personer i verkställande
utskottet har drivit frågan om Juholts avgång. Vad vi ser nu är ett sätt att
försöka rädda hans ansikte , säger en källa till DN. Om inte Juholt avgår skulle
väl frågan ha lyfts om huruvida sådana som Österberg kan sitta kvar i VU ?
Partisekreterare Carin Jämtin sade på fredagskvällens presskonferens att Juholt
har VU : s fortsatta stöd tills vidare , men han var ju själv inte med på den , säger
en källa. Tre minuter senare kom Juholts besked att han avgår. Hur stora får
framtida forskning utvisa , sade Håkan Juholt. Klockan 15 inleddes pressträffen
med Håkan Juholt i Oskarshamns köpcenter Flanaden. Beskedet kom under
lördagens presskonferens i Håkan Juholts hemstad Oskarshamn. Jag kommer
att ge mitt fulla och helhjärtade stöd till min efterträdare , som jag är övertygad
om kommer att representera hela partiet och samla Socialdemokratin , för det
behöver Sverige , sa Håkan Juholt under presskonferensen.
H.1.4
The Knutby Murders
Han skriver i överklagandet att livstidsdomen mot pastorn grundar sig på den
så kallade barnflickans vittnesmål. Pastorn bör dömas för mord på sin första
hustru och barnflickan till livstids fängelse i stället för vård. Det är barnflickans
beskrivning i dag av sin tid vid sidan av pastorn i Knutby. DN har kommit
till Knutby för att tala med Peter Gembäck om församlingens tro och hur den
har påverkats av de tragedier som exponerats i alla medier. Ola Nordström
ville understryka att Åsa Waldau hela tiden försökt vrida rätt den snedvridna
74
bilden som framkommit om Knutbyförsamlingen i medierna genom att skylla
allt på pastorn. Åklagaren menar att det är han som mördat sin första fru i
badrummet i villan i Knutby. Ytterst få fall som överklagas till HD beviljas
prövningstillstånd. Pastorn som dömts till livstids fängelse för dåden i Knutby
överklagar och sätter därmed sitt sista hopp till Högsta domstolen ( HD ).
Pastorn fälldes i hovrätten för anstiftan till mordförsöket på sin hustru för ett år
sedan då barnflickan attackerade henne med en hammare. Barnflickan dömdes
till rättspsykiatrisk vård för mordförsök och mord på pastorns hustru. Pastorns
förhoppningar om att HD ska ta upp fallet är samtidigt " realistiska " : - Vi har
pratat mycket om det här och han har både från mig och från andra blivit klar
över att HD är exklusivt och att porten dit är trång. Pastorn Helge Fossmo hade
motiv för mordet , påpekade åklagaren , eftersom en skilsmässa var otänkbar.
Ola Nordström , pastorns advokat , avslutade med att Helge Fossmo bör frias
från samtliga anklagelser. När han och första hustrun flyttade till Knutby kom
han snabbt att tillhöra Åsa Waldaus innersta krets. Knutby-pastorn Helge
Fossmo beskrev sig snyftande som en man helt under inflytande av Åsa Waldau
när han för första gången fick komma till tals i hovrätten. - I Helges värld
fanns det alltid undantag , sade barnflickan. Kammaråklagarna Elin Blank och
Anne Sjöblom har begärt att såväl Helge Fossmo som Sara Svensson ska dömas
till livstids fängelse för morden och mordförsöken i Knutby. Den före detta
pastorn Helge Fossmo kommer med största sannolikhet att dömas till livstids
fängelse i dag , fredag. Det som talar för att Helge Fossmo får livstids fängelse
är att han fortfarande sitter häktad i väntan på domen. Klockan elva faller Svea
hovrätts dom mot honom och " barnflickan " Sara Svensson i Knutbymålet.
Han krävde samma behandling för båda åtalade i Knutbymålet.
H.1.5
The Murder of Anna Lindh
Polisens utredning om mordet på utrikesminister Anna Lindh är klar. Rättegången om mordet på Anna Lindh börjar den 20 januari nästa år , enligt
planerna. Veckorna före mordet på Anna Lindh fick utrikesministern mejl som
var hotfulla i tonen. Ett annat e-brev som skickades två dagar före mordet har
rubriken " Sluta skrämmas " och syftar troligen på Anna Lindhs delaktighet i
Ja-kampanjen för euron. Anna Lindhs man , Bo Holmberg , landshövding i
Sörmland , anlände till Karolinska i bil strax efter klockan 20 på kvällen. Vid
tre-tiden i natt uppgav läkarna att Anna Lindhs tillstånd var något förbättrat
, men fortfarande kritiskt. Med en blombukett vid Anna Lindhs tomma statsrådsbänk och med den övriga regeringen för ovanlighetens skull närvarande
vid riksdagens upprop , beskrev Björn von Sydow i ett kort minnestal förlusten
av Anna Lindh. Någon har med rätta beskrivit Anna Lindh som en stjärna vars
strålglans nådde långt utöver Sveriges gränser , sade Björn von Sydow. Anna
75
Lindh var ingen förespråkare för en rigid bokstavstolkning av stadgan. Anna
Lindhs huvudsakliga fokus låg dock i Europa. Det är en linje som Anna Lindh
höll fast vid. Anna Lindh talade om behovet av inflytande , om att vara med
och påverka och om att även Sverige måste ta sitt ansvar för ett gemensamt
projekt. Åtskilligt har redan sagts och skrivits om Anna Lindhs ställning i
världspolitiken. Anna Lindh drog sig exempelvis inte för att i skarpa ordalag
uppmana Washington att upphöra med planerna på ett nationellt missilförsvar.
Anna Lindh var tillgänglig och intellektuellt nyfiken. Huvudförhandlingen mot
24-årige Mijailo Mijailovic i målet om mordet på utrikesminister Anna Lindh
kan påbörjas i januari. Anna Lindh hade en lång politisk insats bakom sig ,
ändå stod hon bara på tröskeln till den riktigt stora uppgiften att leda Sverige
i den nya värld där det europeiska enhetsarbetet är en pol och hotet från en
gränslös terrorism en annan. Anna Lindh var uppmärksammad , respekterad
och erkänd i alla kretsar. Anna Lindh var den första kvinnan , och den första
kvinnliga politiker på vilken epitetet " kvinnlig " föll bort. I ett sådant klimat
blir en förvirrad , hatfull människa en hotfull risk för personligheter med den
ställning och den lyskraft som Anna Lindh hade.
H.1.6
The Pirate Bay Trail
Fallet The Pirate Bay skulle upp i hovrätten i November , men nu pekar allt på
att det inte blir av före nästa sommar. Att också Warg och Sunde fortfarande
styr The Pirate Bay säger Breins ordförande Tim Kuik att man har flera bevis för.
Men Peter Sunde , en annan av de åtalade i Pirate Bay-målet , är förtjust. Högsta
domstolen ska pröva om två av domarna i Pirate Bay-målet är jäviga. " Kritiken
var hård mot Tomas Norström , tingsrättsdomare i målet mot fildelarsajten
Pirate Bay , när det i våras blev klart att han var medlem i flera olika upphovsrättsorganisationer. Nu måste hovrätten förelägga Tomas Norström att berätta
sanningen , om inte hovrätten tycker att det jag redan anfört räcker , säger
Samuelsson som begär att domen ska rivas upp och Pirate Bay-rättegången
tas om i tingsrätten. Riv upp domen mot Pirate Bay och ta om rättegången
från början. Fyra stora skivbolag ansöker hos Stockholms tingsrätt om att ge
männen bakom The Pirate Bay dryga böter så länge de fortsätter att driva sajten.
Därför går skivbolagen Universal , EMI , Sony och Warner ihop och ansöker
om vite - ett penningbelopp som en domstol kan ålägga en part i ett mål ifall männen bakom Pirate Bay fortsätter att tillgängliggöra upphovsskyddat
material. - Det är svårt att säga när vi kan ha huvudförhandlingen , men det
kommer inte att bli före sommaren , säger Ihrfeldt. - Det är svårt att säga när
vi kan ha huvudförhandlingen , men det kommer inte att bli före sommaren ,
säger Ihrfeldt. Det är också grunden när flera av försvarets advokater hävdar
jäv. Eric Bylander , universitetslektor i processrätt vid Göteborgs universitet
76
, skriver i en artikel i Svenska Dagbladet i dag att rättegången mot Pirate Bay
bör tas om. - Det är svårt att säga när vi kan ha huvudförhandlingen , men
det kommer inte att bli före sommaren , säger Ihrfeldt. Det är också grunden
när flera av försvarets advokater hävdar jäv. Eric Bylander , universitetslektor i
processrätt vid Göteborgs universitet , skriver i en artikel i Svenska Dagbladet i
dag att rättegången mot Pirate Bay bör tas om. I samband med tingsrättsförhandlingarna sades det att det skulle dröja åtminstone tre år innan fallet med The
Pirate Bay är helt klart i alla tre instanserna. Tre av de åtalade i den svenska The
Pirate Bay-rättegången står även inför rätta i Nederländerna. - Först och främst
vill jag påpeka att jag inte äger The Pirate Bay sen ett par år tillbaka , och att
jag i samband med ägarbytet inte längre har skött den tekniska driften av The
Pirate Bay så det inte blir något missförstånd , då jag konstant blir felciterad i
media , skriver Fredrik Neij till DN.
H.1.7
(SD) Enters Riksdagen
– SD är en osvensk företeelse och ska så förbli , sade Sahlin när hon inledde
debatten , och fick svar : – Mona Sahlin påstår att mitt parti har rasistiska rötter
, men det var inte mitt parti som tog initiativet till rasbiologisk forskning , sade
Sverigedemokraternas partiledare Jimmie Åkesson i sin debut i riksdagens
talarstol och ansåg att Sahlin borde hyfsa debatten. Sverigedemokraterna tar
plats i riksdagen och intar rollen som vågmästare. Sverigedemokraternas inträde i riksdagen blev dramatiskt. Han har lämnat kyrkan för att biskop Brunne
hyllat en demonstration riktad mot att hans parti kommit in i riksdagen , för
att " Ut med Jimmie " var ett återkommande slagord och för att det deltog
grupper som utövat våld mot SD : s representanter. Han vill vara anonym och
säger att han inte valt Sverigedemokraterna för deras invandringspolitik som
han tycker är för extrem , utan för att " alla riksdagens andra partier är för
gamla och inte tänker nytt ". Då samtliga av totalt 5.668 distrikt har räknats
har SD en vågmästarroll i riksdagen. Alliansen segrar alltså , men når inte
egen majoritet med sina 172 mandat. SD ska dock ta ansvar , framhöll partiledaren. – Sverigedemokraterna är ett parti sprunget ur vit makt-rörelsen
och rasistiska rörelser , återkom Sahlin och hävdade att SD är ett enkelspårigt
parti med en enda agenda : att ställa grupp mot grupp och angripa invandringen. Sverigedemokraternas inträde i riksdagen har orsakat en chockreaktion.
Opinionen Sverigedemokraternas har kommit in i riksdagen för att det finns
tillräckligt många som gillar partiets idéer. Men det är inget fatalt misstag från
den svenska mediekåren som har gjort att Sverigedemokraterna nått riksdagen.
En annan av förklaringarna till Sverigedemokraternas framgång är att de så
tydligt utmålats som vågmästare. Enligt Sverigedemokraternas pressekreterare
Sven-Olof Sällström blir en av partiets första åtgärder att ta fram siffror på
77
invandringens kostnader. Sverigedemokraterna sitter nu som en kil mellan de
två blocken. Fredrik Reinfeldt har under kvällen öppnat upp för ett bredare
samarbete över blockgränserna för att hålla Sverigedemokraterna utanför makten. Mona Sahlin och hennes kollegor i det rödgröna samarbetet har å sin
sida tydligt förklarat att de inte vill medverka till att Sverigedemokraterna får
inflytande. Sverigedemokraterna ( SD ) samlade i dag cirka 300 kommunala
företrädare i Älvsjö i södra Stockholm. Varför röstar så många i Sölvesborg på
Sverigedemokraterna ? Där röstade 12,2 procent av invånarna på SD. Båda representerar Sverigedemokraterna i fullmäktige. När Jimmie Åkesson och hans
partigrupp , tisdagen den 5 oktober , anländer till den gudstjänst i Storkyrkan
som traditionsenligt föregår riksdagens högtidliga öppnande , är stämningen
förväntansfull och nervös.
H.1.8
The Tsunami in Japan 2011
Kritiker har sett händelsen vid det läckande kärnkraftverket i Fukushima som
ett tillfälle för Japan att bryta med den gamla ordningen då 30 procent av landets
elbehov täckts av kärnkraft. Han refererar till vetenskapsmän som kallat Japan
ett av världens sju under eftersom landet är platsen för så många jordbävningar
samtidigt som kärnkraften byggts ut med 54 reaktorer. Sedan katastrofen vid
kärnkraftverken Fukushima för ett år sedan har landets reaktorer genomgått
säkerhetsinspektioner , och bara två av 54 är i bruk. Problemen med den tredje
reaktorn kom sedan ännu en kraftig explosion inträffat tidigt på måndagsmorgonen , svensk tid , i en reaktor på kärnkraftverket. - Även om det bara sker
för en kort period så vore det en seger för oss , det är vad vi kämpar för , och
det kommer att visa att Japan klarar sig utan kärnkraft , säger Harue Aoyama
, en av de envisa demonstranter som sedan i September protesterar utanför
det ansvariga departementet i Tokyo. Därmed kan kärnkraftsnationen Japan
i sommar , drygt ett år efter olyckan , tillfälligt stå helt utan kärnkraft. Ett
år efter olyckan vid anläggningen i Fukushima har Japan blivit en nation av
kärnkraftsmotståndare. - Att Japan har kärnkraft är detsamma som att den
här nationen begår självmord , säger den 85-årige Hiroshimaveteranen , som
sedan 60-talet bor i Fukushima. När olyckorna på kärnkraftverket Fukushima
1 blev allt fler bestämde sig också Love och hans sambo för att lämna Tokyo.
Tidigare på tisdagskvällen svensk tid ( sextiden onsdag morgon japansk tid )
upptäckte en arbetare en brand i den yttre inneslutningen av reaktor fyra. Den
japanska nyhetsbyrån Kyodo uppgav tidigare på tisdagen att en bassäng vid
reaktor nummer 4 som innehåller utbränt kärnbränsle kokade vilket skulle
kunna vara ett tecken på att strålning läcker ut i vattnet. Rädslan runt kärnkraft
har ökat bland japaner efter kärnkraftskrisen i Fukushima. Vi siktar på att
åstadkomma ett samhälle som kan klara sig utan kärnkraft " , sade premiär-
78
minister Naoto Kan i japansk tv på onsdagen , fyra månader efter haverierna i
Fukushimas kärnkraftverk. - Vi siktar på att åstadkomma ett samhälle som kan
klara sig utan kärnkraft , sade den japanske premiärministern , enligt BBC. Den
flodvåg som följde på Japans hittills kraftigaste jordbävning förödde nordöstra
Japans lågt liggande kustområden på det brutalaste sätt. Ännu en explosion har
inträffat på kärnkraftverket Fukushima 1 , den tredje på några dagar. Detta meddelar regeringskällor i Tokyo enligt nyhetsbyrån Kyodo vid midnatt svensk tid.
Samtliga bränslestavar vid de tre reaktorerna vid kärnkraftverket Fukushima 1
riskerar nu att smälta och fyra av fem pumpar som ska förse reaktorerna med
kylvatten har slutat fungera.
H.2
Cover Coefficient Summarizer
H.2.1
The Death of Khaddafi
Vem sköt det dödande skottet mot ex-diktatorn Khaddafi ? Libyens förre ledare
Muammar Khaddafi är död , uppger den nya övergångsregeringen NTC. – Vi
vet vem som dödade Khaddafi. Kommentarerna kom efter att NTC rapporterat
att ex-diktatorn gripits och inte efter rapporterna om Khaddafis död. Bilderna
av hur det gick till när Muammar Khaddafi togs till fånga och omständigheterna
kring hans död har fått FN : s råd för mänskliga rättigheter att reagera. Libyens
övergångsregering planerar att begrava Muammar Khaddafi på hemlig plats
, rapporterar tv-stationen al-Arabiyya. Libyens övergångsregering planerar
att begrava Muammar Khaddafi på hemlig plats , rapporterar tv-stationen alArabiyya. – Khaddafi togs först till fånga av rebeller från öst. Strax efter klockan
16 på torsdagen svensk tid höll Muammar Khaddafi ett tal som riktades till det
libyska folket. Den störtade libyske ledaren Muammar Khaddafi och hans son
Mutassim ska begravas på tisdagen. – Nu är Libyen helt fritt från Khaddafi och
hans regim. Khaddafis förre livvaktschef Mansour Daw greps i samband med
torsdagens tillslag i Sirte , där ex-diktatorn dödades. Samtidigt kommer helt
andra uppgifter från ett annat håll i NTC. Det är oklart när Khaddafis kropp
begravs. Muammar Khaddafi väntas begravas på hemlig plats under fredagen.
Tillsammans med andra ledande Khaddafilojalister bodde Daw i Sirte under
de senaste månaderna och fick uppleva Muammar Khaddafis sista tid från nära
håll. Enligt Bashagha , som själv var i Sirte med NTC-styrkorna , dog sedan
Khaddafi i en ambulans. Den officiella versionen är att Muammar Khaddafi
dog i skottväxling på väg till sjukhus. Muammar Khaddafis regim hade kunnat
överleva ytterligare fyra decennier , om det inte varit för en arabisk vår , modiga
libyer och - Natos FN-sanktionerade luftkrig. Det är ännu oklart var Muammar
Khaddafi befinner sig. Han säger att Muammar Khaddafi själv inte var med
i torsdagens skottväxlingar med rebellgrupperna , utan att sonen Motassim
79
ledde striderna. Han berättar att Khaddafi försökte fly Sirte till fots och att
ex-diktatorn under de sista dagarna visade oro men att han " inte var rädd ".
Daw berättar att Khaddafi åkte till Sirte i augusti eftersom han hade sitt största
stöd där. Rupert Colville väntade sig att den gruppen även kommer att granska
omständigheterna kring Khaddafis död. Enligt tevestationen Arrai i Syrien
uppmanade Khaddafi alla stammar att fortsätta striden.
H.2.2
The Death of Kim Jong-Il
Det är några av de naturfenomen som inträffat i Nordkorea efter ledaren Kim
Jong-Ils död , enligt den statliga nyhetsbyrån KCNA. Bilderna från den statliga
nordkoreanska televisionen visar Nordkoreas nye ledare Kim Jong-Un under
en minnesceremoni för den avlidne diktatorn , hans far , Kim Jong-Il. Nu efter
Kim Jong-Ils död hoppas de att folket i Nordkorea ska resa sig mot regimen.
Nordkoreas ledare Kim Jong-Il har avlidit , uppger landets statliga television.
Är det landets militära ledning eller är det redan Kim Jong Un ? Konstiga
naturfenomen har bevittnats i Nordkorea efter ledaren Kim Jong-Ils död , rapporterar den statliga nyhetsbyrån KCNA. Enligt statliga medier efterträds han
av sonen Kim Jong-Un. Det är inte bara det nordkoreanska folket som sörjer
den döde ledaren , utan även själva naturen. Han tror att folket i Nordkorea
kommer att resa sig mot regimen nu. Färska rapporter från det så slutna landet
tyder på att regeringen redan har hunnit rensa ut hundratals tjänstemän som
ansetts hota Kim Jong-Uns övertagande av makten. Dagens begravning av
Nordkoreas diktator Kim Jong-Il gav ledtrådar till maktspelet kring landets
nye ledare , sonen Kim Jong-Un. Sydkoreansk underrättelsetjänst ifrågasätter
dock nu hur Kim Jong-Il dog , skriver BBC. Sorgeceremonierna i Nordkorea
efter diktatorn Kim Jong-Ils död uppges ha avslutats. Efter Kim Jong-Ils död
hoppas Amnesty att Nordkoreas regim ska öppna upp för ett mer demokratiskt
styre. Då Kim Jong-Il kom till makten 1994 skickades tiotusentals personer
till fångläger. Nu leder Kim Jong Un en nation som kan framställa kärnvapen.
Sydkoreas militär har satts i högsta beredskap efter beskedet om Kim Jong-Ils
död och presidenten har kallat Nationella säkerhetsrådet till extra krismöte
, rapporterar den sydkoreanska nyhetsbyrån Yonhap. Nyhetsbyrån Reuters
skriver att Sydkoreas militär inte iakttagit någon onormal trupprörelse i Nordkorea efter Kim Jong-Ils död. Vad som oroar Sydkorea är om Kim Jong Un på
hemmaplan känner sig utmanad som ledare. Direkt efter faderns död pekades
han ut som efterträdare och landets högste ledare.
80
H.2.3
Juholt’s Resignation
Socialdemokraternas partiledare Håkan Juholt avgår. Socialdemokraternas
partiledare Håkan Juholt avgår från posten. Carin Jämtin beredd att ta över
ledarskapet Håkan Juholt avgår omedelbart som partiledare för Socialdemokraterna. Socialdemokraternas partiledare Håkan Juholt avgick som partiledare
efter bara tio månader på posten. - Jag lämnar uppdraget som ordförande
för Socialdemokraterna med omedelbar verkan , sade Håkan Juholt. - Jag
lämnar med omedelbar verkan uppdraget som partiledare , säger Juholt. Partiet behövde en nystart , sa Håkan Juholt. I går sade VU att Håkan Juholt
fortsätter som Socialdemokraternas partiordförande. Juholt lämnade själv
beskedet på en presskonferens i Oskarshamn. Beskedet kom under lördagens
presskonferens i Håkan Juholts hemstad Oskarshamn. Inför mötet hade några S-distrikt krävt Håkan Juholts avgång , men efteråt sade partisekreteraren
Carin Jämtin att VU har fortsatt förtroende för honom. Partisekreterare Carin
Jämtin sade på fredagskvällens presskonferens att Juholt har VU : s fortsatta
stöd tills vidare , men han var ju själv inte med på den , säger en källa. Håkan
Juholts besked i går var det bästa både för honom själv och för Socialdemokraterna som parti. Jag kommer att ge mitt fulla och helhjärtade stöd till min
efterträdare , som jag är övertygad om kommer att representera hela partiet
och samla Socialdemokratin , för det behöver Sverige , sa Håkan Juholt under
presskonferensen. Under den senaste tiden har Håkan Juholt sagt att han fortsätter som partiledare. Inför mötet hade några S-distrikt krävt Håkan Juholts
avgång , men efteråt sade partisekreteraren Carin Jämtin att VU har fortsatt
förtroende för honom. Juholt lämnade efter sitt uttalande snabbt podiet utan
att svara på frågor. Håkan Juholt har haft problem ända sedan han valdes till
partiordförande på en extrakongress i Stockholm den 25 mars 2011. Jag är
född socialdemokrat och kommer att dö som socialdemokrat , sade Juholt och
möttes av stort jubel. Mot den bakgrunden lämnar jag med omedelbar verkan
mitt uppdrag som ordförande för Socialdemokraterna , sade Håkan Juholt och
möttes av upprört " Neeej ! " – Jag kommer att ge mitt fulla och helhjärtade
stöd till min efterträdare – en efterträdare som jag är övertygad om kommer
att representera hela partiet och som kan samla socialdemokratin , sade Juholt
, och lämnade presskonferensen utan att svara på några frågor. Klockan 15
inleddes pressträffen med Håkan Juholt i Oskarshamns köpcenter Flanaden.
Han skulle väl lämna utskottet omedelbart om inte Juholt avgick.
H.2.4
The Knutby Murders
Pastorn bör dömas för mord på sin första hustru och barnflickan till livstids
fängelse i stället för vård. Det finns ett före och ett efter , menade Helge Fossmos
advokat Ola Nordström. Det är barnflickans beskrivning i dag av sin tid vid
81
sidan av pastorn i Knutby. Klockan elva faller Svea hovrätts dom mot honom
och " barnflickan " Sara Svensson i Knutbymålet. Då kan man inte döma någon
till livstid , sade Nordström. Den före detta pastorn Helge Fossmo kommer
med största sannolikhet att dömas till livstids fängelse i dag , fredag. " Jag
bad inte barnflickan att döda dig " , ska pastorn då ha yttrat enligt grannens
vittnesmål. Barnflickan dömdes till rättspsykiatrisk vård för mordförsök och
mord på pastorns hustru. Rättegången om mord och mordförsök i Knutby
pingstförsamling fortsatte på tisdagen i Svea hovrätt. Han skriver i överklagandet att livstidsdomen mot pastorn grundar sig på den så kallade barnflickans
vittnesmål. Hon är påverkad av församlingen som gjort allt för att sätta dit pastorn. Hon försöker också visa hur Helge Fossmo har manipulerat barnflickan
Sara Svensson för att förmå henne att mörda hans andra hustru. Kammaråklagarna Elin Blank och Anne Sjöblom har begärt att såväl Helge Fossmo som
Sara Svensson ska dömas till livstids fängelse för morden och mordförsöken i
Knutby. Men eftersom barnflickan Sara Svensson stod för delar av planeringen
bör hon dömas till fängelse. Hennes advokat Christer Söderberg har begärt att
hon ska få rättspsykiatrisk vård i stället för fängelse. Pastorn fälldes i hovrätten
för anstiftan till mordförsöket på sin hustru för ett år sedan då barnflickan
attackerade henne med en hammare. Det hävdade åklagaren Elin Blank när
Knutbymålet avslutades i hovrätten på tisdagen. Det som talar för att Helge
Fossmo får livstids fängelse är att han fortfarande sitter häktad i väntan på
domen. Frågan är om Helge Fossmo också kommer att dömas för mordet
på sin första hustru. Det betyder antagligen att hovrätten tror på åklagarnas
version att Helge Fossmo lurade Sara Svensson till att tro att hon skulle mörda
på uppdrag från Gud. Knutby-pastorn Helge Fossmo beskrev sig snyftande
som en man helt under inflytande av Åsa Waldau när han för första gången
fick komma till tals i hovrätten. Advokat Christer Söderberg kontrade med
att det finns två gedigna undersökningar som konstaterar att Sara Svensson är
allvarligt störd och bör dömas till vård , inte fängelse. Barnflickan berättade att
hon redan i början av 2001 fick höra av pastorn att hans andra hustru skulle dö.
H.2.5
The Murder of Anna Lindh
Polisens utredning om mordet på utrikesminister Anna Lindh är klar. Rättegången om mordet på Anna Lindh börjar den 20 januari nästa år , enligt planerna.
Utrikesminister Anna Lindh är mycket allvarligt skadad. Veckorna före mordet
på Anna Lindh fick utrikesministern mejl som var hotfulla i tonen. Vid operationen visade det sig att Anna Lindh hade kraftiga blödningar från levern
och stora blodkärl i buken. Utrikesminister Anna Lindh avled klockan 05.29 i
morse av de skador hon fick vid knivöverfallet på onsdagen. Vid en pressinformation klockan 03.00 i natt meddelades att Anna Lindhs tillstånd fortfarande
82
är kritiskt. Utrikesminister Anna Lindh var i eftermiddag tillsammans med en
väninna och handlade på varuhuset NK i centrala Stockholm. Anna Lindhs liv
gick inte att rädda. - Vi siktar därför på att inleda förhandlingarna redan tisdagen den 20 januari , säger Göran Nilsson. Vid tre-tiden i natt uppgav läkarna att
Anna Lindhs tillstånd var något förbättrat , men fortfarande kritiskt. Opereras i
natt Anna Lindh fördes omedelbart till Karolinska sjukhuset i Solna. Det är en
linje som Anna Lindh höll fast vid. Anna Lindh fick allvarliga knivskador i buk
och bröst när hon attackerades av en okänd gärningsman inne på varuhuset
NK. Han nekar fortfarande till att ha mördat Anna Lindh. I slutet av augusti
skriver en man ett brev med rubriken " Anna Lindhs skrämselpropaganda ". Just nu är läget något förbättrat men fortfarande kritiskt , sade Göran Wallin.
Anna Lindh var alldeles nyss mitt ibland oss , sa han. Ofta står bara till Anna
Lindh , eller ingenting. Anna Lindh avled på operationsbordet klockan 05.29
efter en massiv blödning orsakade av knivskador på lever och flera av de stora
blodkärlen i buken. Anna Lindh opererades från 17.00 på onsdagen till 01.00 på
torsdagsnatten då blödningen minskat något. I ett annat mejl tar en person upp
ett påstående om att Anna Lindh haft ett förhållande med USA : s utrikesminister Colin Powell. Klockan 1 i natt hoppades läkarna att operationen var klar.
Klockan 05.29 på torsdagen avled Sveriges utrikesminister. se att mannen slog
Anna Lindh till marken. - Med Anna Lindhs bortgång har Sverige förlorat en
mycket framstående politiker brett uppskattad och respekterad.
H.2.6
The Pirate Bay Trail
Högsta domstolen ska pröva om två av domarna i Pirate Bay-målet är jäviga. "
- The Pirate Bay finns inte i Sverige. Kritiken var hård mot Tomas Norström ,
tingsrättsdomare i målet mot fildelarsajten Pirate Bay , när det i våras blev klart
att han var medlem i flera olika upphovsrättsorganisationer. Fallet The Pirate
Bay skulle upp i hovrätten i November , men nu pekar allt på att det inte blir av
före nästa sommar. Ihrfeldt är inte medlem i någon sådan förening. Ihrfeldt är
inte medlem i någon sådan förening. Ihrfeldt är inte medlem i någon sådan
förening. Det är också grunden när flera av försvarets advokater hävdar jäv. Det
är också grunden när flera av försvarets advokater hävdar jäv. Ihrfeldt har själv
varit med i Svenska Föreningen för Upphovsrätt men är inte längre medlem.
- Det är svårt att säga när vi kan ha huvudförhandlingen , men det kommer
inte att bli före sommaren , säger Ihrfeldt. - Det är svårt att säga när vi kan
ha huvudförhandlingen , men det kommer inte att bli före sommaren , säger
Ihrfeldt. - Det är svårt att säga när vi kan ha huvudförhandlingen , men det
kommer inte att bli före sommaren , säger Ihrfeldt. I ansökan till tingsrätten
benämns The Pirate Bay som " en intrångstjänst ". Riv upp domen mot Pirate Bay
och ta om rättegången från början. Men Peter Sunde , en annan av de åtalade i
83
Pirate Bay-målet , är förtjust. Inför förhandlingen i hovrätten anser försvaret
att två av domarna har liknande kopplingar till upphovsrättsorganisationer.
Peter Sunde säger i en kommentar till DN. Peter Sunde säger i en kommentar
till DN. Peter Sunde säger i en kommentar till DN. Fyra stora skivbolag ansöker
hos Stockholms tingsrätt om att ge männen bakom The Pirate Bay dryga böter
så länge de fortsätter att driva sajten. Tre av de åtalade i den svenska The Pirate
Bay-rättegången står även inför rätta i Nederländerna. Männen bakom The
Pirate Bay dömdes till fängelse och dryga böter. Det är också grunden när
flera av försvarets advokater hävdar jäv. Eric Bylander , universitetslektor i
processrätt vid Göteborgs universitet , skriver i en artikel i Svenska Dagbladet i
dag att rättegången mot Pirate Bay bör tas om. Eric Bylander , universitetslektor
i processrätt vid Göteborgs universitet , skriver i en artikel i Svenska Dagbladet
i dag att rättegången mot Pirate Bay bör tas om. Att också Warg och Sunde
fortfarande styr The Pirate Bay säger Breins ordförande Tim Kuik att man
har flera bevis för. Svea hovrätt ogillar jävsinvändningarna i Pirate Bay-målet
mot två av hovrättens domare. Förtroendet för rättsväsendet kräver därför att
hovrätten skall anse att han har varit jävig att handlägga målet " , skriver han.
H.2.7
(SD) Enters Riksdagen
Sverigedemokraterna tar plats i riksdagen och intar rollen som vågmästare.
Varför röstar så många i Sölvesborg på Sverigedemokraterna ? Sverigedemokraterna gynnas hur som helst eftersom det gör deras frågor viktiga. I denna
grupp finns Sverigedemokraterna potentiella väljare. Det blir kanske som allra
tydligast när det gäller de etablerade partiernas sätt att bemöta Sverigedemokraterna. För de potentiella SD-väljarna måste det finnas anledning att rösta på
Sverigedemokraterna. Sverigedemokraterna har givetvis egen del i framgången.
Och det skrämmande är inte att partiet nått riksdagen , utan att det nu sitter där
för att det finns folk som håller med dem. Vi som studerat SD vet att rasismen
finns kvar i partiet. Då är det viktigt att se längre än till bara valrörelsen. De
röstar inte på Sverigedemokraterna trots partiets islamofobi och rasism , utan
på grund av den. Själv säger Jimmie Åkesson att hans mål på sikt är att göra
Sverigedemokraterna till ett trettioprocentsparti. Carina Åhs , som är 42 år ,
röstade på Sverigedemokraterna i valet 2006 , valet innan dess hade hon röstat
på Socialdemokraterna. – Nu är vi i riksdagen , sade han och möttes av ett
stort jubel. Sverigedemokraterna rör upp starka känslor. En annan av förklaringarna till Sverigedemokraternas framgång är att de så tydligt utmålats som
vågmästare. Sverigedemokraterna behöver inte heller övertyga väljarna om
grundsatsen i partiets politik – att vårt land består av " svenskar " och " invandrare ". Att skälla ut partiet istället för att bemöta det utifrån dess politik gynnar
bara Sverigedemokraterna. Siffran Sverigedemokraterna far efter bör alltså
84
vara dessa 11 000 personer. Sverigedemokraterna talar om ett " sammanhållet
Sverige ". Han vill vara anonym och säger att han inte valt Sverigedemokraterna
för deras invandringspolitik som han tycker är för extrem , utan för att " alla
riksdagens andra partier är för gamla och inte tänker nytt ". SD ska dock ta
ansvar , framhöll partiledaren. Sverigedemokraternas inträde i riksdagen blev
dramatiskt. SD vill skära ned invandringen till 10 procent av dagens. Fredrik
Reinfeldt har under kvällen öppnat upp för ett bredare samarbete över blockgränserna för att hålla Sverigedemokraterna utanför makten. SD kallar det
diskriminering av svenskar. – Sverigedemokraterna är ett parti sprunget ur vit
makt-rörelsen och rasistiska rörelser , återkom Sahlin och hävdade att SD är ett
enkelspårigt parti med en enda agenda : att ställa grupp mot grupp och angripa
invandringen. Sverigedemokraterna har nått sitt mål. Där medierna givetvis
spelade en viktig roll. Debattörerna : De andra partierna har inte tagit deras
väljare på allvar Ett nationalistiskt parti har för första gången tagit plats i den
svenska riksdagen. Under några dagar stod Sverigedemokraterna i centrum
för en diskussion som handlade om hur dåligt och farligt partiet var.
H.2.8
The Tsunami in Japan 2011
Ännu en explosion har inträffat på kärnkraftverket Fukushima 1 , den tredje
på några dagar. Ett år efter olyckan vid anläggningen i Fukushima har Japan
blivit en nation av kärnkraftsmotståndare. Än i dag fortsättar anläggningen
i Fukushima att läcka radioaktiv strålning. Problemen med den tredje reaktorn kom sedan ännu en kraftig explosion inträffat tidigt på måndagsmorgonen , svensk tid , i en reaktor på kärnkraftverket. Sedan katastrofen vid
kärnkraftverken Fukushima för ett år sedan har landets reaktorer genomgått säkerhetsinspektioner , och bara två av 54 är i bruk. När olyckorna på kärnkraftverket Fukushima 1 blev allt fler bestämde sig också Love och hans sambo för att
lämna Tokyo. Ägaren till kärnkraftverket , Tokyo Electric Power Company ,
uppger att tre personer som arbetade vid kärnkraftverket skadades vid olyckan.
Det var den 11 mars som Fukushima-verket havererade , efter att nordöstra
Japan drabbats av en kraftig jordbävning och tsunami. Han refererar till vetenskapsmän som kallat Japan ett av världens sju under eftersom landet är platsen
för så många jordbävningar samtidigt som kärnkraften byggts ut med 54 reaktorer. Uppgifterna om den nya explosionen , som inträffade klockan 06.10
lokal tid , innebär att samtliga tre reaktorer vid det skadade kärnkraftverket nu
har drabbats av explosioner. Samtliga bränslestavar vid de tre reaktorerna vid
kärnkraftverket Fukushima 1 riskerar nu att smälta och fyra av fem pumpar
som ska förse reaktorerna med kylvatten har slutat fungera. Några timmar
senare drabbades de av ytterligare en jordbävning som hade sitt centrum bara
några mil från dem. Vi siktar på att åstadkomma ett samhälle som kan klara
85
sig utan kärnkraft " , sade premiärminister Naoto Kan i japansk tv på onsdagen
, fyra månader efter haverierna i Fukushimas kärnkraftverk. - Vi siktar på att
åstadkomma ett samhälle som kan klara sig utan kärnkraft , sade den japanske
premiärministern , enligt BBC. Kritiker har sett händelsen vid det läckande
kärnkraftverket i Fukushima som ett tillfälle för Japan att bryta med den gamla
ordningen då 30 procent av landets elbehov täckts av kärnkraft. Japans strålskyddsmyndighet kunde inte säga om det skett något radioaktivt utsläpp i samband
med explosionen. Personalen vid det havererade kärnkraftverket Fukushima
evakuerades tillfälligt på grund av höjd radioaktivitet men återvände senare.
Detta meddelar regeringskällor i Tokyo enligt nyhetsbyrån Kyodo vid midnatt
svensk tid. Nyhetsbyrån Kyodo uppger att morgonens explosion var en vätgasexplosion. En liknande explosion inträffade i lördags i reaktor 1 i samma
kärnkraftverk. Enligt chefen för atomenergiorganet IAEA , Yukiya Amano ,
kan reaktor nummer 2 ha fått skador på reaktorinneslutningen.
86
TRITA-CSC-E 2012:087
ISRN-KTH/CSC/E--12/087-SE
ISSN-1653-5715
www.kth.se