Santosh Tirunagari, Maria Hanninen, Guggilla Abhishek, Kaarle Stahlberg e Pentti Kujala
O agrupamento não supervisionado de documentos é um processo automatizado no qual os documentos são analisados ??com base na sua semelhança. Neste artigo, propomos um novo método de seleção de características baseado em relações causais para classificar os relatórios de acidentes marítimos de forma não supervisionada. Comparámos também o impacto de diferentes medidas de similaridade no método de seleção de características proposto. Com base na análise, concluímos que o método de seleção de características proposto apresenta um melhor desempenho em relação ao método convencional devido ao efeito da maldição da dimensionalidade. O impacto das medidas de similaridade melhora com o método de seleção de características proposto. Na análise, comparamos as medidas de correlação, coseno, Spearman, Bray-Curtis, euclidiana, quarteirão, euclidiana quadrada, euclidiana padronizada e Chebychev. Os dois primeiros produziram os melhores resultados, seguidos dos dois seguintes. O resto não produziu bons resultados com os relatórios de acidentes marítimos utilizados na nossa análise. Curiosamente, o Qui-Quadrado deu bons resultados com o método proposto na nossa análise.