Calcul du coefficient de regroupement

J'ai mes données sous la forme telles que:

------------------------------------------------------------------------------- Author_ID Year CoAuthor_Count High Medium Low Deviant Paper_Count ------------------------------------------------------------------------------- 677 2005 1 1.00 0.00 0.00 0.00 3 677 2007 3 0.66 0.00 0.33 0.00 1 677 2009 1 0.00 1.00 0.00 0.00 1 677 2011 5 0.60 0.00 0.40 0.00 1 677 2012 2 1.00 0.00 0.00 0.00 1 677 2013 5 0.60 0.40 0.00 0.00 2 1359 2005 11 0.00 0.00 0.81 0.18 11 1359 2006 27 0.00 0.14 0.70 0.14 20 1359 2007 29 0.00 0.06 0.62 0.31 12 1359 2008 29 0.00 0.10 0.55 0.34 13 1359 2009 28 0.00 0.32 0.53 0.14 18 1359 2010 22 0.04 0.18 0.59 0.18 14 ... ... ... 

alors que les colonnes High , Medium , Low et Deviant représentant la valeur de similarité entre Author et CoAuthor . Dans la même forme, j'ai également datatables concernant les similitudes et les points d' Author et de Venue .

J'ai utilisé Microsoft Clustering pour regrouper ces données, mais il a réussi à atsortingbuer à chaque ligne une label de cluster.

Mais le problème est que je veux calculer les coefficients de regroupement de ces données, alors que datatables doivent être sous forme graphique (noeuds, arêtes) pour calculer les coefficients de grappe.

Comment le coefficient de regroupement de ces données peut-il être calculé?

    MS Clustering ne vous donne aucune formule pour calculer le coefficient de regroupement (local) d'un auteur.

    Plutôt le Microsoft Clustering vous donne (selon la documentation) deux algorithms, k-means Clustering et EM Clustering (qui est lié à k-Means, il est plus général ). D'une manière générale, ce sont des methods pour structurer l'set de données dans son set.

    Le «Coefficient de regroupement» que vous searchz probablement est plus une propriété du réseau de relations d'un auteur.

    C'est un cas de nommage malheureux. Il existe un nom / atsortingbut pour différents concepts:

    • "Algorithmes de regroupement", les methods d'apprentissage machine non surveillées
    • "Coefficient de regroupement", la mesure de la théorie des graphes

    Le coefficient de regroupement local peut être calculé comme suit

     for each author create a list of coauthor-ids of this author (this column is missing in your table) for all coauthor-ids from that list, count/sum the the unique mutual coauthorship-pairs between them, but not with the author himself Divide this by the number of coauthors per author (you already have this one, CoAuthor_Count) 

    Voir l'illustration à droite de la page wikipedia ci-dessus.

    Je n'ai pas cherché des plugins Excel ou des modules VBA ou Add-Ins qui le font.