Offre de thèse
Dialogue entre algorithmes de clustering pour l'identification de communautés sur les réseaux sociaux à des fins de recommandation de ressources artistiques
Date limite de candidature
30-04-2025
Date de début de contrat
01-10-2025
Directeur de thèse
BOUDJELOUD-ASSALA Baya Lydia
Encadrement
Geoffray Bonnin (50%) Lydia Boudjeloud-Assala (50%)
Type de contrat
école doctorale
équipe
ORPAILLEURcontexte
Les systèmes de recommandation constituent un domaine de recherche très actif dont l'objectif est de fournir des recommandations personnalisées à des utilisateurs, au sein d'un espace de données important. Les types de recommandations sont très divers, et vont des films aux produits de commerce en ligne, en passant par la musique, les ressources éducatives et même les utilisateurs. Les défis scientifiques de ce domaine sont très nombreux. Ils peuvent par exemple concerner la neutralité des algorithmes, leur explicabilité, leur inclusivité, l'adoption des ressources recommandées, leur impact, etc. Bien que proposée dès l'apparition des systèmes de recommandation en tant que domaine de recherche, l'une des approches les plus efficaces et les plus populaires est aujourd'hui encore le filtrage collaboratif, qui recommande aux utilisateurs les ressources appréciées par les utilisateurs qui leur sont similaires. L'hypothèse sous-jacente est que les individus qui se ressemblent le plus auront aussi des préférences similaires. Cette thèse s'intéresse ainsi à deux objectifs de recherche complémentaires : O1 - Proposer un algorithme de dialogue entre algorithmes de clustering complémentaires afin d'identifier des communautés pertinentes O2 - Proposer un algorithme de recommandation prenant en compte la subjectivité, l'intersubjectivité et la transversalitéspécialité
Informatiquelaboratoire
LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Mots clés
Clustering, Recommandation, réseaux sociaux
Détail de l'offre
Les systèmes de recommandation constituent un domaine de recherche très actif dont l'objectif est de fournir des recommandations personnalisées à des utilisateurs, au sein d'un espace de données important. Les types de recommandations sont très divers, et vont des films aux produits de commerce en ligne, en passant par la musique, les ressources éducatives et même les utilisateurs. Les défis scientifiques de ce domaine sont très nombreux. Ils peuvent par exemple concerner la neutralité des algorithmes, leur explicabilité, leur inclusivité, l'adoption des ressources recommandées, leur impact, etc.
Bien que proposée dès l'apparition des systèmes de recommandation en tant que domaine de recherche, l'une des approches les plus efficaces et les plus populaires est aujourd'hui encore le filtrage collaboratif, qui recommande aux utilisateurs les ressources appréciées par les utilisateurs qui leur sont similaires. L'hypothèse sous-jacente est que les individus qui se ressemblent le plus auront aussi des préférences similaires.
Cette hypothèse peut cependant ne pas être suffisante où une part intersubjective, c'est-à-dire influencée par les communautés auxquelles l'individu appartient, et une part plus transverse, c'est-à-dire qui dépasse ces communautés. Prendre en compte cette considération implique de connaître les communautés auxquelles chaque utilisateur appartient. Un prérequis est donc la détection de communautés, qui représente un domaine de recherche à part.
L'identification de communautés sur les réseaux sociaux est généralement effectuée selon deux types d'approches de clustering. La première consiste en l'exploitation de la similarité entre les individus du réseau social considéré en fonction de leurs caractéristiques. La seconde consiste en l'exploitation du graphe des liens sociaux explicites entre les individus.
L'une des problématiques de cet autre domaine de recherche est l'évaluation de la pertinence des communautés extraites. Une solution répandue consiste à vérifier d'une part que les individus au sein de chaque groupe sont fortement similaires (haute similarité intra-cluster), et d'autre part que la similarité entre les individus de groupes différents est faible (faible similarité inter-cluster). Le problème de cette solution est qu'un score élevé calculé selon ce type de critères ne correspond pas forcément à des communautés pertinentes, en particulier pour le cas de la recommandation de ressources artistiques.
Une manière possible d'amoindrir ce problème serait de croiser deux points de vue différents, chacun correspondant à l'un des deux types d'approches de clustering mentionnées ci-dessus. En effet, ces deux types d'approches utilisant des informations très différentes en entrée, leurs sorties sont souvent très différentes elles aussi. Or, la meilleure version de chacune de ces approches devrait en principe produire des communautés aussi proches des communautés réelles du réseau social considéré que possible, et leurs sorties respectives devraient elles aussi être aussi similaires que possible. La pertinence d'un algorithme correspondant à l'un de ces deux types d'approches pourrait ainsi être évaluée en fonction de la distance entre sa sortie et celle
d'un algorithme de l'autre type. Il semblerait donc pertinent de rechercher une stratégie de dialogue qui, étant donnés deux algorithmes des deux types (similarité et liens sociaux), permette à ces algorithmes de converger vers des sorties aussi similaires que possible.
Placer cette seconde problématique dans le cadre des systèmes de recommandations a un double intérêt. D'une part, cela permet d'étudier dans quelle mesure prendre explicitement en compte les communautés permet d'améliorer la qualité des recommandations; d'autre part, la qualité des recommandations constitue elle-même un critère d'évaluation objectif complémentaire des algorithmes de clustering.
Keywords
Clustering, Recommendation, social network
Subject details
Recommender systems are a very active area of research, the aim of which is to provide personalized recommendations to users, within a large data space. The types of recommendations are very diverse, ranging from movies to e-commerce products, music, educational resources and even users. The scientific challenges in this field are numerous. They may, for example, concern the neutrality of algorithms, their explicability, their inclusivity, the adoption of recommended resources, their impact, etc. Although proposed as early as the emergence of recommender systems as a field of research, one of the most effective and popular approaches today is still collaborative filtering, which recommends to users the resources appreciated by users who are similar to them. The underlying assumption is that individuals who are most similar to each other will also have similar preferences. This assumption may not be sufficient, however, where an intersubjective part, i.e. influenced by the communities to which the individual belongs, and a more transverse part, i.e. which goes beyond these communities. Taking this into account requires knowledge of the communities to which each user belongs. A prerequisite for this is community detection, which represents a separate field of research. The identification of communities on social networks is generally carried out using two types of clustering approach. The first involves exploiting the similarity between individuals in the social network under consideration, based on their characteristics. The second involves exploiting the graph of explicit social links between individuals. One of the problems in this other field of research is evaluating the relevance of the communities extracted. A common solution is to check that individuals within each group are highly similar (high intra-cluster similarity), and that similarity between individuals in different groups is low (low inter-cluster similarity). The problem with this solution is that a high score calculated according to this type of criteria does not necessarily correspond to relevant communities, particularly in the case of recommending artistic resources. One possible way of alleviating this problem would be to cross-tabulate two different points of view, each corresponding to one of the two types of clustering approach mentioned above. Indeed, since these two types of approach use very different input information, their outputs are often very different too. However, the best version of each of these approaches should, in principle, produce communities that are as close as possible to the real communities of the social network under consideration, and their respective outputs should also be as similar as possible. The relevance of an algorithm corresponding to one of these two types of approach could thus be evaluated according to the distance between its output and that of an algorithm of the other type. It would therefore seem appropriate to seek a dialogue strategy which, given two algorithms of the two types (similarity and social links), enables these algorithms to converge towards outputs that are as similar as possible. Placing this second problem in the context of recommender systems has a twofold interest. On the one hand, it allows us to study the extent to which explicitly taking communities into account can improve the quality of recommendations; on the other hand, the quality of recommendations itself constitutes a complementary objective evaluation criterion for clustering algorithms.
Profil du candidat
Niveau M2 ou école d'ingénieur, Compétence en informatique, IA, Machine learning, data mining, R, Python
Candidate profile
Candidates must be at Master 2 level or have graduated from an engineering school and have skills in computer science, AI, machine learning, data mining, R, Python.
Référence biblio
[1] Joyce Jiyoung Whang, Yangyang Hou, David F. Gleich, Inderjit S. Dhillon, Non-Exhaustive, Overlapping Clustering. IEEE Trans. Pattern Anal. Mach. Intell. 41(11): 2644-2659 (2019).
[2] Nina Mishra, Robert Schreiber, Isabelle Stanton, Robert Endre Tarjan, Clustering Social Networks. WAW 2007: 56-67 (2007).
[3] Scott Emmons, Stephen G. Kobourov, Mike Gallant, Katy Börner, Analysis of Network Clustering Algorithms and Cluster Quality Metrics at Scale. CoRR abs/1605.05797 (2016).
[4] Elke Achtert, Sascha Goldhofer, Hans-Peter Kriegel, Erich Schubert, Arthur Zimek, Evaluation of Clusterings - Metrics and Visual Support. ICDE 2012: 1285-1288 (2012)
[5] Clustering Indices. Bernard Desgraupes University Paris Ouest Lab Modal X. (2013).
[6] Alexandre Blansché, Lydia Boudjeloud-Assala, Processus itératif d'extraction de classes en non supervisée. EGC 2013: 9-14, (2013).
[7] Jaewon Yang, Julian J. McAuley, Jure Leskovec, Community Detection in Networks with Node Attributes. CoRR abs/1401.7267 (2014).
[8] Germain Forestier, Pierre Gançarski, Cédric Wemmert. Collaborative clustering with background
knowledge. Data and Knowledge Engineering, Elsevier, 69 (2), pp.211 – 228, (2010).
[9] Jacques-Henri Sublemontier, Guillaume Cleuziou, Matthieu Exbrayat, Lionel Martin, Clustering multi-vues : une approche centralisée. Fouille de données complexes, 101-122, (2011).