Le nombre de questions augmente la fiabilité d’un test
La formule suivante permet d'évaluer l'amélioration de fiabilité d'un test lorsque l'on double le nombre de questions :
F2 = (2F1) / (1+F1)
où F1 est la fiabilité du test pour Q questions, et F2 la fiabilité du test pour 2Q questions.
Ce qui se traduit simplement par : "plus il y a de questions, plus le test est fiable", c’est à dire plus la marge d’erreur est réduite. Mais cela traduit une amélioration qui décroit exponentiellement: si le passage de 20 à 40 questions a permis d’améliorer la viabilité de 20%, il faut passer à 80 questions pour obtenir une nouvelle amélioration de 20%, et ainsi de suite.
|
Différentes règles sont à prendre en compte pour définir le nombre de questions
Réduire l’impact des questions de moins bonnes qualités
Un test procède presque toujours par échantillonnage, il n'est donc pas nécessaire que l'utilisateur ait répondu sur chaque sujet pour pouvoir évaluer de manière fiable son niveau. En effet, d'une part la probabilité de tomber par chance sur les points de connaissance connus s’affaiblit, d’autre part l’impact de questions de médiocre qualité devient moindre.
On peut considérer qu’il faut au minimum 30 questions pour faire un test fiable, et si possible viser 40 questions ou plus.
Utiliser l’analyse statistique des réponses
L'analyse statistique des réponses permet de mesurer précisément la fiabilité d’un test et de connaître sa marge d’erreur. Mais avant d'obtenir les premiers résultats, on ne peut que :
-
Travailler à la qualité propre de chaque item,
-
Cibler au-delà de 30 questions.
On visera si possible plutôt 40 questions, ce qui représente 20 à 30 minutes de test. Il faut ensuite évaluer la fiabilité d'un test à partir des résultats d'une population d'utilisateurs réelle.
Selon les cas d’usage, on peut se situer dans une logique d’échantillonnage, ou dans une logique de couverture exhaustive. Si sur la sécurisation d'un chantier, il y a 3 points importants à connaître (balisage, équipements individuels de protection, autorisations à obtenir par exemple), autant s’assurer que les 3 sont connus.
Mais bien sûr, sur certaines thématique (par exemple, l'identification des plantes), l’exhaustivité n’est pas possible, et l’on est dans une logique d’échantillonnage, qui correspond à dire: “il y a 400 points de connaissance à posséder, si j’en teste 40 choisis au hasard, le score obtenu sur ces 40 est représentatif du score que j’aurais obtenu sur les 400”. Dans cette logique, il faut savoir que ce n’est pas tant le ratio (40/400 ou 40/4000) qui compte, mais bien le nombre absolu de points testés.
Imaginons que l’utilisateur connaisse seulement la moitié des points de connaissance. À chaque question posée, il a une chance sur deux de connaître la réponse. Sur 40 questions, la probabilité qu’il ne soit tombé que sur des points qu’il connaît est de 0.5^40, ce qui est pratiquement zéro. Et même s’il avait appris 90% des points, la probabilité que son ignorance des 10% restant passe n’impacte pas ses résultats est encore extrêmement faible. Autrement dit, le résultat du test reflètera de manière très fiable la part de la connaissance qui était effectivement maîtrisée.
Quand on utilise l'évaluation pour certifier des compétences inscrites dans un référentiel, il faut couvrir toutes les capacités du référentiel. Pour une capacité difficile à évaluer, un minimum de 2 ou 3 questions est nécessaire. Pour une capacité où l'on dispose de beaucoup de questions, il n'y a pas de limite mais les questions essentielles (c'est à dire obligatoires au sens de la plateforme LMS / LAS ExperQuiz) devront être intégrées. On constituera le questionnaire en répartissant les questions au prorata de leur nombre dans la base et on écrira les conséquences en fonction des capacités mesurées.
Exemple - Imaginons que la compétence 2-1: Mise en place des végétaux soit composée de 5 capacités à valider par questionnaire et que la répartition des questions soit la suivante :
Mise en place des végétaux :
-
Vérifier l'implantation ( 5 questions)
-
Disposer les végétaux ( 10 questions)
-
Préparer la plantation (25 questions)
-
Implanter les végétaux (20 questions)
-
Assurer le suivi post-plantation (20 questions)
Si l'on choisit de construire une évaluation qui valide les capacités de la compétence 2-1 , on choisira un questionnaire de 40 questions avec :
-
Vérifier l'implantation ( 2 questions)
-
Disposer les végétaux ( 5 questions)
-
Préparer la plantation (13 questions)
-
Implanter les végétaux (10 questions)
-
Assurer le suivi post-plantation (10 questions)
Regarder la durée du test pour définir le nombre de questions
Bien sûr, le temps consacré par le collaborateur à l’évaluation est un critère limitant. D’une part son temps coûte à la société, d’autre part son attention baissera avec le temps et son adhésion également.
Pour cela, il faut privilégier les questions simples (ce qui ne signifie pas faciles), permettant une réponse rapide. Ainsi, on peut viser une moyenne de 20 à 30 secondes par question, ce qui permettra de répondre à 40 questions en 15 à 20 minutes. Pour des certifications majeures, on peut tout à fait aller jusqu’à 100 questions et 35 à 45 minutes.
Créer plus de questions
Enfin, il est toujours préférable de disposer de plus de questions qu’il n’y en aura dans une évaluation. Ceci pour plusieurs raisons :
-
D’une part on pourra repasser une évaluation sans que la mémorisation de quelques points spécifiques ne nuisent au résultat,
-
D’autre part on évitera la transmission de réponses entre collaborateur,
-
Enfin on pourra utiliser une partie du stock de questions pour des tests en accès libre.
Découvrez nos bonnes pratiques pour créer des questionnaires et quiz dans notre article dédié !
|