Mathieu Laï-king* et Patrick Paroubek*
*Université Paris-Saclay, CNRS, Laboratoire Interdisciplinaire des Sciences du Numérique, 91400 Orsay, France
Résumé
La qualité de rapport est un sujet important dans les articles de recherche sur les essais cliniques car elle peut avoir un impact sur les décisions cliniques prises. Nous testons la capacité des larges modèles de langue à évaluer la qualité de rapport de ce type d’article en utilisant les standards fusionnés pour la rédaction d’essais thérapeutiques (CONSORT). Nous créons un corpus d’évaluation à partir de deux études sur la vérification de la qualité de rapport de résumés d’articles avec les standards CONSORT définis pour les résumés. Nous évaluons ensuite la capacité de différents larges modèles de langue génératifs (du domaine général ou adaptés au domaine biomédical) à correctement évaluer chaque critère CONSORT avec différentes méthodes de requêtage (prompting) connues. Notre meilleure association de modèle et de méthode de requêtage obtient 85 % d’exactitude.
Résumé (en anglais)
Reporting quality is an important topic in clinical trial research articles, as it can have an impact on the clinical decisions made. In this article, we test the ability of large
language models to assess the reporting quality of this type of article using the Consolidated Standards of Reporting Trials (CONSORT). We create an evaluation corpus from two studies on abstract reporting quality with CONSORT-abstract standards. We then evaluate the ability of different large generative language models (from the general domain or adapted to the biomedical domain) to correctly assess CONSORT criteria with different known prompting methods. Our best combination of model and prompting method achieves 85 % accuracy.
language models to assess the reporting quality of this type of article using the Consolidated Standards of Reporting Trials (CONSORT). We create an evaluation corpus from two studies on abstract reporting quality with CONSORT-abstract standards. We then evaluate the ability of different large generative language models (from the general domain or adapted to the biomedical domain) to correctly assess CONSORT criteria with different known prompting methods. Our best combination of model and prompting method achieves 85 % accuracy.
Paru dans
Document
Rank
1