Crowdsourcing et bases de données

Le Crowdsourcing Pub Date : 2021-06-02 DOI:10.17184/eac.3914

François Vignale

{"title":"Crowdsourcing et bases de données","authors":"François Vignale","doi":"10.17184/eac.3914","DOIUrl":null,"url":null,"abstract":"La base de données EuRED (European Reading Experience Database) vise à rassembler des expériences de lecture des Européens de l’invention de l’imprimerie à nos jours. Cette preuve de concept a nécessité la mise au point d’une ontologie, de thesaurus et l’adoption du standard xml-TEI et s’appuie sur la réutilisation de données existantes (35 000 fiches) qui proviennent de la base britannique UK-RED lancée en 2006. Cette dernière a été constituée par des bénévoles formés à l’utilisation et par le grand public lesquels, soit dépouillaient des corpus d’auteurs, soit déposaient des témoignages familiaux, ce qui a généré malheureusement un nombre si important d’erreurs diverses que la possibilité de réutiliser ces données s’en trouvait menacée. Ces obstacles nous ont conduit à encadrer la participation du public dans EuRED et plus encore dans un projet H2020 qui en est la suite et qui prévoit également l’exploration de données massives. Ici, notre approche de la science participative et du crowdsourcing repose sur deux axes : 1) la contribution sera toujours possible mais avec une saisie contrôlée pointant vers des référentiels externes et internes ; 2) l’amélioration continue de ces mêmes thesaurus et des algorithmes d’exploration sera rendue possible par les retours d’utilisateurs non-professionnels et de citoyens-experts. Ce sont les constats qui ont guidé cette réflexion et les orientations retenues que nous souhaitons présenter dans cet article.","PeriodicalId":259385,"journal":{"name":"Le Crowdsourcing","volume":"56 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2021-06-02","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Le Crowdsourcing","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.17184/eac.3914","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}

引用次数: 0

Abstract

La base de données EuRED (European Reading Experience Database) vise à rassembler des expériences de lecture des Européens de l’invention de l’imprimerie à nos jours. Cette preuve de concept a nécessité la mise au point d’une ontologie, de thesaurus et l’adoption du standard xml-TEI et s’appuie sur la réutilisation de données existantes (35 000 fiches) qui proviennent de la base britannique UK-RED lancée en 2006. Cette dernière a été constituée par des bénévoles formés à l’utilisation et par le grand public lesquels, soit dépouillaient des corpus d’auteurs, soit déposaient des témoignages familiaux, ce qui a généré malheureusement un nombre si important d’erreurs diverses que la possibilité de réutiliser ces données s’en trouvait menacée. Ces obstacles nous ont conduit à encadrer la participation du public dans EuRED et plus encore dans un projet H2020 qui en est la suite et qui prévoit également l’exploration de données massives. Ici, notre approche de la science participative et du crowdsourcing repose sur deux axes : 1) la contribution sera toujours possible mais avec une saisie contrôlée pointant vers des référentiels externes et internes ; 2) l’amélioration continue de ces mêmes thesaurus et des algorithmes d’exploration sera rendue possible par les retours d’utilisateurs non-professionnels et de citoyens-experts. Ce sont les constats qui ont guidé cette réflexion et les orientations retenues que nous souhaitons présenter dans cet article.

查看原文

微信好友朋友圈 QQ好友复制链接

本刊更多论文

众包让我们的生活更加轻松

欧洲阅读经验数据库(EuRED)旨在收集从印刷术发明到现在欧洲人的阅读经验。这个概念验证需要开发本体、同义词典和采用xml-TEI标准，并基于重用现有数据(35000条记录)，这些数据来自于2006年启动的英国UK-RED数据库。后者是由受过使用训练的志愿者和公众组成的，他们要么挖掘作者的语料库，要么提交家庭证词，不幸的是，这导致了大量不同的错误，以至于这些数据的重复使用受到了威胁。这些障碍促使我们为公众参与EuRED以及随后的H2020项目提供了框架，该项目还包括对大数据的探索。在这里，我们的参与式科学和众包方法基于两个轴:1)贡献总是可能的，但有指向外部和内部参考的受控输入;2)这些相同的同义词典和探索算法的持续改进将使非专业用户和公民专家的反馈成为可能。我们希望在本文中提出的是指导这一讨论的调查结果和所采用的指导方针。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文去求助