entretiens

Entretien avec Chritophe Guizard, Chargé de mission valorisation et partenariats industriels – IRSTEA –

-> site web IRSTEA

– Christophe Guizard –

Directeur Adjoint UMR Itap

Chargé de mission valorisation et partenariats industriels – IRSTEA –

 

Entretien conduit par Agnès Robin (MCF HDR à l’Université de Montpellier) et Benoît Humblot (EC HDR à l’EPF) le 10 juillet 2017

L’ISTEA est un organisme de recherche pour l’environnement qui fournit aussi des prestations d’expertise de haut niveau.

L’IRSTEA est un organisme un peu « atypique ». Le volet académique est assez récent. C’est une structure issue de la fusion du centre technique du machinisme agricole et d’un service d’appui aux politiques publiques du Ministère de l’Agriculture. L’institution se confronte beaucoup au normatif, au soutien à l’élaboration et au suivi de la réglementation. Le passé en ingénierie marque encore beaucoup l’institution mais l’IRSTEA a désormais un fort ancrage dans le monde de la recherche académique.

L’ISTEA produit depuis longtemps de nombreuses données. L’institution encourage-t-elle leur diffusion ?

La diffusion des données est encouragée mail elle ne va pas de soi. Les raisons sont multiples. On peut citer la peur d’en perdre la maîtrise et d’en laisser l’exploitation aux industriels ; même si ce motif est moins présent aujourd’hui. Il peut y avoir aussi une certaine crainte pour le chercheur de se confronter à certaines réalités ; cela peut notamment venir de doutes sur la méthodologie d’acquisition des données ou sur leur validation. A côté, il y a le chercheur qui souhaite donner la priorité au bénéfice collectif, qui est dans une logique d’ouverture universelle. Bref, les postures peuvent être diverses ; il faut tenir compte de toutes ces sensibilités individuelles.

Publier les jeux de données est pourtant utile pour les chercheurs. Cela les encourage à constituer des jeux de données plus rigoureux. Cela compte aujourd’hui comme une publication (data paper). Le chercheur doit détailler les modes d’acquisition, d’archivage. Il y a désormais des portails spécialisés dans la diffusion de ces données. Deux ou trois portails référencés par l’Europe proposent leurs services aux chercheurs. C’est aussi une manière de publier sans parler de l’utilisation de ces données, donc sur les résultats de l’action de recherche.

La diffusion ne va pas de soi non plus pour des raisons qui tiennent aux données elles-mêmes. Les données ne sont pas toujours utilisables par quelqu’un qui n’a pas participé à l’expérimentation. Leur validation, la méthodologie d’acquisition, les critères de la collecte, le nombre de paramètres, leur qualification, etc., il y a tout un environnement spécifique autour de l’acquisition des données qui doit être connu et maîtrisé pour en extraire valablement des utilités. Un jeu de données tout seul n’a qu’une valeur limitée. Un exemple simple : un jeu de données de sol perdra probablement de sa pertinence si l’on n’a pas les informations météorologiques liées à leur acquisition.

Les données sont un socle mais elles sont insuffisantes en elles-mêmes. Ce qui est important c’est que l’on peut en faire. En ce sens, les démarches open data sont pertinentes et riches : on ne peut pas préfigurer ce que l’on va faire des données. Il y a lieu d’être favorable à cette mise à disposition des données. Nous travaillons par exemple avec des fermes DEFI qui sont référentes en EcoPhyto. Les données y sont collectées de manière rigoureuse et les jeux de données qui en résultent deviennent d’intérêt général. Ces données ont vocation à être publiques et référentes et ainsi à l’origine d’une normalisation, c’est dans l’intérêt de tout le monde

Peut-on penser que l’Intelligence artificielle puisse permettre d’extraire des résultats probants même si l’environnement du jeu de données n’est pas connu ?

C’est peut-être possible, les réseaux de neurones, le machine learning… mais l’apprentissage de la machine est en vérité lié aux données elles-mêmes. Si l’on propose un autre jeu de données on aura probablement un autre résultat. Même en IA on ne s’affranchi pas de la prise en considération de l’environnement d’acquisition de ces données… Il ne faut pas minorer l’expertise du scientifique, une certaine forme de subjectivité même ; le jugement humain intègre de nombreux facteurs et en l’état il est difficile de faire entrer cette part de subjectivité, de savoir sensible, dans la machine.

Cela amène à considérer qu’un industriel ne peut tirer parti d’un jeu de données que s’il s’adjoint la collaboration des chercheurs qui les ont produites ?

L’industriel qui s’intéresse à la recherche doit avoir une posture particulière s’il veut réussir. Le retour sur investissement sera d’autant plus rapide qu’il saura tirer parti des résultats intermédiaires de la recherche. Ces résultats intermédiaires sont mieux transférables, plus exploitables. Le chercheur de son côté doit encore développer pour aller plus loin, mais les étapes intermédiaires sont industriellement récupérables. L’industriel doit donc savoir exploiter ces étapes ; ne pas être dans l’attente d’une solution clé en main produite par le chercheur car celui-ci travaille dans une autre perspective. L’industriel doit extraire d’un matériau académique générique un cas particulier applicatif pour son entreprise. Pour le reste, il n’y a aucune antinomie à être chercheur et à travailler avec le monde économique. Cela n’empêche pas de publier et les questions de confidentialité se solutionnent très bien. De bonnes pratiques ont été mises en place à l’IRSTEA, comme l’utilisation du cahier de laboratoire ou la mise en œuvre d’une démarche qualité quant à l’environnement de la recherche (archivage, process de décision, validation, traçabilité). Par ailleurs, les entreprises sont sensibles à ce sujet mais comprennent aussi la nécessité de publier.

Les startups sont plus accessibles pour les chercheurs car elles sont généralement issues du même monde. C’est par ce canal que le transfert se réalise le mieux. Les mentalités changent aussi, autrefois, l’entrepreneur ne voulait pas envisager la vente de son affaire et cela pouvait être un frein à son développement. Maintenant, la cession à un industriel plus important est naturelle et, du côté des industriels, il y a une tendance à laisser faire ces petites sociétés, à externaliser en quelque sorte cette première étape délicate du transfert et à racheter le moment venu, lorsque le projet est mature.

Dans vos contrats, la question des données fait-elle l’objet d’un traitement spécifique ?

D’une manière générale, il y a toujours des clauses relatives aux questions de confidentialité, ce qui est classique dans les contrats où l’on a de la propriété intellectuelle. Jusqu’à maintenant, il n’y avait pas vraiment de clauses spécifiques aux données mais cela commence à changer. Le contrat de transfert n’envisage souvent que les points qui portent en eux-mêmes un enjeu économique.

Les gens pensent que les données valent beaucoup, mais c’est parce qu’ils voient l’applicatif derrière, sans mesurer que ce n’est pas la donnée seule qui a généré le service. En vérité, le coût d’acquisition des données va en se réduisant ; il n’est que de penser au crowdsourcing. Même chose pour les coûts de stockage. Par contre, il faut souligner l’aspect humain, les savoir-faire liés à l’exploitation des données. Ainsi, la valeur est-elle plus dans le doctorant que dans le jeu de données lui-même. Ce sont des points à prendre en compte si l’on veut maîtriser la circulation du savoir.

Les données sont cependant au cœur de la recherche ?

Je me souviens d’une conférence de Louis Le Prince Ringuet où il nous disait qu’il avait travaillé avec « des bouts de ficelle », sans matériel expérimental élaboré. Le monde de la recherche a bien changé ; d’une part pour des raisons d’hyperspécialisation et d’autre part en raison de l’évolution permanente des outils expérimentaux. Cela nous amène à considérer la temporalité des données. Les données acquises dans le passé n’ont peut-être pas la finesse, la robustesse des données actuelles. Outre le fait que les formats de stockage sont obsolètes : que faire des données des années 80 stockées sur disquettes dans des formats illisibles  ? Cela dépend aussi des milieux. Dans certains domaines, la culture de l’archivage n’est pas trop répandue, il n’y a pas vraiment de capitalisation. Dans certains domaines technologiques seules les données récentes sont perçues comme sérieuses, solides ; on imagine mal citer des données anciennes.

S’ajoutent à cette évolution qualitative des avancées dans la compréhension des phénomènes. On mesure différemment. L’utilité des constatations peut avoir changé. Par exemple on sait aujourd’hui qu’il ne suffit pas de mesurer l’humidité des sols pour déterminer le stress hydrique. Il vaut mieux étudier le comportement de la sève dans la plante.

 

Catégories :entretiens

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

w

Connexion à %s