Abridged English version
Estimating concentrations of pollutants along a stream network makes it necessary to take into account the geometry of the network. Usual geostatistical models as the spherical covariance were developed for Euclidean space, and are no more valid on tree graphs. Generalizing recent models [2,11,12] built on stream segments, we present a construction combining one-dimensional Random Functions (RF) defined on each path between sources and the outlet.
Ver Hoef et al. [12] developed a class of valid models derived from the one-dimensional moving average method. Integrating a kernel function upstream from a location (Eq. (11bis), Annex 2), they obtain a random function Z whose values upstream of any fork are independent on the different parts of the network. The moving average is calculated by distributing the kernel function on the upstream segments with a proper weighting, to ensure that the variance is constant (Fig. 2 and Eq. (12)). On each segment, the covariance , derived from the kernel function, is stationary. Between two ‘stream connected’ points and , the covariance is equal to up to a weighting term, depending on the weights attached to the segments ending at the nodes lying between and (Eq. (6)).
This model can be simplified and generalized, considering the one-dimensional random functions defined on each path linking one source to the outlet. When different paths join at a node, the resulting random function Z downstream is a linear combination of the corresponding (Eq. (1)) using their respective weights. When the kernel function is defined on the half-line, this model is equivalent to the Ver Hoef one. But any one-dimensional random function model can now be used for the : for example, the kernel function can be symmetric. This model is easily extended when the different are spatially correlated: the values of Z on two segments upstream from a node are now correlated. Intrinsic RF can be considered too. This can be useful, for example, to describe flow rates that usually increase along the stream.
In the previous models, the RF Z is discontinuous at each node, in the mean square sense (or equivalently, its variogram or covariance is discontinuous at the nodes) and stationary or intrinsic on each segment between nodes. For points belonging to different segments, the variogram or the covariance depends on the weights.
To obtain RF without discontinuities at the nodes along each stream, Monestiez et al. [11] and Bailly et al. [2] constructed a model running in the opposite sense, from the outlet to the sources. It is based on a conditional independence between parts of the network upstream a node, knowing Z downstream, between the node and the outlet. The covariance of Z along each stream can be any one-dimensional covariance. The covariance between points on two different streams is given in the present paper (Eq. (10)). Extending the model to variograms and thus to intrinsic random functions on each stream, we obtain the linear variogram as a particular case.
We prove that among the covariances or variograms, which only depend on the distance along the tree, only the exponential and the linear scheme are consistent with the conditional independence hypothesis, and can then be constructed this way.
All the previous models can be incorporated in a linear coregionalization model defined on a stream network for a multivariate modeling of concentrations.
1 Introduction
Estimer des flux, des concentrations ou la quantité de matières en suspension [6] dans un réseau hydrographique à partir des mesures aux stations nécessite de tenir compte de la géométrie du réseau. Or les modèles géostatistiques usuels, développés dans des espaces euclidiens de dimensions deux ou trois, voire quatre pour les phénomènes spatiotemporels, ne sont généralement plus valides pour des variables définies sur un « support arborescent ». En effet, les théorèmes de Bochner et de Schoenberg font explicitement intervenir la distance euclidienne dans la caractérisation spectrale des covariances ou des variogrammes (voir par exemple [3]).
Utilisant la distance curviligne le long d'un réseau hydrographique, Ver Hoef et al. [12] montrent ainsi que, pour le schéma sphérique, certaines valeurs propres de la matrice de covariance peuvent être négatives. Comme conséquence pratique, les variances calculées avec ce « modèle » peuvent également devenir négatives. D'où la nécessité de modèles de covariances ou de variogrammes adaptés à la topologie des graphes.
Les fondements théoriques ont été récemment établis pour des fonctions aléatoires (FA) définies sur les sommets d'un graphe [7]. Le problème se pose différemment pour une FA définie sur un support continu, c'est-à-dire en tout point des arêtes du graphe. Seuls les graphes à structure « d'arbre » sont considérés dans la suite, ce qui exclut le cas de canaux reliant différents cours d'eau ou réseaux hydrographiques. Deux classes de FA ont été proposées récemment, fondées sur une construction des sources vers l'exutoire [12] ou, en sens inverse, de l'exutoire vers les sources [2,11].
Nous proposons ici une construction par combinaison de FA monodimensionnelles quelconques. Les modèles ainsi obtenus sur l'arbre présentent des discontinuités aux confluences ; ils généralisent le modèle Ver Hoef [12], qui correspond au cas particulier où la covariance est l'autoconvoluée d'une fonction définie sur la demi-droite. Des résultats complémentaires sont ensuite donnés pour le modèle Bailly–Monestiez [2,11], continu aux confluences. Ces deux classes sont généralisées au cas intrinsèque, les modèles non stationnaires permettant notamment de représenter des débits, généralement croissants dans le sens de l'écoulement.
2 Éléments bibliographiques
2.1 Différents modèles de FA sur un arbre
À la suite de Monestiez [10], pour modéliser le résidu sec des fruits sur un pêcher, Audergon et al. [1] calculent les variogrammes expérimentaux selon quatre distances définies sur l'arbre. Retenant comme distance le nombre d'embranchements entre deux points, les auteurs ajustent une covariance exponentielle, et effectuent un krigeage. Lorsque plusieurs distances apparaissent pertinentes, le choix de la plus appropriée est une étape importante de la modélisation.
Pour modéliser la largeur du fluvisol dans la partie aval du réseau hydrographique de l'Hérault [11] ou les fossés de drainage du bassin de Roujan [2], ces auteurs construisent une FA sur un arbre, de l'exutoire vers les sources, en posant une hypothèse d'indépendance conditionnelle entre points situés sur des cours d'eau différents, connaissant l'ensemble des valeurs à l'aval de leur confluence. Par cours d'eau, tous les modèles de covariance monodimensionnelle sont admissibles ; entre points situés sur des cours d'eau différents, la covariance n'est pas stationnaire. Des simulations conditionnelles sont présentées.
Ver Hoef et al. [12] proposent une construction en sens inverse, des sources vers l'exutoire. Posant une hypothèse d'indépendance entre rivières à l'amont de leur confluence, ces auteurs adaptent le procédé classique des moyennes mobiles, en répartissant sur les arêtes, à l'amont des confluences, le « noyau » défini sur la demi-droite. Ils estiment ensuite par krigeage (ponctuel ou de bloc) la concentration en métaux lourds le long d'un réseau hydrographique. Cressie et al. [5] reprennent ce modèle en combinant distance euclidienne et distance curviligne.
Cressie et al. [4] présentent une modélisation spatiotemporelle de la concentration en nitrates le long d'une rivière drainant un bassin versant. La structure du réseau hydrographique n'intervient pas dans la modélisation effectuée en deux dimensions, le temps et une dimension d'espace, via l'abscisse curviligne le long de la rivière. Une dérive multiple permet de prendre en compte la saisonnalité ainsi que de nombreuses variables décrivant le « milieu ».
Le développement de modèles de FA définies sur un support arborescent répond notamment à la nécessité d'une quantification précise des concentrations en différents polluants le long des cours d'eau. Seul l'aspect spatial est ici examiné.
2.2 Stationnarité
Sauf mention contraire, on examine les propriétés d'ordre deux des FA, c'est-à-dire leur covariance ou leur variogramme.
Une covariance (respectivement un variogramme) est dite stationnaire si elle ne dépend que de la distance curviligne entre deux points du graphe, et non stationnaire lorsqu'elle dépend des deux points séparément. Si la covariance sur les arêtes dépend de leur orientation, celle sur l'ensemble du graphe est considérée comme non stationnaire.
3 Combinaison de FA monodimensionnelles
Sur tout arbre, nous construisons une classe de FA par combinaison de « processus » définis sur des segments.
3.1 Principe de la construction
Soient deux affluents, de débits respectifs et de concentrations et immédiatement à l'amont de leur confluence ; juste à l'aval, le débit et la concentration s'obtiennent par combinaison linéaire des variables définies sur les affluents. À la confluence, le débit et la concentration présentent une discontinuité.
Prolongeons les affluents en les considérant comme des « filets d'eau » distincts, dont la réunion forme les « rivières ». Pour chaque filet, nous définissons, de la source à l'exutoire, un débit et une concentration, fonctions de l'abscisse curviligne comptée depuis l'exutoire. À l'aval des confluences successives depuis les sources, les débits des filets se cumulent pour former le débit total, et la concentration dans la rivière se ramène à une combinaison des concentrations des différents filets, en proportion de leur débit relatif. On en déduit un procédé général de construction de FA sur un arbre.
Lorsque le rapport des débits des « filets » reste constant entre deux confluences, les coefficients de la combinaison linéaire des concentrations des « filets » sont constants par arête, et changent aux confluences. Nous examinerons d'abord ce modèle simplifié.
3.2 Définitions et notations
Nous utilisons la terminologie géographique usuelle, complétée par celle relative aux graphes. Certaines notations sont reprises de [12].
Le réseau hydrographique est représenté par un arbre dont les sommets sont les sources, les confluences ou l'exutoire, supposé unique. Une « rivière » désigne un chemin d'une source vers l'exutoire ; le nombre de rivières est égal à celui des sources. Toute arête est caractérisable par les indices des rivières qui la traversent (Fig. 1a et b).
Deux points sont reliés (au fil de l'eau), si l'un est à l'aval de l'autre ; ils appartiennent alors à une ou à plusieurs rivières communes. Deux points non reliés sont situés sur des rivières différentes, à l'amont de leur confluence. Par analogie, deux arêtes sont « reliées » si l'une est à l'aval de l'autre, et non reliées dans le cas contraire.
Les rivières sont indicées en majuscules par leur source ; les arêtes sont notées en minuscules. L'arête à l'aval immédiat d'une source est aussi indicée par la source. Toute rivière a donc le même numéro que son arête amont. Tout point du réseau hydrographique, noté ou , est repérable par sa distance curviligne s, comptée positivement depuis l'exutoire (où ), ainsi que par le numéro i de son arête ou celui J d'une des rivières passant par cette arête (Fig. 1c et d). Le sommet amont appartient à l'arête i ; le sommet aval, considéré comme l'amont de l'arête suivante dans le sens du courant, n'appartient pas à l'arête i. L'ensemble des indices des arêtes à l'amont de l'arête i, excluant i, est noté et l'ensemble des indices des arêtes à l'aval de l'arête i, incluant cette arête, . L'ensemble des indices des arêtes situées entre et est :
- – vide si les arêtes ne sont pas reliées ;
- – égal à pour deux arêtes reliées, celle à l'amont étant incluse, et celle à l'aval, exclue.
L'ensemble des indices des arêtes sur la rivière J à l'amont de l'arête i (cette arête étant exclue) est noté désigne l'ensemble des indices des rivières passant par l'arête i. L'abscisse de la confluence des rivières I et J est notée , et l'abscisse de la confluence des rivières passant par les arêtes i et . La distance curviligne le long de l'arbre est alors :
- • sur toute rivière ;
- • () entre points non reliés.
La longueur de la rivière J coïncide avec l'abscisse curviligne de sa source. En pratique, toute confluence peut être numérotée par son arête aval.
Dans la suite, la FA représente le débit ou la concentration du « filet » , dont le support est un segment de même longueur que la rivière J associée. Les « filets » sont en bijection avec les rivières.
La FA Z représentant le débit ou la concentration du réseau hydrographique est définie sur l'arbre indicé par ses arêtes. La covariance de Z est écrite comme une fonction de lorsqu'elle ne dépend que de la distance curviligne entre les points, ou comme une fonction de et , lorsqu'elle dépend aussi des arêtes.
3.3 Combinaison de FA stationnaires indépendantes
Pour un arbre à N sources, soient N FA ou « composantes » , centrées et de même covariance autorisée en dimension 1.
En toute confluence, attribuons à chaque arête amont k un poids (Fig. 2(a)). Dans la combinaison linéaire (1), le coefficient des composantes des filets passant par l'arête i est égal au produit des poids des arêtes situées strictement à l'amont de i, depuis la source . Sur l'arbre, la FA Z est définie par :
(1) |
Supposons d'abord les composantes mutuellement indépendantes.
Dans la combinaison (1), des points non reliés n'ont aucune composante commune. Les étant spatialement indépendantes, la covariance de Z entre ces points est nulle.
Soient deux points reliés, situés sur des arêtes différentes, i étant à l'amont de j. Seules les composantes des filets communs, ceux passant par l'arête i, ont une contribution non nulle dans la covariance. La covariance de Z entre ces points s'écrit : et
(2) |
Le long de toute rivière, la covariance de Z est proportionnelle à , le facteur de proportionnalité variant suivant les arêtes i et j. Tous les coefficients des arêtes situées entre les sources et chacun des points interviennent dans (2).
En deux points d'une même arête est combinaison linéaire des mêmes composantes , , et sa covariance s'écrit :
(3) |
En particulier,
Par arête, la variance de Z est constante et sa covariance est stationnaire. Aux confluences, Z est discontinue en moyenne quadratique, ou ce qui est équivalent, sa covariance est discontinue. Z est non stationnaire par rivière et donc sur l'arbre : sa variance est généralement modifiée à chaque confluence. À même distance curviligne, la covariance dépend des sources communes aux deux points et des confluences intermédiaires, ainsi que des poids affectés aux arêtes.
Ce modèle, construit des sources vers l'exutoire, permet de décrire les concentrations le long d'un réseau hydrographique. Lorsqu'ils sont connus (calculés par exemple à partir de l'aire du bassin versant drainé), les débits relatifs interviennent via les poids aux confluences.
Pour des débits, qui se somment aux confluences, la condition de conservation de masse revient à attribuer un coefficient unité à chaque arête. La FA Z, construite par sommation des composantes indépendantes s'écrit alors :
(4) |
La variance étant supposée identique pour tous les filets, la variance de Z est proportionnelle au nombre de filets en un point : constante par arête, elle croît des sources vers l'exutoire.
Supposons qu'en toute confluence d'un nombre n quelconque d'arêtes, la somme des carrés des poids affectés à ces n arêtes amont soit égale à 1 :
(5) |
Les démonstrations données dans [12] restent valides pour une covariance quelconque. Par récurrence sur les confluences successives depuis les sources, on montre que, sur toute arête, la covariance (3) est égale à . La variance de Z, égale à , est alors constante sur l'arbre. Pour deux points reliés et séparés par au moins une confluence, seuls interviennent dans la covariance les poids aux confluences situées entre et :
(6) |
Le modèle Ver Hoef [12] correspond au cas particulier où la covariance est l'autoconvoluée d'un noyau ƒ défini sur la demi-droite ; les composantes sont construites par convolution d'une mesure aléatoire orthogonale,1 par le noyau ƒ. L'équivalence de ce modèle avec la combinaison de composantes indépendantes (1) est donnée en Annexe 2. Dans la combinaison par « filets », la covariance est quelconque ; dans le cas d'une convolution, le noyau ƒ est par exemple symétrique.
Plus généralement, introduisons une fonction de pondération (s) par filet. La combinaison linéaire
(7) |
(8) |
Le modèle initial correspond à une fonction constante par arête, pour laquelle . Pour des débits , (s) est constante et égale à 1 le long de chaque rivière (relations (4) et (7)). Lorsque la pondération est constante par arête, la covariance de Z est stationnaire par arête.
Ce modèle général (7), (8) s'applique également, lorsque le support arborescent est discrétisé.
Remarques :
- – (1) pour construire une FA Z d'espérance m constante, on somme m à la combinaison des composantes centrées ;
- – (2) une concentration ou un débit étant des variables positives, les composantes sont par exemple les transformées par une anamorphose positive de FA de loi spatiale gaussienne [3] ;
- – (3) d'autres modèles de FA sur un arbre sont obtenus en modifiant l'opérateur agissant sur les . La combinaison linéaire (7) peut être remplacée par une moyenne d'ordre quelconque, par le produit, le maximum ou le minimum ;
- – (4) les modèles précédents s'étendent à d'autres graphes que les arbres, par combinaison de composantes définies sur tous les chemins reliant une « origine » à une « extrémité » du graphe.
3.4 Combinaison de FA corrélées
Dans un bassin versant, les concentrations dépendent du milieu : nature des sols, type d'agriculture... Les concentrations des affluents drainant des milieux analogues sont alors corrélées. Les modèles multivariables de type dérive externe ou à résidus permettent d'introduire le contexte environnemental dans l'estimation [3,4]. Cependant, l'information correspondante n'étant pas toujours disponible ou n'expliquant pas systématiquement les liaisons observées, il est utile de disposer de modèles tels, que les valeurs entre affluents à l'amont des confluences soient corrélées.
Il suffit pour cela que les composantes soient spatialement corrélées. Tous les modèles de corégionalisation admissibles à une dimension sont utilisables dans la construction suivante.
La longueur d'une rivière étant variable et égale à l'abscisse curviligne de sa source, plusieurs « calages » sont possibles. Considérons, en dimension un, N FA , de covariances simples et croisées . Nous examinons deux cas :
- • , les FA étant « calées » depuis un exutoire commun. Les ont alors mêmes covariances croisées que les .
- • , pour un calage des depuis les sources. Ce calage induit une corrélation croisée différée de entre les composantes définies sur des rivières de longueurs différentes. Par exemple, avec un modèle multivariable stationnaire et symétrique , comme le classique modèle linéaire de corégionalisation, on obtient :
Lorsque les composantes sont corrélées, la FA Z définie par (7) admet la covariance :
Toutes les covariances simples et croisées des composantes associées aux filets passant par ou interviennent dans la covariance de Z.
3.5 Combinaison de FA intrinsèques
En dimension 1, soit R une FA stationnaire d'espérance m et de covariance . L'intégrale est une FA intrinsèque, de dérive linéaire de pente m et de variogramme [8]. La variance de S, définie en tout point, est non stationnaire :
Dans le cas limite où R est pépitique (c'est-à-dire est une mesure aléatoire orthogonale), le variogramme de S est linéaire (voir par exemple [3]).
Lorsque R est positive, la FA S, positive et croissante, est un modèle admissible pour décrire un débit à accroissements stationnaires par unité de longueur de la rivière. () représentant le débit à la source, le débit du filet est et le débit sur le réseau est défini par (7). À l'aval d'une confluence, la somme des RJ, , sur les filets passant par représente l'accroissement élémentaire de débit, croissant avec l'ordre hydrologique de la rivière.
Plus généralement, soient N FA intrinsèques , indépendantes (pour simplifier), supposées ici de variogramme quelconque associé à la covariance non stationnaire . La FA Z construite suivant (4) en sommant ces composantes à l'aval des confluences est intrinsèque par arête et de variogramme
La variance de Z est finie et dépend du point .
Entre deux points reliés situés de part et d'autre d'une confluence, la covariance non stationnaire s'écrit comme une somme portant sur les seuls filets communs aux deux points, c'est-à-dire ceux passant par le point le plus en amont :
Deux points non reliés n'ont aucune composante commune. La covariance de Z en ces points est nulle et le variogramme est alors la moyenne des variances :
La FA Z présente des discontinuités aux confluences. Ce modèle se généralise aux combinaisons linéaires de composantes intrinsèques, ainsi qu'au cas où les composantes sont spatialement corrélées.
4 FA stationnaires ou intrinsèques par rivière
Le modèle Bailly–Monestiez [2,11] est construit en sens inverse, de « l'exutoire » vers les « sources ». Évitant les discontinuités aux confluences, ce modèle peut décrire des phénomènes variés, comme des caractéristiques végétales. Ces auteurs l'utilisent pour modéliser la largeur du fluvisol ou celle des fossés d'un réseau de drainage. En inversant l'orientation de l'arbre, on peut aussi l'appliquer aux concentrations dans un delta. Enfin, lorsque la dérive prend en charge les discontinuités aux confluences, ce modèle s'applique aux résidus [2,11].
4.1 FA stationnaire par rivière
Dans ce modèle, la covariance est stationnaire par rivière et identique pour toutes les rivières. Pour deux rivières quelconques, les composantes coïncident de leur confluence à l'exutoire, et elles évoluent indépendamment de la confluence vers les sources (Fig. 3). Tandis que dans le modèle Ver Hoef, les valeurs de Z sur les différentes rivières sont indépendantes, dans le modèle Bailly–Monestiez cette indépendance est conditionnelle aux valeurs de Z sur le chemin commun aux rivières.
Pour simplifier, et puisqu'il en est ainsi en pratique, le graphe est désormais discrétisé. On se ramène à un arbre un peu particulier, dont la majorité des sommets comporte une seule arête « amont » et une seule arête « aval ».
Le modèle Bailly–Monestiez est le suivant. À une anamorphose près, Z est supposée de loi spatiale gaussienne. La numérotation étant arbitraire, de covariance , est d'abord construite sur la « première » rivière , par exemple la plus longue. Z étant supposée construite sur les premières rivières, soit la confluence d'abscisse maximum raccordant aux rivières précédemment construites : . Entre l'exutoire et , on pose ; entre la confluence et la source , de covariance a priori est construite conditionnellement aux , . Ceci est possible par simulation séquentielle, ou par toute méthode de simulation non conditionnelle à 1D, en conditionnant ensuite par les valeurs entre l'exutoire et [3]. En tout point, on pose :
(9) |
La covariance de Z entre rivières se calcule à l'aide de la loi conditionnelle dans le cas gaussien : l'espérance conditionnelle coïncide alors avec le krigeage à moyenne connue et la variance résiduelle est égale à la variance de krigeage. Pour deux rivières distinctes d'indices de confluence , posons et , et désignant le krigeage à moyenne connue de et par les seules valeurs communes comprises entre l'exutoire et la confluence, désignées désormais comme « données ». Les résidus et du krigeage à moyenne connue sont sans corrélation avec les « données » , . Dans le modèle Bailly–Monestiez, ces résidus sont, de plus, spatialement indépendants pour , et la covariance entre et Z () s'écrit
(10) |
Le modèle Bailly–Monestiez comporte la covariance exponentielle comme cas particulier stationnaire sur tout l'arbre. Dans le cas de simulations non conditionnelles, le krigeage à moyenne connue, effectué suivant les abscisses curvilignes croissantes, ne fait plus intervenir que le point aval précédemment construit le plus proche.
Remarque : en l'absence de discrétisation de l'arbre, il convient de considérer le krigeage sur un support continu. Sous réserve de l'existence d'une mesure appropriée (qui n'existe pas nécessairement pour des covariances très régulières, telles que l'exponentielle de Gauss [9]), ce krigeage s'écrit : , . La covariance entre rivières distinctes admet alors une expression intégrale, généralisation immédiate des sommes finies (10) :
Dans la suite, sauf mention contraire, le support arborescent est supposé discrétisé.
4.2 FA intrinsèque par rivière
La construction précédente s'étend aux FA intrinsèques, en posant de façon analogue une hypothèse d'indépendance des résidus du krigeage intrinsèque sur les rivières distinctes.
Soit toujours Z défini par (9), les étant ici des FA intrinsèques en dimension un, de variogramme quelconque. Entre deux points reliés, . Le variogramme de Z est stationnaire le long de toute rivière.
Soient et non reliés. Notons le krigeage intrinsèque de par les « données » , , et de même pour J. Alors :
Dans le krigeage intrinsèque, les résidus sont non corrélés aux combinaisons linéaires autorisées des « données », donc en particulier à . Les résidus sur des rivières distinctes étant supposés indépendants, la variance de la somme est la somme des variances :
Le premier et le dernier terme correspondent aux variances de krigeage , de ou par les , ; ils dépendent de la position relative de et par rapport à ces points, en particulier par rapport à la confluence . Le calcul du troisième terme est classique : notant (resp. ) le poids de dans le krigeage intrinsèque de (resp. ),
Via les poids de krigeage, ce terme dépend, là encore, de la position de et par rapport à la confluence. Le variogramme de Z, généralement non stationnaire entre points non reliés, s'écrit finalement :
Ce résultat s'étend au cas où le support n'est pas discrétisé, sous réserve de l'existence d'une mesure appropriée pour l'écriture du krigeage.
Considérons le cas particulier d'un processus de Wiener–Lévy (ou mouvement brownien). W désignant une mesure aléatoire orthogonale, l'intégrale est intrinsèque et de variogramme linéaire (cf. partie 3.5).
On vérifie sans difficulté que « l'effet d'écran » du variogramme linéaire en dimension un se retrouve sur tout support arborescent, discrétisé ou non : quelle que soit la configuration de krigeage, le long de tout chemin passant par le point à estimer, seules les « données » les plus proches de part et d'autre de ce point admettent un poids non nul (Fig. 4).
Sur , construisons alors Z de variogramme linéaire. Z étant ensuite supposé de variogramme linéaire sur les premières rivières, soit la confluence d'abscisse maximum entre et ces rivières. Raccordant Z par continuité en cette confluence, on pose : , . Ceci revient à conditionner par l'ensemble des valeurs précédemment construites sur .
Les accroissements de Z sur à l'amont de étant choisis indépendants de ceux sur les I – 1 premières rivières, la variance de la somme de deux accroissements, de part et d'autre de la confluence, est égale à la somme des variances, et le variogramme de Z reste linéaire entre points non reliés. Sur l'arbre, Z est intrinsèque et de variogramme linéaire.
4.3 Indépendance conditionnelle et stationnarité
La covariance exponentielle (voir par exemple [11]), et le variogramme linéaire sont admissibles sur tout support arborescent, discrétisé ou non. Pour ces deux schémas, la construction d'une FA de loi spatiale de type mosaïque est donnée en annexe, sans discrétisation du support.
Dans le cas discret, montrons que ces deux modèles sont les seuls compatibles avec l'hypothèse d'indépendance conditionnelle et stationnaire sur l'arbre (i.e. ne dépendant que de la distance curviligne).
Dans la suite, l'écriture en covariance (et pour une variance unité) correspond au krigeage à moyenne connue, et celle en variogramme au krigeage intrinsèque. Considérons le krigeage en à partir de et séparés par la confluence (Fig. 5), désignant la distance de , , à la confluence. Pour ou respectivement, les poids de krigeage s'écrivent selon le cas
Lorsque est situé sur la confluence, et on retrouve l'effet d'écran en dimension 1. Les relations nécessaires ou , quels que soient et bornés, admettent comme solutions la covariance exponentielle et le variogramme linéaire. Lorsque , il n'y a pas d'effet d'écran.
5 Conclusion
Les quelques modèles présentés s'adaptent aisément à une modélisation multivariable. Pour représenter les concentrations en différentes substances, par exemple des nutriments (nitrates, phosphates...), on pourra chercher un ajustement en modèle linéaire de corégionalisation. Il est immédiat de vérifier que sur tout arbre, ce modèle s'obtient classiquement par combinaison de facteurs spatiaux mutuellement indépendants [3].
Dans les applications pratiques, une modélisation bivariable débits–concentrations reste à développer, pour les cas où des mesures de débits sont disponibles en certaines stations. Cette modélisation devra tenir compte des valeurs approchées de ces débits, déduites par exemple de la superficie des bassins versants.
L'application aux données réelles pose l'importante question de l'inférence des modèles. Dans les exemples cités, il apparaît une « dérive » marquée des sources vers l'exutoire. Une modélisation de type « dérive + résidu » est alors recherchée pour incorporer au modèle diverses informations sur le milieu et se ramener à une variable stationnaire. Modélisant la largeur de fossés de drainage ou de fluvisols, Bailly et al. et Monestiez et al. calent des dérives qui sont notamment fonction de la longueur cumulée des drains à l'amont d'un point, et ajustent des variogrammes stationnaires pour les résidus.
Ver Hoef et al. montrent que les variogrammes expérimentaux calculés le long des rivières sont structurés et nettement inférieurs à ceux, pépitiques, calculés sur tout l'arbre. Ceci est compatible avec l'hypothèse d'indépendance entre rivières à l'amont des confluences. L'étude des variogrammes expérimentaux sur le réseau devrait ainsi guider la modélisation.
Remerciement
Ce travail a été effectué grâce à la subvention CV02000187 du ministère français en charge de l'Environnement. Les auteurs remercient H. Beucher, J.-P. Chilès, D. Renard et J.-P. Vert pour leur relecture attentive ou leur aide graphique ou linguistique.
Annexe 1 Variogramme linéaire et covariance exponentielle sur un arbre
Nous donnons une méthode de construction, sur tout graphe sans cycle, d'une FA de variogramme linéaire ou de covariance exponentielle, fondée sur le processus de Poisson en dimension 1.
Soient les abscisses des points d'un processus de Poisson de densité θ sur la droite, et une suite de variables aléatoires identiques en loi, d'espérance m et de variance , mutuellement indépendantes et indépendantes du processus. La FA Y, définie à une constante près comme
- – constante entre deux points poissoniens ;
- – présentant un saut d'amplitude en ,
Il en résulte un procédé de construction d'une FA de variogramme linéaire sur un arbre. On construit un processus de Poisson composé sur tous les chemins du graphe, et on « raccorde » par continuité la FA sur toute nouvelle arête aux chemins précédemment simulés (Fig. 6). En une confluence, la FA admet la même valeur sur toutes les arêtes.
Plus précisément, la méthode est la suivante : (1) construire sur les arêtes, des processus de Poisson indépendants, de densité θ ; (2) poser en une arête, par exemple celle issue de la racine ; entre deux points du processus, est constante, et présente un saut d'amplitude aux points de discontinuité .
Pour construire sur la droite une FA Y de covariance exponentielle, on implante sur chaque segment, compris entre deux points du processus (), une valeur constante , la FA conservant la même valeur sur toutes les arêtes en une confluence. Comme pour le variogramme linéaire, ce procédé est admissible pour tout graphe sans cycle.
D'après le théorème central limite, la sommation d'un grand nombre de FA indépendantes ainsi construites fournit, au facteur usuel de normation près, une FA de loi spatiale (ou d'incréments) multigaussiens.
Annexe 2 Équivalence de la combinaison de composantes indépendantes et du modèle Ver Hoef
Le modèle Ver Hoef utilise la construction classique par moyennes mobiles. Soit W un « bruit blanc » de variance unité et ƒ une fonction de carré sommable ou « noyau ». En dimension un, la FA définie par
(11) |
Dans ce modèle, l'indépendance de Z sur les arêtes à l'amont d'une confluence est obtenue en utilisant un noyau défini sur la demi-droite . Dans la relation (11), la moyenne mobile est calculée par pondération de W à l'amont du point courant, la borne supérieure étant conventionnellement mise à +∞, que le support de f soit ou non borné :
(11bis) |
Que devient la moyenne mobile, lorsque t atteint une confluence à l'amont de ? Afin d'obtenir une variance stationnaire, Ver Hoef et al. répartissent le noyau f sur les n arêtes à l'amont de la confluence (Fig. 2b), en les pondérant par des poids dont la somme des carrés est égale à 1 (relation (5)).
La construction est la suivante : (1) construire un mesure aléatoire orthogonale W en tout point du graphe, indicé par son arête ; (2) effectuer la moyenne mobile en la répartissant sur les arêtes amont, l'intégrale étant conventionnellement étendue à l'infini au-delà des sources :
La covariance C de la FA Z ainsi construite est :
- • nulle entre rivières différentes :
- • sur deux arêtes reliées, le deuxième facteur dépendant des confluences entre les arêtes ;
- • sur toute arête.
La covariance C est stationnaire entre arêtes, mais non stationnaire sur l'arbre.
Pour montrer l'équivalence des deux modèles, considérons pour simplifier un arbre comportant n arêtes amont convergeant toutes en une seule confluence d'abscisse u. À l'aval de la confluence, le modèle Ver Hoef s'écrit : 0 .
(12) |
Soient alors n FA indépendantes , définies respectivement sur chaque rivière, de la source à l'exutoire, par . Pour s à l'aval de la confluence, posons :
(13) |
Par linéarité de la convolution, le premier terme du second membre s'écrit :
Les n bruits blancs étant mutuellement indépendants et de variance unité :
L'équivalence entre (12) et (13) se généralise à un arbre quelconque, en considérant successivement toutes les confluences depuis les sources. La méthode Ver Hoef revient donc à effectuer la moyenne pondérée suivante, dans laquelle la sommation porte sur les rivières passant par :
la pondération attribuée en à la rivière dépendant des confluences depuis sa source. L'écriture de Z comme combinaison linéaire, à coefficients variables, de FA indépendantes définies sur les rivières, permet de généraliser ce modèle à la combinaison de FA monodimensionnelles de covariance quelconque.
1 Une mesure aléatoire orthogonale ou « bruit blanc » W est telle que pour tous « mesurables », et si , alors .