]> git.sesse.net Git - ffmpeg/blob - libavfilter/dnn/dnn_backend_native.h
avfilter/dnn: unify the layer load function in native mode
[ffmpeg] / libavfilter / dnn / dnn_backend_native.h
1 /*
2  * Copyright (c) 2018 Sergey Lavrushkin
3  *
4  * This file is part of FFmpeg.
5  *
6  * FFmpeg is free software; you can redistribute it and/or
7  * modify it under the terms of the GNU Lesser General Public
8  * License as published by the Free Software Foundation; either
9  * version 2.1 of the License, or (at your option) any later version.
10  *
11  * FFmpeg is distributed in the hope that it will be useful,
12  * but WITHOUT ANY WARRANTY; without even the implied warranty of
13  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
14  * Lesser General Public License for more details.
15  *
16  * You should have received a copy of the GNU Lesser General Public
17  * License along with FFmpeg; if not, write to the Free Software
18  * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
19  */
20
21 /**
22  * @file
23  * DNN inference functions interface for native backend.
24  */
25
26
27 #ifndef AVFILTER_DNN_DNN_BACKEND_NATIVE_H
28 #define AVFILTER_DNN_DNN_BACKEND_NATIVE_H
29
30 #include "../dnn_interface.h"
31 #include "libavformat/avio.h"
32
33 /**
34  * the enum value of DNNLayerType should not be changed,
35  * the same values are used in convert_from_tensorflow.py
36  * and, it is used to index the layer execution/load function pointer.
37  */
38 typedef enum {
39     DLT_INPUT = 0,
40     DLT_CONV2D = 1,
41     DLT_DEPTH_TO_SPACE = 2,
42     DLT_MIRROR_PAD = 3,
43     DLT_MAXIMUM = 4,
44     DLT_COUNT
45 } DNNLayerType;
46
47 typedef enum {DOT_INPUT = 1, DOT_OUTPUT = 2, DOT_INTERMEDIATE = DOT_INPUT | DOT_INPUT} DNNOperandType;
48
49 typedef struct Layer{
50     DNNLayerType type;
51     /**
52      * a layer can have multiple inputs and one output.
53      * 4 is just a big enough number for input operands (increase it if necessary),
54      * do not use 'int32_t *input_operand_indexes', so we don't worry about mem leaks.
55      */
56     int32_t input_operand_indexes[4];
57     int32_t output_operand_index;
58     void *params;
59 } Layer;
60
61 typedef struct DnnOperand{
62     /**
63      * there are two memory layouts, NHWC or NCHW, so we use dims,
64      * dims[0] is Number.
65      */
66     int32_t dims[4];
67
68     /**
69      * input/output/intermediate operand of the network
70      */
71     DNNOperandType type;
72
73     /**
74      * support different kinds of data type such as float, half float, int8 etc,
75      * first support float now.
76      */
77     DNNDataType data_type;
78
79     /**
80      * NHWC if 1, otherwise NCHW.
81      * let's first support NHWC only, this flag is for extensive usage.
82      */
83     int8_t isNHWC;
84
85     /**
86      * to avoid possible memory leak, do not use char *name
87      */
88     char name[128];
89
90     /**
91      * data pointer with data length in bytes.
92      * usedNumbersLeft is only valid for intermediate operand,
93      * it means how many layers still depend on this operand,
94      * todo: the memory can be reused when usedNumbersLeft is zero.
95      */
96     void *data;
97     int32_t length;
98     int32_t usedNumbersLeft;
99 }DnnOperand;
100
101 typedef struct InputParams{
102     int height, width, channels;
103 } InputParams;
104
105 // Represents simple feed-forward convolutional network.
106 typedef struct ConvolutionalNetwork{
107     Layer *layers;
108     int32_t layers_num;
109     DnnOperand *operands;
110     int32_t operands_num;
111     int32_t *output_indexes;
112     uint32_t nb_output;
113 } ConvolutionalNetwork;
114
115 DNNModel *ff_dnn_load_model_native(const char *model_filename);
116
117 DNNReturnType ff_dnn_execute_model_native(const DNNModel *model, DNNData *outputs, uint32_t nb_output);
118
119 void ff_dnn_free_model_native(DNNModel **model);
120
121 int32_t calculate_operand_data_length(const DnnOperand *oprd);
122 int32_t calculate_operand_dims_count(const DnnOperand *oprd);
123 #endif