]> git.sesse.net Git - ffmpeg/blobdiff - libavformat/movenc.c
move time_base (pts_num/pts_den) from AVFormatContext -> AVStream
[ffmpeg] / libavformat / movenc.c
index d95adaf169e1f06e495ffe46bf5b2b0765647f46..0e3fb6a9de92ceafc0569dbcb6fd7533703e4b0c 100644 (file)
@@ -1,6 +1,7 @@
 /*
  * MOV, 3GP, MP4 encoder.
  * Copyright (c) 2003 Thomas Raivio.
+ * Copyright (c) 2004 Gildas Bazin <gbazin at videolan dot org>.
  *
  * This library is free software; you can redistribute it and/or
  * modify it under the terms of the GNU Lesser General Public
@@ -19,7 +20,6 @@
 #include "avformat.h"
 #include "avi.h"
 #include "avio.h"
-#include <time.h>
 
 #undef NDEBUG
 #include <assert.h>
 #define MOV_INDEX_CLUSTER_SIZE 16384
 #define globalTimescale 1000
 
+#define MODE_MP4 0
+#define MODE_MOV 1
+#define MODE_3GP 2
+
 typedef struct MOVIentry {
-    unsigned int flags, pos, len;
-    unsigned int chunkSize;
+    unsigned int flags, pos, size;
+    unsigned int samplesInChunk;
     char         key_frame;
     unsigned int entries;
 } MOVIentry;
 
 typedef struct MOVIndex {
+    int         mode;
     int         entry;
-    int         samples;
     int         mdat_size;
     int         ents_allocated;
     long        timescale;
     long        time;
-    long        frameCount;
     long        trackDuration;
-    long        sampleDelta;
+    long        sampleCount;
+    long        sampleDuration;
     int         hasKeyframes;
     int         trackID;
     AVCodecContext *enc;
@@ -54,15 +58,17 @@ typedef struct MOVIndex {
 } MOVTrack;
 
 typedef struct {
+    int     mode;
     long    time;
     int     nb_streams;
     int     mdat_written;
     offset_t mdat_pos;
-    offset_t movi_list;
     long    timescale;
     MOVTrack tracks[MAX_STREAMS];
 } MOVContext;
 
+static int mov_write_esds_tag(ByteIOContext *pb, MOVTrack* track);
+
 //FIXME supprt 64bit varaint with wide placeholders
 static int updateSize (ByteIOContext *pb, int pos)
 {
@@ -74,6 +80,7 @@ static int updateSize (ByteIOContext *pb, int pos)
     return curpos - pos;
 }
 
+/* Chunk offset atom */
 static int mov_write_stco_tag(ByteIOContext *pb, MOVTrack* track)
 {
     int i;
@@ -90,10 +97,11 @@ static int mov_write_stco_tag(ByteIOContext *pb, MOVTrack* track)
     return updateSize (pb, pos);
 }
 
+/* Sample size atom */
 static int mov_write_stsz_tag(ByteIOContext *pb, MOVTrack* track)
 {
     int equalChunks = 1;
-    int i, tst = -1, oldtst = -1;
+    int i, j, entries = 0, tst = -1, oldtst = -1;
 
     int pos = url_ftell(pb);
     put_be32(pb, 0); /* size */
@@ -103,32 +111,34 @@ static int mov_write_stsz_tag(ByteIOContext *pb, MOVTrack* track)
     for (i=0; i<track->entry; i++) {
         int cl = i / MOV_INDEX_CLUSTER_SIZE;
         int id = i % MOV_INDEX_CLUSTER_SIZE;
-        tst = track->cluster[cl][id].len;
-          if(oldtst != -1 && tst != oldtst) {
-          equalChunks = 0;
-          break;
+        tst = track->cluster[cl][id].size/track->cluster[cl][id].entries;
+        if(oldtst != -1 && tst != oldtst) {
+            equalChunks = 0;
         }
         oldtst = tst;
+        entries += track->cluster[cl][id].entries;
     }
-    if(equalChunks ||
-       track->enc->codec_type == CODEC_TYPE_AUDIO) {
-        //int sSize = track->cluster[0][0].len/track->cluster[0][0].entries;
-        int sSize = track->cluster[0][0].len;
+    if (equalChunks) {
+        int sSize = track->cluster[0][0].size/track->cluster[0][0].entries;
         put_be32(pb, sSize); // sample size 
-        put_be32(pb, track->samples/track->enc->channels); // sample count 
+        put_be32(pb, entries); // sample count
     }
     else {
         put_be32(pb, 0); // sample size 
-        put_be32(pb, track->entry); // sample count 
+        put_be32(pb, entries); // sample count 
         for (i=0; i<track->entry; i++) {
             int cl = i / MOV_INDEX_CLUSTER_SIZE;
             int id = i % MOV_INDEX_CLUSTER_SIZE;
-            put_be32(pb, track->cluster[cl][id].len);
+            for ( j=0; j<track->cluster[cl][id].entries; j++) {
+                put_be32(pb, track->cluster[cl][id].size /
+                         track->cluster[cl][id].entries);
+            }
         }
     }
     return updateSize (pb, pos);
 }
 
+/* Sample to chunk atom */
 static int mov_write_stsc_tag(ByteIOContext *pb, MOVTrack* track)
 {
     int index = 0, oldval = -1, i, entryPos, curpos;
@@ -142,12 +152,12 @@ static int mov_write_stsc_tag(ByteIOContext *pb, MOVTrack* track)
     for (i=0; i<track->entry; i++) {
         int cl = i / MOV_INDEX_CLUSTER_SIZE;
         int id = i % MOV_INDEX_CLUSTER_SIZE;
-        if(oldval != track->cluster[cl][id].chunkSize) 
+        if(oldval != track->cluster[cl][id].samplesInChunk)
         {
             put_be32(pb, i+1); // first chunk 
-            put_be32(pb, track->cluster[cl][id].chunkSize);
+            put_be32(pb, track->cluster[cl][id].samplesInChunk); // samples per chunk
             put_be32(pb, 0x1); // sample description index 
-            oldval = track->cluster[cl][id].chunkSize;
+            oldval = track->cluster[cl][id].samplesInChunk;
             index++;
         }
     }
@@ -159,6 +169,7 @@ static int mov_write_stsc_tag(ByteIOContext *pb, MOVTrack* track)
     return updateSize (pb, pos);
 }
 
+/* Sync sample atom */
 static int mov_write_stss_tag(ByteIOContext *pb, MOVTrack* track)
 {
     long curpos;
@@ -198,43 +209,100 @@ static int mov_write_damr_tag(ByteIOContext *pb)
     return 0x11;
 }
 
-static int mov_write_audio_tag(ByteIOContext *pb, MOVTrack* track)
+static int mov_write_wave_tag(ByteIOContext *pb, MOVTrack* track)
 {
     int pos = url_ftell(pb);
+
+    put_be32(pb, 0);     /* size */
+    put_tag(pb, "wave");
+
+    put_be32(pb, 12);    /* size */
+    put_tag(pb, "frma");
+    put_tag(pb, "mp4a");
+
+    put_be32(pb, 12);    /* size */
+    put_tag(pb, "mp4a");
+    put_be32(pb, 0);
+
+    mov_write_esds_tag(pb, track);
+
+    put_be32(pb, 12);    /* size */
+    put_tag(pb, "srcq");
+    put_be32(pb, 0x40);
+
+    put_be32(pb, 8);     /* size */
+    put_be32(pb, 0);     /* null tag */
+
+    return updateSize (pb, pos);
+}
+
+const CodecTag codec_movaudio_tags[] = {
+    { CODEC_ID_PCM_MULAW, MKTAG('u', 'l', 'a', 'w') },
+    { CODEC_ID_PCM_ALAW, MKTAG('a', 'l', 'a', 'w') },
+    { CODEC_ID_ADPCM_IMA_QT, MKTAG('i', 'm', 'a', '4') },
+    { CODEC_ID_MACE3, MKTAG('M', 'A', 'C', '3') },
+    { CODEC_ID_MACE6, MKTAG('M', 'A', 'C', '6') },
+    { CODEC_ID_AAC, MKTAG('m', 'p', '4', 'a') },
+    { CODEC_ID_AMR_NB, MKTAG('s', 'a', 'm', 'r') },
+    { CODEC_ID_PCM_S16BE, MKTAG('t', 'w', 'o', 's') },
+    { CODEC_ID_PCM_S16LE, MKTAG('s', 'o', 'w', 't') },
+    { CODEC_ID_MP3, MKTAG('.', 'm', 'p', '3') },
+    { 0, 0 },
+};
+
+static int mov_write_audio_tag(ByteIOContext *pb, MOVTrack* track)
+{
+    int pos = url_ftell(pb), tag;
+    
     put_be32(pb, 0); /* size */
 
-    if(track->enc->codec_id == CODEC_ID_PCM_MULAW)
-      put_tag(pb, "ulaw");
-    else if(track->enc->codec_id == CODEC_ID_PCM_ALAW)
-      put_tag(pb, "alaw");
-    else if(track->enc->codec_id == CODEC_ID_ADPCM_IMA_QT)
-      put_tag(pb, "ima4");
-    else if(track->enc->codec_id == CODEC_ID_MACE3)
-      put_tag(pb, "MAC3");
-    else if(track->enc->codec_id == CODEC_ID_MACE6)
-      put_tag(pb, "MAC6");
-    else if(track->enc->codec_id == CODEC_ID_AAC)
-      put_tag(pb, "mp4a");
-    else if(track->enc->codec_id == CODEC_ID_AMR_NB)
-      put_tag(pb, "samr");
+    tag = codec_get_tag(codec_movaudio_tags, track->enc->codec_id);
+    // if no mac fcc found, try with Microsoft tags
+    if (!tag)
+    {
+       int tmp = codec_get_tag(codec_wav_tags, track->enc->codec_id);
+       if (tmp)
+           tag = MKTAG('m', 's', ((tmp >> 8) & 0xff), (tmp & 0xff));
+    }
+    if (!tag)
+       put_tag(pb, "    ");
     else
-      put_tag(pb, "    ");
+       put_le32(pb, tag); // store it byteswapped
 
     put_be32(pb, 0); /* Reserved */
     put_be16(pb, 0); /* Reserved */
     put_be16(pb, 1); /* Data-reference index, XXX  == 1 */
-    put_be32(pb, 0); /* Reserved */
+
+    /* SoundDescription */
+    if(track->mode == MODE_MOV && track->enc->codec_id == CODEC_ID_AAC)
+        put_be16(pb, 1); /* Version 1 */
+    else
+        put_be16(pb, 0); /* Version 0 */
+    put_be16(pb, 0); /* Revision level */
     put_be32(pb, 0); /* Reserved */
 
     put_be16(pb, track->enc->channels); /* Number of channels */
     /* TODO: Currently hard-coded to 16-bit, there doesn't seem
-                to be a good way to get number of bits of audio */
+                 to be a good way to get number of bits of audio */
     put_be16(pb, 0x10); /* Reserved */
     put_be16(pb, 0); /* compression ID (= 0) */
     put_be16(pb, 0); /* packet size (= 0) */
     put_be16(pb, track->timescale); /* Time scale */
     put_be16(pb, 0); /* Reserved */
 
+    if(track->mode == MODE_MOV && track->enc->codec_id == CODEC_ID_AAC)
+    {
+        /* SoundDescription V1 extended info */
+        put_be32(pb, track->enc->frame_size); /* Samples per packet  */
+        put_be32(pb, 1536); /* Bytes per packet */
+        put_be32(pb, 2); /* Bytes per frame */
+        put_be32(pb, 2); /* Bytes per sample */
+    }
+
+    if(track->enc->codec_id == CODEC_ID_AAC) {
+        if( track->mode == MODE_MOV ) mov_write_wave_tag(pb, track);
+        else mov_write_esds_tag(pb, track);
+    }
     if(track->enc->codec_id == CODEC_ID_AMR_NB)
         mov_write_damr_tag(pb);
     return updateSize (pb, pos);
@@ -263,36 +331,86 @@ static int mov_write_svq3_tag(ByteIOContext *pb)
     return 0x15;
 }
 
-static unsigned int esdsLength(unsigned int len)
+static unsigned int descrLength(unsigned int len)
 {
-    unsigned int result = 0;
-    unsigned char b = len & 0x7f;
-    result += b;
-    b = (len >> 8) & 0x7f;
-    result += (b + 0x80) << 8;
-    b = (len >> 16) & 0x7f;
-    result += (b + 0x80) << 16;
-    b = (len >> 24) & 0x7f;
-    result += (b + 0x80) << 24;
-    return result;
+    if (len < 0x00000080)
+        return 2 + len;
+    else if (len < 0x00004000)
+        return 3 + len;
+    else if(len < 0x00200000)
+        return 4 + len;
+    else
+        return 5 + len;
+}
+
+static void putDescr(ByteIOContext *pb, int tag, int size)
+{
+    uint32_t len;
+    uint8_t  vals[4];
+
+    len = size;
+    vals[3] = (uint8_t)(len & 0x7f);
+    len >>= 7;
+    vals[2] = (uint8_t)((len & 0x7f) | 0x80); 
+    len >>= 7;
+    vals[1] = (uint8_t)((len & 0x7f) | 0x80); 
+    len >>= 7;
+    vals[0] = (uint8_t)((len & 0x7f) | 0x80);
+
+    put_byte(pb, tag); // DescriptorTag
+
+    if (size < 0x00000080)
+    {
+        put_byte(pb, vals[3]);
+    }
+    else if (size < 0x00004000)
+    {
+        put_byte(pb, vals[2]);
+        put_byte(pb, vals[3]);
+    }
+    else if (size < 0x00200000)
+    {
+        put_byte(pb, vals[1]);
+        put_byte(pb, vals[2]);
+        put_byte(pb, vals[3]);
+    }
+    else if (size < 0x10000000)
+    {
+        put_byte(pb, vals[0]);
+        put_byte(pb, vals[1]);
+        put_byte(pb, vals[2]);
+        put_byte(pb, vals[3]);
+    }
 }
 
 static int mov_write_esds_tag(ByteIOContext *pb, MOVTrack* track) // Basic
 {
-    put_be32(pb, track->vosLen+18+14+17);
+    int decoderSpecificInfoLen = track->vosLen ? descrLength(track->vosLen):0;
+    int pos = url_ftell(pb);
+
+    put_be32(pb, 0);               // size
     put_tag(pb, "esds");
-    put_be32(pb, 0);              // Version
+    put_be32(pb, 0);               // Version
 
-    put_byte(pb, 0x03);            // tag = ES_DescriptorTag
-    put_be32(pb, esdsLength(track->vosLen+18+14));  // Length
-    put_be16(pb, 0x0001);         // ID (= 1)
+    // ES descriptor
+    putDescr(pb, 0x03, 3 + descrLength(13 + decoderSpecificInfoLen) +
+             descrLength(1));
+    put_be16(pb, 0x0001);          // ID (= 1)
     put_byte(pb, 0x00);            // flags (= no flags)
 
-// Decoderconfigdescriptor = 4
-    put_byte(pb, 0x04);            // tag = DecoderConfigDescriptor
-    put_be32(pb, esdsLength(track->vosLen+18));  // Length
-    put_byte(pb, 0x20);            // Object type indication (Visual 14496-2)
-    put_byte(pb, 0x11);            // flags (= Visualstream)
+    // DecoderConfig descriptor
+    putDescr(pb, 0x04, 13 + decoderSpecificInfoLen);
+
+    if(track->enc->codec_id == CODEC_ID_AAC)
+        put_byte(pb, 0x40);        // Object type indication
+    else if(track->enc->codec_id == CODEC_ID_MPEG4)
+        put_byte(pb, 0x20);        // Object type indication (Visual 14496-2)
+
+    if(track->enc->codec_type == CODEC_TYPE_AUDIO)
+        put_byte(pb, 0x15);            // flags (= Audiostream)
+    else
+        put_byte(pb, 0x11);            // flags (= Visualstream)
+
     put_byte(pb, 0x0);             // Buffersize DB (24 bits)
     put_be16(pb, 0x0dd2);          // Buffersize DB
 
@@ -300,31 +418,42 @@ static int mov_write_esds_tag(ByteIOContext *pb, MOVTrack* track) // Basic
     put_be32(pb, 0x0002e918);     // maxbitrate
     put_be32(pb, 0x00017e6b);     // avg bitrate
 
-// Decoderspecific info Tag = 5
-    put_byte(pb, 0x05);           // tag = Decoderspecific info
-    put_be32(pb, esdsLength(track->vosLen));   // length
-    put_buffer(pb, track->vosData, track->vosLen);
-    
-    put_byte(pb, 0x06);
-    put_be32(pb, esdsLength(1));  // length
+    if (track->vosLen)
+    {
+        // DecoderSpecific info descriptor
+        putDescr(pb, 0x05, track->vosLen);
+        put_buffer(pb, track->vosData, track->vosLen);
+    }
+
+    // SL descriptor
+    putDescr(pb, 0x06, 1);
     put_byte(pb, 0x02);
-    return track->vosLen+18+14+17;
+    return updateSize (pb, pos);
 }
 
+const CodecTag codec_movvideo_tags[] = {
+    { CODEC_ID_SVQ1, MKTAG('S', 'V', 'Q', '1') },
+    { CODEC_ID_SVQ3, MKTAG('S', 'V', 'Q', '3') },
+    { CODEC_ID_MPEG4, MKTAG('m', 'p', '4', 'v') },
+    { CODEC_ID_H263, MKTAG('s', '2', '6', '3') },
+    { CODEC_ID_DVVIDEO, MKTAG('d', 'v', 'c', ' ') },
+    { 0, 0 },
+};
+
 static int mov_write_video_tag(ByteIOContext *pb, MOVTrack* track)
 {
-    int pos = url_ftell(pb);
+    int pos = url_ftell(pb), tag;
+
     put_be32(pb, 0); /* size */
-    if(track->enc->codec_id == CODEC_ID_SVQ1)
-      put_tag(pb, "SVQ1");
-    else if(track->enc->codec_id == CODEC_ID_SVQ3)
-      put_tag(pb, "SVQ3");
-    else if(track->enc->codec_id == CODEC_ID_MPEG4)
-      put_tag(pb, "mp4v");
-    else if(track->enc->codec_id == CODEC_ID_H263)
-      put_tag(pb, "s263");
+
+    tag = codec_get_tag(codec_movvideo_tags, track->enc->codec_id);
+    // if no mac fcc found, try with Microsoft tags
+    if (!tag)
+       tag = codec_get_tag(codec_bmp_tags, track->enc->codec_id);
+    if (!tag)
+       put_tag(pb, "    ");
     else
-      put_tag(pb, "    "); /* Unknown tag */
+       put_le32(pb, tag); // store it byteswapped
 
     put_be32(pb, 0); /* Reserved */
     put_be16(pb, 0); /* Reserved */
@@ -338,17 +467,18 @@ static int mov_write_video_tag(ByteIOContext *pb, MOVTrack* track)
     put_be16(pb, track->enc->height); /* Video height */
     put_be32(pb, 0x00480000); /* Reserved */
     put_be32(pb, 0x00480000); /* Reserved */
+    put_be32(pb, 0); /* Data size (= 0) */
+    put_be16(pb, 1); /* Frame count (= 1) */
+    
     put_be32(pb, 0); /* Reserved */
     put_be32(pb, 0); /* Reserved */
     put_be32(pb, 0); /* Reserved */
     put_be32(pb, 0); /* Reserved */
     put_be32(pb, 0); /* Reserved */
     put_be32(pb, 0); /* Reserved */
-
-    put_be16(pb, 0); /* Reserved */
-    put_be32(pb, 0); /* Reserved */
     put_be32(pb, 0); /* Reserved */
     put_be32(pb, 0); /* Reserved */
+    
     put_be16(pb, 0x18); /* Reserved */
     put_be16(pb, 0xffff); /* Reserved */
     if(track->enc->codec_id == CODEC_ID_MPEG4)
@@ -376,6 +506,7 @@ static int mov_write_stsd_tag(ByteIOContext *pb, MOVTrack* track)
 }
 
 /* TODO?: Currently all samples/frames seem to have same duration */
+/* Time to sample atom */
 static int mov_write_stts_tag(ByteIOContext *pb, MOVTrack* track)
 {
     put_be32(pb, 0x18); /* size */
@@ -383,8 +514,8 @@ static int mov_write_stts_tag(ByteIOContext *pb, MOVTrack* track)
     put_be32(pb, 0); /* version & flags */
     put_be32(pb, 1); /* entry count */
 
-    put_be32(pb, track->frameCount); /* sample count */
-    put_be32(pb, track->sampleDelta); /* sample delta */
+    put_be32(pb, track->sampleCount); /* sample count */
+    put_be32(pb, track->sampleDuration); /* sample duration */
     return 0x18;
 }
 
@@ -446,41 +577,52 @@ static int mov_write_vmhd_tag(ByteIOContext *pb)
     return 0x14;
 }
 
-static int mov_write_minf_tag(ByteIOContext *pb, MOVTrack* track)
-{
-    int pos = url_ftell(pb);
-    put_be32(pb, 0); /* size */
-    put_tag(pb, "minf");
-    if(track->enc->codec_type == CODEC_TYPE_VIDEO)
-        mov_write_vmhd_tag(pb);
-    else
-        mov_write_smhd_tag(pb);
-    mov_write_dinf_tag(pb);
-    mov_write_stbl_tag(pb, track);
-    return updateSize(pb, pos);
-}
-
 static int mov_write_hdlr_tag(ByteIOContext *pb, MOVTrack* track)
 {
-    char *str;
+    char *descr, *hdlr, *hdlr_type;
     int pos = url_ftell(pb);
+    
+    if (!track) { /* no media --> data handler */
+       hdlr = "dhlr";
+       hdlr_type = "url ";
+       descr = "DataHandler";
+    } else {
+       hdlr = (track->mode == MODE_MOV) ? "mhlr" : "\0\0\0\0";
+       if (track->enc->codec_type == CODEC_TYPE_VIDEO) {
+           hdlr_type = "vide";
+           descr = "VideoHandler";
+       } else {
+           hdlr_type = "soun";
+           descr = "SoundHandler";
+       }
+    }
+    
     put_be32(pb, 0); /* size */
     put_tag(pb, "hdlr");
     put_be32(pb, 0); /* Version & flags */
-    put_be32(pb, 0); /* reserved */
-    if(track->enc->codec_type == CODEC_TYPE_VIDEO)
-        put_tag(pb, "vide"); /* handler type */
-    else
-        put_tag(pb, "soun"); /* handler type */
+    put_buffer(pb, hdlr, 4); /* handler */
+    put_tag(pb, hdlr_type); /* handler type */
     put_be32(pb ,0); /* reserved */
     put_be32(pb ,0); /* reserved */
     put_be32(pb ,0); /* reserved */
+    put_byte(pb, strlen(descr)); /* string counter */
+    put_buffer(pb, descr, strlen(descr)); /* handler description */
+    return updateSize(pb, pos);
+}
+
+static int mov_write_minf_tag(ByteIOContext *pb, MOVTrack* track)
+{
+    int pos = url_ftell(pb);
+    put_be32(pb, 0); /* size */
+    put_tag(pb, "minf");
     if(track->enc->codec_type == CODEC_TYPE_VIDEO)
-        str = "VideoHandler";
+        mov_write_vmhd_tag(pb);
     else
-        str = "SoundHandler";
-    put_byte(pb, strlen(str)); /* string counter */
-    put_buffer(pb, str, strlen(str));
+        mov_write_smhd_tag(pb);
+    if (track->mode == MODE_MOV) /* FIXME: Why do it for MODE_MOV only ? */
+        mov_write_hdlr_tag(pb, NULL);
+    mov_write_dinf_tag(pb);
+    mov_write_stbl_tag(pb, track);
     return updateSize(pb, pos);
 }
 
@@ -491,15 +633,8 @@ static int mov_write_mdhd_tag(ByteIOContext *pb, MOVTrack* track)
     put_be32(pb, 0); /* Version & flags */
     put_be32(pb, track->time); /* creation time */
     put_be32(pb, track->time); /* modification time */
-    if(track->enc->codec_type == CODEC_TYPE_VIDEO) {
-        int64_t rate = track->enc->frame_rate;
-        put_be32(pb, rate); 
-        put_be32(pb, rate*(int64_t)track->trackDuration/(int64_t)globalTimescale); // duration 
-    }
-    else {
-      put_be32(pb, track->timescale); /* time scale (sample rate for audio) */ 
-      put_be32(pb, track->trackDuration); /* duration */
-    }
+    put_be32(pb, track->timescale); /* time scale (sample rate for audio) */ 
+    put_be32(pb, track->trackDuration); /* duration */
     put_be16(pb, 0); /* language, 0 = english */
     put_be16(pb, 0); /* reserved (quality) */
     return 32;
@@ -552,7 +687,9 @@ static int mov_write_tkhd_tag(ByteIOContext *pb, MOVTrack* track)
 
     /* Track width and height, for visual only */
     if(track->enc->codec_type == CODEC_TYPE_VIDEO) {
-        put_be32(pb, track->enc->width*0x10000);
+        double sample_aspect_ratio = av_q2d(track->enc->sample_aspect_ratio);
+        if( !sample_aspect_ratio ) sample_aspect_ratio = 1;
+        put_be32(pb, sample_aspect_ratio * track->enc->width*0x10000);
         put_be32(pb, track->enc->height*0x10000);
     }
     else {
@@ -635,7 +772,82 @@ static int mov_write_mvhd_tag(ByteIOContext *pb, MOVContext *mov)
     return 0x6c;
 }
 
-static int mov_write_moov_tag(ByteIOContext *pb, MOVContext *mov)
+static int mov_write_udta_tag(ByteIOContext *pb, MOVContext* mov,
+                              AVFormatContext *s)
+{
+    int pos = url_ftell(pb);
+    int i;
+
+    put_be32(pb, 0); /* size */
+    put_tag(pb, "udta");
+
+    /* Requirements */
+    for (i=0; i<MAX_STREAMS; i++) {
+        if(mov->tracks[i].entry <= 0) continue;
+        if (mov->tracks[i].enc->codec_id == CODEC_ID_AAC ||
+            mov->tracks[i].enc->codec_id == CODEC_ID_MPEG4) {
+            int pos = url_ftell(pb);
+            put_be32(pb, 0); /* size */
+            put_tag(pb, "\251req");
+            put_be16(pb, sizeof("QuickTime 6.0 or greater") - 1);
+            put_be16(pb, 0);
+            put_buffer(pb, "QuickTime 6.0 or greater",
+                       sizeof("QuickTime 6.0 or greater") - 1);
+            updateSize(pb, pos);
+            break;
+        }
+    }
+
+    /* Encoder */
+    if(!(mov->tracks[0].enc->flags & CODEC_FLAG_BITEXACT))
+    {
+        int pos = url_ftell(pb);
+        put_be32(pb, 0); /* size */
+        put_tag(pb, "\251enc");
+        put_be16(pb, sizeof(LIBAVFORMAT_IDENT) - 1); /* string length */
+        put_be16(pb, 0);
+        put_buffer(pb, LIBAVFORMAT_IDENT, sizeof(LIBAVFORMAT_IDENT) - 1);
+        updateSize(pb, pos);
+    }
+
+    if( s->title[0] )
+    {
+        int pos = url_ftell(pb);
+        put_be32(pb, 0); /* size */
+        put_tag(pb, "\251nam");
+        put_be16(pb, strlen(s->title)); /* string length */
+        put_be16(pb, 0);
+        put_buffer(pb, s->title, strlen(s->title));
+        updateSize(pb, pos);
+    }
+
+    if( s->author[0] )
+    {
+        int pos = url_ftell(pb);
+        put_be32(pb, 0); /* size */
+        put_tag(pb, /*"\251aut"*/ "\251day" );
+        put_be16(pb, strlen(s->author)); /* string length */
+        put_be16(pb, 0);
+        put_buffer(pb, s->author, strlen(s->author));
+        updateSize(pb, pos);
+    }
+
+    if( s->comment[0] )
+    {
+        int pos = url_ftell(pb);
+        put_be32(pb, 0); /* size */
+        put_tag(pb, "\251des");
+        put_be16(pb, strlen(s->comment)); /* string length */
+        put_be16(pb, 0);
+        put_buffer(pb, s->comment, strlen(s->comment));
+        updateSize(pb, pos);
+    }
+
+    return updateSize(pb, pos);
+}
+
+static int mov_write_moov_tag(ByteIOContext *pb, MOVContext *mov,
+                              AVFormatContext *s)
 {
     int pos, i;
     pos = url_ftell(pb);
@@ -644,46 +856,28 @@ static int mov_write_moov_tag(ByteIOContext *pb, MOVContext *mov)
     mov->timescale = globalTimescale;
 
     for (i=0; i<MAX_STREAMS; i++) {
-        if(mov->tracks[i].entry > 0) {
-            if(mov->tracks[i].enc->codec_type == CODEC_TYPE_VIDEO) {
-                mov->tracks[i].timescale = globalTimescale;
-                mov->tracks[i].sampleDelta = mov->tracks[i].enc->frame_rate_base;
-                mov->tracks[i].frameCount = mov->tracks[i].samples;
-                mov->tracks[i].trackDuration = (int64_t)((int64_t)mov->tracks[i].entry*
-                    (int64_t)globalTimescale*(int64_t)mov->tracks[i].enc->frame_rate_base)/(int64_t)mov->tracks[i].enc->frame_rate;
+        if(mov->tracks[i].entry <= 0) continue;
+
+        if(mov->tracks[i].enc->codec_type == CODEC_TYPE_VIDEO) {
+            mov->tracks[i].timescale = mov->tracks[i].enc->frame_rate;
+            mov->tracks[i].sampleDuration = mov->tracks[i].enc->frame_rate_base;
+        }
+        else if(mov->tracks[i].enc->codec_type == CODEC_TYPE_AUDIO) {
+            /* If AMR, track timescale = 8000, AMR_WB = 16000 */
+            if(mov->tracks[i].enc->codec_id == CODEC_ID_AMR_NB) {
+                mov->tracks[i].sampleDuration = 160;  // Bytes per chunk
+                mov->tracks[i].timescale = 8000;
             }
-            else if(mov->tracks[i].enc->codec_type == CODEC_TYPE_AUDIO) {
-                long trackDuration = 0;
-                /* If AMR, track timescale = 8000, AMR_WB = 16000 */
-                if(mov->tracks[i].enc->codec_id == CODEC_ID_AMR_NB) {
-                    int j;
-                    for (j=0; j<mov->tracks[i].samples; j++) {
-                        int cl = j / MOV_INDEX_CLUSTER_SIZE;
-                        int id = j % MOV_INDEX_CLUSTER_SIZE;
-                        trackDuration += mov->tracks[i].cluster[cl][id].entries;
-                    }
-                    mov->tracks[i].sampleDelta = 160;  // Bytes per chunk
-                    mov->tracks[i].frameCount = mov->tracks[i].samples;
-                    mov->tracks[i].trackDuration = 
-                        mov->tracks[i].samples * mov->tracks[i].sampleDelta; //trackDuration
-                    mov->tracks[i].timescale = 8000;
-                }
-                else {
-                    int j;
-                    for (j=0; j<=mov->tracks[i].entry; j++) {
-                        int cl = j / MOV_INDEX_CLUSTER_SIZE;
-                        int id = j % MOV_INDEX_CLUSTER_SIZE;
-                        trackDuration += mov->tracks[i].cluster[cl][id].len;
-                    }
-                    mov->tracks[i].frameCount = trackDuration;
-                    mov->tracks[i].timescale = mov->tracks[i].enc->sample_rate;
-                    mov->tracks[i].sampleDelta = 1;
-                    mov->tracks[i].trackDuration = trackDuration;
-                }
+            else {
+                mov->tracks[i].timescale = mov->tracks[i].enc->sample_rate;
+                mov->tracks[i].sampleDuration = mov->tracks[i].enc->frame_size;
             }
-            mov->tracks[i].time = mov->time;
-            mov->tracks[i].trackID = i+1;
         }
+
+        mov->tracks[i].trackDuration = 
+            mov->tracks[i].sampleCount * mov->tracks[i].sampleDuration;
+        mov->tracks[i].time = mov->time;
+        mov->tracks[i].trackID = i+1;
     }
 
     mov_write_mvhd_tag(pb, mov);
@@ -694,6 +888,8 @@ static int mov_write_moov_tag(ByteIOContext *pb, MOVContext *mov)
         }
     }
 
+    mov_write_udta_tag(pb, mov, s);
+
     return updateSize(pb, pos);
 }
 
@@ -706,23 +902,47 @@ int mov_write_mdat_tag(ByteIOContext *pb, MOVContext* mov)
 }
 
 /* TODO: This needs to be more general */
-int mov_write_ftyp_tag(ByteIOContext *pb)
+int mov_write_ftyp_tag(ByteIOContext *pb, AVFormatContext *s)
 {
+    MOVContext *mov = s->priv_data;
+
     put_be32(pb, 0x14 ); /* size */
     put_tag(pb, "ftyp");
-    put_tag(pb, "3gp4");
+
+    if ( mov->mode == MODE_3GP )
+        put_tag(pb, "3gp4");
+    else
+        put_tag(pb, "isom");
+
     put_be32(pb, 0x200 );
-    put_tag(pb, "3gp4");
+
+    if ( mov->mode == MODE_3GP )
+        put_tag(pb, "3gp4");
+    else
+        put_tag(pb, "mp41");
+
     return 0x14;
 }
 
 static int mov_write_header(AVFormatContext *s)
 {
     ByteIOContext *pb = &s->pb;
+    MOVContext *mov = s->priv_data;
+    int i;
+
+    /* Default mode == MP4 */
+    mov->mode = MODE_MP4;
 
-    if(s->oformat != NULL) {
-    if(!strcmp("3gp", s->oformat->name))
-        mov_write_ftyp_tag(pb);
+    if (s->oformat != NULL) {
+        if (!strcmp("3gp", s->oformat->name)) mov->mode = MODE_3GP;
+        else if (!strcmp("mov", s->oformat->name)) mov->mode = MODE_MOV;
+
+        if ( mov->mode == MODE_3GP || mov->mode == MODE_MP4 )
+            mov_write_ftyp_tag(pb,s);
+    }
+
+    for (i=0; i<MAX_STREAMS; i++) {
+        mov->tracks[i].mode = mov->mode;
     }
 
     put_flush_packet(pb);
@@ -730,94 +950,86 @@ static int mov_write_header(AVFormatContext *s)
     return 0;
 }
 
-static int Timestamp() {
-    time_t ltime;
-    time ( &ltime );
-    return ltime+(24107*86400);
-}
-
 static int mov_write_packet(AVFormatContext *s, int stream_index,
                             const uint8_t *buf, int size, int64_t pts)
 {
     MOVContext *mov = s->priv_data;
     ByteIOContext *pb = &s->pb;
-    AVCodecContext *enc;
+    AVCodecContext *enc = &s->streams[stream_index]->codec;
+    MOVTrack* trk = &mov->tracks[stream_index];
     int cl, id;
+    unsigned int samplesInChunk = 0;
 
-    enc = &s->streams[stream_index]->codec;
-    if (!url_is_streamed(&s->pb)) {
-        MOVTrack* trk = &mov->tracks[stream_index];
-        int sampleCount = 0;
-        unsigned int chunkSize = 0;
+    if (url_is_streamed(&s->pb)) return 0; /* Can't handle that */
+    if (!size) return 0; /* Discard 0 sized packets */
 
-        if(enc->codec_type == CODEC_TYPE_AUDIO) {
+    if (enc->codec_type == CODEC_TYPE_VIDEO ) {
+        samplesInChunk = 1;
+    }
+    else if (enc->codec_type == CODEC_TYPE_AUDIO ) {
+        if( enc->codec_id == CODEC_ID_AMR_NB) {
             /* We must find out how many AMR blocks there are in one packet */
-            if(enc->codec_id == CODEC_ID_AMR_NB) {
-                static uint16_t packed_size[16] = {13, 14, 16, 18, 20, 21, 27, 32, 6, 0, 0, 0, 0, 0, 0, 0};             
-                int len = 0;
-
-                while(len < size && sampleCount < 100) {
-                    len += packed_size[(buf[len] >> 3) & 0x0F];
-                    sampleCount++;
-                }
-                chunkSize = 1;
-            }
-            else {
-                sampleCount = size;
-                chunkSize = size/enc->channels;
+            static uint16_t packed_size[16] =
+                {13, 14, 16, 18, 20, 21, 27, 32, 6, 0, 0, 0, 0, 0, 0, 0};
+            int len = 0;
+
+            while (len < size && samplesInChunk < 100) {
+                len += packed_size[(buf[len] >> 3) & 0x0F];
+                samplesInChunk++;
             }
         }
-        else if(enc->codec_type == CODEC_TYPE_VIDEO) {
-            if(enc->codec_id == CODEC_ID_MPEG4 &&
-               trk->vosLen == 0)
-            {
-                assert(enc->extradata_size);
-
-                trk->vosLen = enc->extradata_size;
-                trk->vosData = av_malloc(trk->vosLen);
-                memcpy(trk->vosData, enc->extradata, trk->vosLen);
-            }
-            chunkSize = 1;
+        else if(enc->codec_id == CODEC_ID_PCM_ALAW) {
+            samplesInChunk = size/enc->channels;
         }
-
-        cl = trk->entry / MOV_INDEX_CLUSTER_SIZE;
-        id = trk->entry % MOV_INDEX_CLUSTER_SIZE;
-
-        if (trk->ents_allocated <= trk->entry) {
-            trk->cluster = av_realloc(trk->cluster, (cl+1)*sizeof(void*)); 
-            if (!trk->cluster)
-                return -1;
-            trk->cluster[cl] = av_malloc(MOV_INDEX_CLUSTER_SIZE*sizeof(MOVIentry));
-            if (!trk->cluster[cl])
-                return -1;
-            trk->ents_allocated += MOV_INDEX_CLUSTER_SIZE;
+       else if(enc->codec_id == CODEC_ID_PCM_S16BE || enc->codec_id == CODEC_ID_PCM_S16LE) {
+           samplesInChunk = size/(2*enc->channels);
+        }          
+        else {
+            samplesInChunk = 1;
         }
-        if(mov->mdat_written == 0) {
-            mov_write_mdat_tag(pb, mov);
-            mov->mdat_written = 1;
-            mov->time = Timestamp();
-        }
-        
-        trk->cluster[cl][id].pos = url_ftell(pb) - mov->movi_list;
-        trk->cluster[cl][id].chunkSize = chunkSize;
-        if(enc->channels > 1)
-          trk->cluster[cl][id].len = size/enc->channels;
-        else
-          trk->cluster[cl][id].len = size;
-        trk->cluster[cl][id].entries = sampleCount;
-        if(enc->codec_type == CODEC_TYPE_VIDEO) {
-            trk->cluster[cl][id].key_frame = enc->coded_frame->key_frame;
-            if(enc->coded_frame->pict_type == FF_I_TYPE)
+    }
+
+    if ((enc->codec_id == CODEC_ID_MPEG4 || enc->codec_id == CODEC_ID_AAC)
+        && trk->vosLen == 0) {
+//        assert(enc->extradata_size);
+
+        trk->vosLen = enc->extradata_size;
+        trk->vosData = av_malloc(trk->vosLen);
+        memcpy(trk->vosData, enc->extradata, trk->vosLen);
+    }
+
+    cl = trk->entry / MOV_INDEX_CLUSTER_SIZE;
+    id = trk->entry % MOV_INDEX_CLUSTER_SIZE;
+
+    if (trk->ents_allocated <= trk->entry) {
+        trk->cluster = av_realloc(trk->cluster, (cl+1)*sizeof(void*)); 
+        if (!trk->cluster)
+            return -1;
+        trk->cluster[cl] = av_malloc(MOV_INDEX_CLUSTER_SIZE*sizeof(MOVIentry));
+        if (!trk->cluster[cl])
+            return -1;
+        trk->ents_allocated += MOV_INDEX_CLUSTER_SIZE;
+    }
+    if (mov->mdat_written == 0) {
+        mov_write_mdat_tag(pb, mov);
+        mov->mdat_written = 1;
+        mov->time = s->timestamp;
+    }
+
+    trk->cluster[cl][id].pos = url_ftell(pb);
+    trk->cluster[cl][id].samplesInChunk = samplesInChunk;
+    trk->cluster[cl][id].size = size;
+    trk->cluster[cl][id].entries = samplesInChunk;
+    if(enc->codec_type == CODEC_TYPE_VIDEO) {
+        trk->cluster[cl][id].key_frame = enc->coded_frame->key_frame;
+        if(enc->coded_frame->pict_type == FF_I_TYPE)
             trk->hasKeyframes = 1;
-        }
-        trk->enc = enc;
-        trk->entry++;
-        if(sampleCount == 0)
-            trk->samples++;
-        else
-            trk->samples += sampleCount;
-        trk->mdat_size += size;
     }
+    trk->enc = enc;
+    trk->entry++;
+    trk->sampleCount += samplesInChunk;
+    trk->mdat_size += size;
+
     put_buffer(pb, buf, size);
 
     put_flush_packet(pb);
@@ -830,31 +1042,32 @@ static int mov_write_trailer(AVFormatContext *s)
     ByteIOContext *pb = &s->pb;
     int res = 0;
     int i, j;
-    offset_t file_size;
 
-    file_size = url_ftell(pb);
-    j = 0;
+    offset_t moov_pos = url_ftell(pb);
 
     /* Write size of mdat tag */
-    for (i=0; i<MAX_STREAMS; i++) {
+    for (i=0, j=0; i<MAX_STREAMS; i++) {
         if(mov->tracks[i].ents_allocated > 0) {
             j += mov->tracks[i].mdat_size;
         }
     }
     url_fseek(pb, mov->mdat_pos, SEEK_SET);
     put_be32(pb, j+8);
-    url_fseek(pb, file_size, SEEK_SET);
+    url_fseek(pb, moov_pos, SEEK_SET);
 
-    mov_write_moov_tag(pb, mov);
+    mov_write_moov_tag(pb, mov, s);
 
     for (i=0; i<MAX_STREAMS; i++) {
         for (j=0; j<mov->tracks[i].ents_allocated/MOV_INDEX_CLUSTER_SIZE; j++) {
             av_free(mov->tracks[i].cluster[j]);
         }
         av_free(mov->tracks[i].cluster);
+        if( mov->tracks[i].vosLen ) av_free( mov->tracks[i].vosData );
+
         mov->tracks[i].cluster = NULL;
         mov->tracks[i].ents_allocated = mov->tracks[i].entry = 0;
     }
+
     put_flush_packet(pb);
 
     return res;
@@ -866,7 +1079,7 @@ static AVOutputFormat mov_oformat = {
     NULL,
     "mov",
     sizeof(MOVContext),
-    CODEC_ID_PCM_ALAW,
+    CODEC_ID_AAC,
     CODEC_ID_MPEG4,
     mov_write_header,
     mov_write_packet,
@@ -889,8 +1102,8 @@ static AVOutputFormat _3gp_oformat = {
 static AVOutputFormat mp4_oformat = {
     "mp4",
     "mp4 format",
-    NULL,
-    "mp4",
+    "application/mp4",
+    "mp4,m4a",
     sizeof(MOVContext),
     CODEC_ID_AAC,
     CODEC_ID_MPEG4,