「专利解密」字节跳动如何使用深度学习处理视频?

目前在很多行业中,例如广告行业,会有控制视频类广告中的字符与图像的比例的要求,目的是为了满足客户要求或者为了追求广告效果,为了达到不同的广告效果。

这种场景会需要将字符在视频类广告中的占比进行不同的控制,例如,通常会要求视频类广告中的字符内容的占比要低于图像内容的占比,也可能会要求视频类广告中的字符内容的占比大于图像内容的占比等。

目前在对视频类广告中字符内容与图像内容的比例进行判断时,通常还是会根据人工的主观判断来对视频类广告中的字符占比进行判断,在这样的情况下,判断同一个视频类广告中的字符占比是否满足预定的条件时的判断结果通常会根据不同的人的主观感觉的不同而不同,无法达到对视频类广告中的字符内容的占比与图像内容的占比之间关系的精确判断。

因此,为了解决如何通过对视频内容的处理来精确地确定视频中字符内容与图像内容之间的占比关系,字节跳动在19年9月3日申请了一项名为“视频处理方法、装置、介质和设备”的发明专利(申请号:201910829463.1),申请人为北京字节跳动网络技术有限公司。

根据目前该专利公开的资料,让我们一起来看看这项视频处理方法吧。

如上图所示为视频处理方法的流程图,首先,获取目标视频中的目标视频帧图像,目标视频即为需要根据字符面积占比来进行处理的视频文件,可以是视频类广告,也可以为短视频平台上传的各类短视频或者电影等长视频。

目标视频帧图像为目标视频中的所有视频帧或者一部分具有代表性的视频帧,即根据预设的提取方法所得到的关键帧,例如在目标视频中的每一秒内选取第一帧作为该秒的关键帧等。实际应用时可以根据实际情况来确定目标视频帧图像,例如,当目标视频的时长过长时,可以将关键帧作为目标视频帧图像,以加速视频的处理。

其次,将目标视频帧图像输入预设深度学习模型中,以确定目标视频帧图像中属于字符区域的目标像素点。在确定该目标视频帧图像之后,利用已预先训练好的预设深度学习模型来对每一张目标视频帧图像进行处理,以确定每一张目标视频帧图像中属于字符区域的目标像素点。

最后,根据目标视频帧图像的目标像素点在目标视频帧图像的所有像素点中的占比,确定目标视频是否为文字类视频。例如,若目标视频帧图像中一共有50万像素点,其中目标像素点共有20万像素,则进而就可以根据该占比来确定目标视频是否为文字类视频。

这样,无需再通过人工判断的方式对目标视频中的字符内容的占比多少进行判断,利用这种通过对视频中字符内容占比精确识别从而对视频进行分类的视频处理方式,大大提高了对视频处理的精确性。

如上图所示为视频处理方法中确定目标视频帧图像中属于字符区域的目标像素点的方法的流程图,首先,确定目标视频帧图像中每个像素点属于字符区域的概率,其次再将目标视频帧图像中属于字符区域的概率大于第一预设阈值的像素点确定为目标像素点。

例如第一预设阈值可以为60%,当确定目标视频帧图像中的某一个像素点属于字符区域的概率大于60%时,则确定该像素点为目标像素点,即将该像素点确定为属于字符区域的像素点。

当确定该目标视频帧图像中的某一个像素点属于字符区域的概率小于60%时,则将该像素点确定为不属于字符区域的像素点。

如上图为视频处理装置的结构框图,该装置包括:获取模块10,用于获取目标视频中的目标视频帧图像;第一确定模块20,用于将目标视频帧图像输入预设深度学习模型中,以确定目标视频帧图像中属于字符区域的目标像素点;第二确定模块30,根据目标视频帧图像的目标像素点在目标视频帧图像的所有像素点中的占比,确定目标视频帧图像是否为文字类视频。

以上就是字节跳动发明的视频处理方法,通过深度学习模型准确分割目标视频中的每个目标视频帧图像中的属于字符区域的目标像素点,从而精确得到每个目标视频帧图像中属于字符区域的占比,进而就能根据该目标视频中的所有目标视频帧图像中属于字符区域的比例来确定该目标视频是否为文字类视频。无需再通过人工判断的方式对目标视频中的字符内容的占比多少进行判断,大大提高了对视频处理的精确性!

发表评论

邮箱地址不会被公开。 必填项已用*标注