一种信息处理方法及服务器的制造方法

文档序号：10534967阅读：224来源：国知局

一种信息处理方法及服务器的制造方法
【专利摘要】本发明实施例公开了一种信息处理方法及服务器。所述方法包括：获得与用户对应的多个音频数据，识别所述音频数据中的多个属性参数；将所述多个音频数据按照所述多个属性参数映射到预先设置的多维坐标系中，获得所述多个音频数据对应的坐标点；其中，所述坐标系的维度与所述属性参数的类型数量相匹配；基于每个音频数据的坐标点按照预设算法计算第一音频数据的局部密度参数；所述第一音频数据为所述多个音频数据中的任一音频数据；基于计算结果确定所述第一音频数据是否是噪声数据。
【专利说明】
一种信息处理方法及服务器
技术领域
[0001] 本发明涉及信息处理技术，具体涉及一种信息处理方法及服务器。
【背景技术】
[0002] 随着互联网技术的发展，用户可以通过互联网操作各种事务，例如听音乐。用户通常会依据主观喜好对歌曲进行主动操作，例如收藏操作、下载操作或者创建歌单操作等等。但这些操作并不一定能够真实反映用户的喜好，一方面是由于用户的喜好会随着时间的推移可能产生变化，另一方面用户的操作可能是一些误操作。上述这种操作获得的数据可以称为异常数据或噪声数据。
[0003] 在用户画像数据或个性化推荐数据的处理过程中，需要对待处理的数据进行鉴别筛选，剔除噪声数据。现有技术中，通常采用基于人工经验的策略规则对噪声数据进行判定。这种方式通常逻辑简单，不仅难以挖掘出更深层的特点，另外也难以适用于所有人群，导致噪声数据的判定准确率不高，从而使得用户画像数据或个性化推荐数据的不准确，影响用户的体验。

【发明内容】

[0004] 为解决现有存在的技术问题，本发明实施例提供一种信息处理方法及服务器，能够提高噪声数据的鉴别准确率。
[0005] 为达到上述目的，本发明实施例的技术方案是这样实现的：
[0006] 本发明实施例提供了一种信息处理方法，所述方法包括：
[0007] 获得与用户对应的多个音频数据，识别所述音频数据中的多个属性参数；
[0008] 将所述多个音频数据按照所述多个属性参数映射到预先设置的多维坐标系中，获得所述多个音频数据对应的坐标点；其中，所述坐标系的维度与所述属性参数的类型数量相匹配；
[0009] 基于每个音频数据的坐标点按照预设算法计算第一音频数据的局部密度参数;所述第一音频数据为所述多个音频数据中的任一音频数据；
[0010] 基于计算结果确定所述第一音频数据是否是噪声数据。
[0011]上述方案中，所述基于每个音频数据的坐标点按照预设算法计算第一音频数据的局部密度参数，包括：
[0012] 基于每个音频数据的坐标点按照局部密度因子(L0F)算法计算第一音频数据的局部密度参数。
[0013] 上述方案中，所述基于每个音频数据的坐标点按照L0F算法计算第一音频数据的局部密度参数，包括：
[0014] 获得与所述第一音频数据对应的第一坐标点a的欧式距离最近的k个坐标点，生成第一集合，所述第一集合记为Nk(a);
[0015] 计算所述第一坐标点a与所述第一集合中每个坐标点的之间的可达距离;所述可达距离满足以下表达式：
[0016] reachability_distance_k(a,b)=max{k_distance(b),d(a,b)}；
[0017] 其中，reachability_distance_k(a,b)表示第一坐标点a与第二坐标点b之间的可达距离;k_distanCe(b)表示所述第二坐标点b与第二集合中与所述第二坐标点b的欧式距离最远的第三坐标点之间的欧式距离;其中，所述第二集合为与所述第二坐标点b的欧式距离最近的kl个坐标点生成的集合；当所述第一坐标点a和所述第二坐标点b满足第一条件时，reachability_distance_k(a，b)等于k_distance(b);当所述第一坐标点a和所述第二坐标点b不满足第一条件时，reachability_distance_k(a，b)等于所述第一坐标点a与所述第二坐标点b之间的欧式距离；
[0018] 计算所述第一坐标点的第一局部密度:所述局部密度满足以下表达式：
[0020]计算每个坐标点的局部密度，获得所述第一集合中的k个坐标点的平均局部密度和所述第一局部密度的比值;所述比值满足以下表达式：
[0022] 上述方案中，所述满足第一条件，包括:所述第一坐标点a属于所述第二坐标点b对应的第二集合；
[0023] 所述不满足第一条件，包括:所述第一坐标点a不属于所述第二坐标点b对应的第二集合。
[0024] 上述方案中，所述基于计算结果确定所述第一音频数据是否是噪声数据，包括：
[0025] 当所述比值大于预设阈值时，确定所述第一音频数据为噪声数据;其中，所述预设阈值大于等于1。
[0026] 本发明实施例还提供了一种服务器，所述服务器包括:数据获取单元、映射单元、计算单元和判定单元;其中，
[0027] 所述数据获取单元，用于获得与用户对应的多个音频数据，识别所述音频数据中的多个属性参数；
[0028] 所述映射单元，用于将所述数据获取单元获得的多个音频数据按照所述多个属性参数映射到预先设置的多维坐标系中，获得所述多个音频数据对应的坐标点；其中，所述坐标系的维度与所述属性参数的类型数量相匹配；
[0029] 所述计算单元，用于基于每个音频数据的坐标点按照预设算法计算第一音频数据的局部密度参数;所述第一音频数据为所述多个音频数据中的任一音频数据；
[0030] 所述判定单元，用于基于所述计算单元获得的计算结果确定所述第一音频数据是否是噪声数据。
[0031] 上述方案中，所述计算单元，用于基于每个音频数据的坐标点按照局部密度因子 (L0F)算法计算第一音频数据的局部密度参数。
[0032] 上述方案中，所述计算单元，用于获得与所述第一音频数据对应的第一坐标点a的欧式距离最近的k个坐标点，生成第一集合，所述第一集合记为Nk(a);
[0033]计算所述第一坐标点a与所述第一集合中每个坐标点的之间的可达距离;所述可达距离满足以下表达式：
[0034] reachability_distance_k(a,b)=max{k_distance(b),d(a,b)}；
[0035] 其中，reachability_distance_k(a,b)表示第一坐标点a与第二坐标点b之间的可达距离;k_distan Ce(b)表示所述第二坐标点b与第二集合中与所述第二坐标点b的欧式距离最远的第三坐标点之间的欧式距离;其中，所述第二集合为与所述第二坐标点b的欧式距离最近的kl个坐标点生成的集合；当所述第一坐标点a和所述第二坐标点b满足第一条件时，reachability_distance_k(a，b)等于k_distance(b);当所述第一坐标点a和所述第二坐标点b不满足第一条件时，reachability_distance_k(a，b)等于所述第一坐标点a与所述第二坐标点b之间的欧式距离；
[0036] 计算所述第一坐标点的第一局部密度;所述局部密度满足以下表达式：
[0038]计算每个坐标点的局部密度，获得所述第一集合中的k个坐标点的平均局部密度和所述第一局部密度的比值;所述比值满足以下表达式：
[0040] 上述方案中，所述满足第一条件，包括:所述第一坐标点a属于所述第二坐标点b对应的第二集合；
[0041] 所述不满足第一条件，包括:所述第一坐标点a不属于所述第二坐标点b对应的第二集合。
[0042]上述方案中，所述判定单元，用于当所述比值大于预设阈值时，确定所述第一音频数据为噪声数据;其中，所述预设阈值大于等于1。
[0043]本发明实施例提供的信息处理方法及服务器，所述方法包括:获得与用户对应的多个音频数据，识别所述音频数据中的多个属性参数;将所述多个音频数据按照所述多个属性参数映射到预先设置的多维坐标系中，获得所述多个音频数据对应的坐标点；其中，所述坐标系的维度与所述属性参数的类型数量相匹配;基于每个音频数据的坐标点按照预设算法计算第一音频数据的局部密度参数;所述第一音频数据为所述多个音频数据中的任一音频数据;基于计算结果确定所述第一音频数据是否是噪声数据。如此，采用本发明实施例的技术方案，无需依赖人为的设定，仅依据音频数据自身的属性信息（例如歌手、语言、年代、流派等)将音频数据映射为多维坐标系中的离散坐标点，计算坐标点的局部密度参数，基于计算结果判定所述音频数据是否为噪声数据，大大提高了噪声数据的鉴别准确率，为后续的例如用户画像数据的确定或者个性化推荐数据的确定提供了可靠的数据来源。
【附图说明】
[0044]图la至图lc为本发明实施例的信息处理方法的应用场景示意图；
[0045] 图2为本发明实施例的信息处理方法的流程示意图；
[0046] 图3为本发明实施例中的坐标系的映射示意图；
[0047] 图4为本发明实施例中基于L0F算法确定的局部密度的示意图；
[0048]图5a为采用本发明实施例的信息处理方案之前的效果示意图；
[0049]图5b为采用本发明实施例的信息处理方案之后的效果示意图；
[0050]图6为本发明实施例的服务器的组成结构示意图；
[0051 ]图7为本发明实施例的服务器的硬件构成示意图。
【具体实施方式】
[0052]下面结合附图及具体实施例对本发明作进一步详细的说明。
[0053]本发明实施例中，采用本发明实施例的信息处理方法进行处理的音频数据在终端侧可通过歌曲的形式呈现，所述歌曲可通过终端的播放应用输出播放，也可以通过网页输出播放;所述歌曲不限于是终端中存储的（已下载)的歌曲，也可以是在线播放的歌曲。在服务器侧，进行处理的音频数据即对应于终端侧播放的歌曲。
[0054] 随着网络业务个性化的发展，通常会基于用户的操作确定该用户的喜好，以及针对不同用户的喜好为用户推荐不同的内容，即确定用户画像数据以及针对不同用户的个性化推荐。图la至图lc为本发明实施例的信息处理方法的应用场景示意图；以歌曲通过终端的播放应用进行播放为例，服务器会根据用户的歌曲播放习惯，确定该用户的喜好，例如喜欢的歌手、喜欢的歌曲流派、喜欢的歌曲语言、喜欢的歌曲的年代等信息;进一步将上述筛选的信息推送至播放应用的页面上显示，如图la至图lc所示。
[0055] 通常情况下，服务器是根据终端反馈的表征用户操作的数据确定该用户的喜好，所述用户操作例如下载操作、收藏操作、创建歌单操作、播放操作等等。进一步地基于获得的操作数据采用基于人工经验的策略规则对噪音数据进行判定的数据确定方式，例如，当一首歌曲在一年前被点击，并且用户近期没有再听过这首歌或这个歌手的歌曲，则可以判定该歌曲已经不是用户感兴趣的歌曲，应该被判定为噪声数据。
[0056] 上述基于人工经验的策略规则完全依赖于人为设定，且规则过于简单，很容易导致噪声数据的判定错误。例如，终端中对应收藏了三百首歌曲，其中大部分为中文歌曲，几首的英文歌曲；且这几首英文歌曲最近也没有播放过;可能是用户之前喜欢听英文歌曲，现在喜欢听中文歌曲，只是最近没有播放过英文歌曲。在这种场景下，如果把这几首英文歌曲判定为噪声数据是不准确的。
[0057] 基于上述策略规则的缺点，本发明实施例的信息处理方案，结合数据挖掘技术，依据音频数据的属性信息(例如歌手、语言、年代、流派等)将音频数据映射为多维坐标系中的离散坐标点。由于每个用户的听歌习惯会集中在一定的范围内，则噪声数据表现为所述多维坐标系中的孤立坐标点。
[0058]下面对本发明实施例的信息处理方法进行详细的描述。
[0059] 实施例一
[0060]本发明实施例提供了一种信息处理方法。图2为本发明实施例的信息处理方法的流程示意图；如图2所示，所述信息处理方法包括：
[0061]步骤101:获得与用户对应的多个音频数据，识别所述音频数据中的多个属性参数。
[0062] 步骤102:将所述多个音频数据按照所述多个属性参数映射到预先设置的多维坐标系中，获得所述多个音频数据对应的坐标点；其中，所述坐标系的维度与所述属性参数的类型数量相匹配。
[0063] 步骤103:基于每个音频数据的坐标点按照预设算法计算第一音频数据的局部密度参数;所述第一音频数据为所述多个音频数据中的任一音频数据。
[0064] 步骤104:基于计算结果确定所述第一音频数据是否是噪声数据。
[0065] 本实施例中，所述信息处理方法应用于服务器或服务器集群中。所述服务器或服务器集群可以为播放应用对应的服务器或服务器集群，也可以为网页对应的服务器或服务器集群。可以理解为，当终端侧通过播放应用播放歌曲时，所述信息处理方法应用于所述播放应用对应的服务器或服务器集群。当终端侧通过网页播放歌曲时，所述信息处理方法应用于网页对应的服务器或服务器集群。
[0066] 步骤101中，所述获得与用户对应的多个音频数据，为:获得与用户标识(例如用户名、IP地址)对应的多个音频数据。具体的，所述用户标识可以为用户在完成注册或登录时输入的用户名，也可以为用户进行音乐播放时所持有的终端的IP地址。进一步地，服务器中会记录与所述用户标识相关联的基于用户操作的各种信息，包括音频数据，例如播放某一个音频、下载某一个音频、收藏某一个音频等等。基于此，所述与用户对应的多个音频数据，可以是用户操作过的所有音频数据，包括以下音频数据的至少之一：用户通过下载操作下载到本地的音频数据、用户通过播放操作在线播放的音频数据、用户通过收藏操作收藏的音频数据等等。其中，服务器获得的音频数据可以为音频文件数据;可以理解为，所述音频文件数据是可以通过播放工具直接播放输出的数据;所述音频文件数据中包括音频的相关信息。另外，服务器获得的音频数据还可以直接为音频的相关信息。其中，所述音频的相关信息例如音频的标识(例如名称）、摘要信息等等;所述摘要信息中可包括歌手、语言、年代、地区等信息。进一步的，服务器识别所述音频数据中的摘要信息中的每一个信息作为一类属性参数，例如，识别音频数据中的歌手信息作为第一类属性参数;识别音频数据中的语言信息作为第二类属性参数，以此类推。当然，本发明实施例中不限于上述类型的属性信息。
[0067] 步骤102中，依据属性参数的类型设置多维坐标系，例如，以属性信息包括:歌手、语言、年代和地区为例，属性信息的类型数量为四，相应的，设置四维坐标系，所述四维坐标系中的每个坐标轴表示一类属性参数。图3为本发明实施例中的坐标系的映射示意图；图3 所示的坐标系仅以二维进行示例，例如x轴表示歌手，y轴表示年代;将每一个歌手分别与x 轴上的数值对应，相应的，将不同的年代分别与y轴上的数值对应。依据每一个音频数据的年代与歌手分别将音频数据对应坐标系中的不同的坐标点，如图3所示，从中我们可以初步的看出，箭头指向的两个坐标点相对于其他坐标点来说相对孤立。当然，当属性参数的类型数量大于上述两类时，与上述方式同理，建立多维坐标系，将每个音频数据映射到所述多维坐标系中，获得每个音频数据对应的坐标点。
[0068] 步骤103中，所述基于每个音频数据的坐标点按照预设算法计算第一音频数据的局部密度参数，包括：
[0069] 基于每个音频数据的坐标点按照局部密度因子(L0F，Local Outlier Factor)算法计算第一音频数据的局部密度参数。
[0070] 具体的，本实施例中，所述按照L0F算法计算第一音频数据的局部密度参数包括以下几个步骤：
[0071] 获得与所述第一音频数据对应的第一坐标点的欧式距离最近的k个坐标点，生成第一集合，所述第一集合记为Nk(a);
[0072]计算所述第一坐标点a与所述第一集合中每个坐标点的之间的可达距离;所述可达距离满足公式（1):
[0073] reachability_distance_k(a,b)=max{k_distance(b),d(a,b)} (1)
[0074] 其中，reachability_distance_k(a,b)表示第一坐标点a与第二坐标点b之间的可达距离;k_distan Ce(b)表示所述第二坐标点b与第二集合中与所述第二坐标点b的欧式距离最远的第三坐标点之间的欧式距离;所述第三坐标点在本示意中可记为第三坐标点k;其中，所述第二集合为与所述第二坐标点b的欧式距离最近的kl个坐标点生成的集合；当所述第一坐标点a和所述第二坐标点b满足第一条件时，reachability_distance_k(a，b)等于k_ distance(b);当所述第一坐标点a和所述第二坐标点b不满足第一条件时，reachability# distance_k(a，b)等于所述第一坐标点a与所述第二坐标点b之间的欧式距离；
[0075] 计算所述第一坐标点的第一局部密度;所述局部密度满足公式(2):
⑵：
[0077]计算每个坐标点的局部密度，获得所述第一集合中的k个坐标点的平均局部密度和所述第一局部密度的比值;所述比值满足公式(3):
(3)
[0079] 其中，Ird(b)表示第二坐标点b的局部密度，可记为第二局部密度。
[0080] 具体的，对于与用户相关联的所有的音频数据所对应的坐标点，这里可称为坐标点集合;首先，确定所述坐标点集合中每一个坐标点的所有近邻结点，这里，以所述坐标点集合中的第一坐标点a的近邻结点为例，若确定所述坐标点集合中的第一坐标点a的近邻结点有k个，则将所述k邻结点（即k个坐标点）记为第一集合，所述第一集合记为N k(a)。其中，所述k邻结点表示与与所述第一坐标点a的欧式距离最近的k个坐标点。本实施例中，欧式距离的计算方式可参照现有技术所述，本实施例中不做详细描述。
[00811第二，确定两个坐标点的可达距离满足公式（1)所示，这里，两个坐标点的可达距离并不一定是两个坐标点的欧式距离。具体的，当所述第一坐标点a属于所述第二坐标点b 对应的第二集合时，reachability_distance_k(a，b)等于k_distance(b);当所述第一坐标点a不属于所述第二坐标点b对应的第二集合时，reachability_distance_k(a，b)等于所述第一坐标点a与所述第二坐标点b之间的欧式距离;其中，所述第二集合为与所述第二坐标点b的欧式距离最近的kl个坐标点生成的集合。也就是说，当所述第一坐标点a属于第二坐标点b的邻结点集合时，所述第一坐标点a与所述第二坐标点b之间的可达距离等于所述第二坐标点b与其最近的邻结点之间的欧式距离。当所述第一坐标点a不属于第二坐标点b的邻结点集合时，所述第一坐标点a与所述第二坐标点b之间的可达距离等于所述第一坐标点 a与所述第二坐标点b之间的欧式距离。这样使后续的局部密度的计算的稳定性更佳。
[0082] 第三，基于上述两个步骤进行局部密度的获得。以计算第一坐标点a的第一局部密度Ird(a)为例，所述第一局部密度Ird(a)满足公式(2)所示，其中，b表示第二坐标点，并且b GN k(a)，表示所述第二坐标点b属于第一集合Nk(a)，即所述第二坐标点b为与所述第一坐标点a的欧式距离最近的k个坐标点的其中之一。由公式(2)可以看出，所述第一坐标点a的第一局部密度满足所述第一坐标点a与其所述第一集合N k(a)中的所有坐标点的平均可达距离的倒数。基于上述方式获得每个坐标点的局部密度。
[0083] 最后，比较所述第一集合中的所有坐标点的平均局部密度和所述第一坐标点a的第一局部密度的比值;所述比值满足公式(3)所示，本发明实施例中通过获得的比值大小确定所述第一坐标点对应的第一音频数据是否是噪声数据。
[0084] 步骤104中，所述基于计算结果确定所述第一音频数据是否是噪声数据，包括：当所述比值大于预设阈值时，确定所述第一音频数据为噪声数据;其中，所述预设阈值大于等于1。
[0085] 具体的，当计算结果（即获得的比值)小于等于1时，表明所述第一坐标点a被所述第一集合中的坐标点包围，即所述第一坐标点a与所述第一集合中的坐标点之间相对位置较紧密。当计算结果（即获得的比值)大于1时，表明所述第一坐标点a在所述第一集合外部；比值越接近1，所述第一坐标点a与所述第一集合中的坐标点之间的相对位置相对紧密；比值越远离1，表明所述第一坐标点a与所述第一集合中的坐标点之间的相对位置越疏远，可以确定所述第一坐标点a为噪声数据的可能性越高。图4为本发明实施例中基于L0F算法确定的局部密度的示意图；如图4所示，用环形圈出的坐标点均为获得的比值大于1对应的坐标点。基于此，在本实施例中，可基于需求配置一预设阈值，所述预设阈值大于等于1;所述预设阈值越大，噪声数据的判定准确率越高。所述预设阈值例如3,则当获得的比值大于3 时，可确定比值对应的坐标点相对应的音频数据为噪声数据。
[0086] 采用本发明实施例的技术方案，无需依赖人为的设定，仅依据音频数据自身的属性信息（例如歌手、语言、年代、流派等)将音频数据映射为多维坐标系中的离散坐标点，计算坐标点的局部密度参数，基于计算结果判定所述音频数据是否为噪声数据，大大提高了噪声数据的鉴别准确率，为后续的例如用户画像数据的确定或者个性化推荐数据的确定提供了可靠的数据来源。
[0087] 实施例二
[0088] 本实施例结合具体的应用场景对本发明实施例的信息处理方法进行详细描述。以用户对应的客户端(所述客户端例如音乐类应用)收藏(或者下载）了三百首歌曲为例，这三百首歌曲中很有可能是由于用户的误操作导致收藏(或下载)的，或者可能存在用户在很久之前收藏(或下载)但最近一段时间内未播放过的。
[0089] 第一步，识别所述三百首歌曲的属性参数，以识别出的属性参数包括:歌手、语言、年代、流派四类属性参数为例，则对应建立四维坐标系，所述四维坐标系中每个坐标轴分别对应一类属性参数;坐标轴上的坐标值分别对应相应属性参数对应的值。例如，将每一个歌手分别与第一坐标轴上的数值对应，将不同的年代分别与第二坐标轴上的数值对应等等，以此类推。将所述三百首歌曲按照歌手、语言、年代、流派分别映射到所述四维坐标系上，获得所述三百首歌曲对应在所述四维坐标系上的坐标点，获得坐标点集合。其中，每一个坐标点可通过特征向量表示，所述特征向量包含四个特征向量值。
[0090]第二步，对于所述坐标点集合，获得所述坐标点集合中每一个坐标点的所有近邻结点，生成第一集合。若第一坐标点a的近邻结点有k个，则所述第一集合记为Nk(a)。其中，所述第一坐标点a的近邻结点表示与所述第一坐标点a的欧式距离最近的坐标点。
[0091] 第三步，计算两个坐标点的可达距离，所述可达距离可通过上述公式（1)计算获得。reachability_distance_k(a，b)表示第一坐标点a与第二坐标点b之间的可达距离;k_ distanced)表示所述第二坐标点b与第二集合中与所述第二坐标点b的欧式距离最远的第三坐标点之间的欧式距离;所述第三坐标点在本示意中可记为第三坐标点k;其中，所述第二集合为与所述第二坐标点b的欧式距离最近的kl个坐标点生成的集合。当所述第一坐标点a属于所述第二坐标点b对应的第二集合时，^3(：1^13；[1；^7_(118七31106_1^(3，13)等于1^_ distance(b);当所述第一坐标点a不属于所述第二坐标点b对应的第二集合时， reachability_distance_k(a，b)等于所述第一坐标点a与所述第二坐标点b之间的欧式距离。也就是说，当所述第一坐标点a属于第二坐标点b的邻结点集合时，所述第一坐标点a与所述第二坐标点b之间的可达距离等于所述第二坐标点b与其最近的邻结点之间的欧式距离。当所述第一坐标点a不属于第二坐标点b的邻结点集合时，所述第一坐标点a与所述第二坐标点b之间的可达距离等于所述第一坐标点a与所述第二坐标点b之间的欧式距离。这样使后续的局部密度的计算的稳定性更佳。
[0092] 第四步，计算每个坐标点的局部密度。以计算第一坐标点a的第一局部密度为例，所述第一局部密度可通过公式(2)计算获得。
[0093] 第五步，获得所述第一集合中的k个坐标点的平均局部密度和所述第一局部密度的比值;所述比值可通过公式(3)获得。具体的，当计算结果（即获得的比值)小于等于1时，表明所述第一坐标点a被所述第一集合中的坐标点包围，即所述第一坐标点a与所述第一集合中的坐标点之间相对位置较紧密。当计算结果（即获得的比值)大于1时，表明所述第一坐标点a在所述第一集合外部;比值越接近1，所述第一坐标点a与所述第一集合中的坐标点之间的相对位置相对紧密；比值越远离1，表明所述第一坐标点a与所述第一集合中的坐标点之间的相对位置越疏远，可以确定所述第一坐标点a为噪声数据的可能性越高。如图4所示，用环形圈出的坐标点均为获得的比值大于1对应的坐标点。基于此，在本实施例中，可基于需求配置一预设阈值，所述预设阈值大于等于1;所述预设阈值越大，噪声数据的判定准确率越高。所述预设阈值例如3,则当获得的比值大于3时，可确定比值对应的坐标点相对应的音频数据为噪声数据。
[0094]采用本发明实施例的技术方案，无需依赖人为的设定，仅依据音频数据自身的属性信息（例如歌手、语言、年代、流派等)将音频数据映射为多维坐标系中的离散坐标点，计算坐标点的局部密度参数，基于计算结果判定所述音频数据是否为噪声数据，大大提高了噪声数据的鉴别准确率，为后续的例如用户画像数据的确定或者个性化推荐数据的确定提供了可靠的数据来源。
[0095] 通过上述信息处理方法的描述，本发明实施例的技术方案可应用于如下场景：
[0096]场景一，对于某些应用，本场景中以音乐类应用为例，在用户使用音乐类应用时，通常会依据用户的喜好为用户推荐用户可能喜欢的歌曲（即个性化推荐）。如果采用现有技术中的噪声数据的鉴别方式，很可能会导致鉴别不准确，则可能会导致给用户推荐的歌曲很可能时用户不喜欢的。图5a为采用本发明实施例的信息处理方案之前的效果示意图；当推荐给用户不喜欢的歌曲时，用户很可能会点击表征切换功能的"换一批"按键，以切换下一首或下一页为该用户推荐的歌曲。由此可如图5a所示，采用现有技术的处理方案，反馈得到的"换一批率"始终保持在一个较高的数值(大于1.5%)。而采用本发明实施例的技术方案，剔除真正的噪声数据后，服务器可确定用户的真正喜好，从而为用户推荐的歌曲是用户喜欢的概率显著提高。图5b为采用本发明实施例的信息处理方案之后的效果示意图；如图 5b所示，表征负反馈指标的"垃圾桶率"均发生了下降趋势(如箭头所示是呈下降趋势）。 [0097]场景二，对于用户画像数据的确定，本场景中以音乐类应用中的用户画像数据的确定为例，在用户使用音乐类应用时，应用的个人展示页，通常会展示个人的喜好，具体可参照图la至图lc所示，例如用户喜欢的歌手、用户喜欢的歌曲流派、用户喜欢的歌曲年代等等。如果采用现有技术中的噪声数据的鉴别方式，很可能会导致展示的信息与用户的喜好有较大的区别，不利于用户的体验。而采用现有技术的处理方案，能够大大提升噪声数据的鉴别正确率，从而会使展示的信息与用户的喜好区别较小，提升用户的体验。
[0098] 实施例三
[0099]本发明实施例还提供了一种服务器。图6为本发明实施例的服务器的组成结构示意图；如图6所示，所述服务器包括:数据获取单元21、映射单元22、计算单元23和判定单元 24;其中，
[0100]所述数据获取单元21，用于获得与用户对应的多个音频数据，识别所述音频数据中的多个属性参数；
[0101] 所述映射单元22,用于将所述数据获取单元21获得的多个音频数据按照所述多个属性参数映射到预先设置的多维坐标系中，获得所述多个音频数据对应的坐标点；其中，所述坐标系的维度与所述属性参数的类型数量相匹配；
[0102] 所述计算单元23,用于基于每个音频数据的坐标点按照预设算法计算第一音频数据的局部密度参数;所述第一音频数据为所述多个音频数据中的任一音频数据；
[0103] 所述判定单元24,用于基于所述计算单元23获得的计算结果确定所述第一音频数据是否是噪声数据。
[0104] 本实施例中，所述服务器或服务器集群可以为播放应用对应的服务器或服务器集群，也可以为网页对应的服务器或服务器集群。可以理解为，当终端侧通过播放应用播放歌曲时，所述信息处理方法应用于所述播放应用对应的服务器或服务器集群。当终端侧通过网页播放歌曲时，所述信息处理方法应用于网页对应的服务器或服务器集群。
[0105] 本实施例中，所述音频数据的属性参数例如歌手信息、语言信息、年代信息、地区信息等等。所述映射单元22预先依据属性参数的类型设置多维坐标系，所述多维坐标系中的每个坐标轴表示一类属性参数。图3所示的坐标系仅以二维进行示例，例如x轴表示歌手， y轴表示年代;将每一个歌手分别与x轴上的数值对应，相应的，将不同的年代分别与y轴上的数值对应。依据每一个音频数据的年代与歌手分别将音频数据对应坐标系中的不同的坐标点，如图3所示，从中我们可以初步的看出，箭头指向的两个坐标点相对于其他坐标点来说相对孤立。当然，当属性参数的类型数量大于上述两类时，与上述方式同理，建立多维坐标系，将每个音频数据映射到所述多维坐标系中，获得每个音频数据对应的坐标点。
[0106] 本实施例中，所述计算单元23,具体用于基于每个音频数据的坐标点按照L0F算法计算第一音频数据的局部密度参数。
[0107] 具体的，所述计算单元23,用于获得与所述第一音频数据对应的第一坐标点a的欧式距离最近的k个坐标点，生成第一集合，所述第一集合记为N k(a);
[0108] 计算所述第一坐标点a与所述第一集合中每个坐标点的之间的可达距离;所述可达距离满足公式（1):
[0109] reachability_distance_k(a,b)=max{k_distance(b),d(a,b)} (1)
[0110] 其中，reachability_distance_k(a,b)表示第一坐标点a与第二坐标点b之间的可达距离;k_distanCe(b)表示所述第二坐标点b与第二集合中与所述第二坐标点b的欧式距离最远的第三坐标点之间的欧式距离;所述第三坐标点在本示意中可记为第三坐标点k;其中，所述第二集合为与所述第二坐标点b的欧式距离最近的kl个坐标点生成的集合；当所述第一坐标点a和所述第二坐标点b满足第一条件时，reachability_distance_k(a，b)等于k_ distance(b);当所述第一坐标点a和所述第二坐标点b不满足第一条件时，reachability# distance_k(a，b)等于所述第一坐标点a与所述第二坐标点b之间的欧式距离；
[0111]计算所述第一坐标点的第一局部密度;所述局部密度满足公式(2):
(2)
[0113]计算每个坐标点的局部密度，获得所述第一集合中的k个坐标点的平均局部密度和所述第一局部密度的比值;所述比值满足公式(3):
(3)
[0115] 其中，Ird(b)表示第二坐标点b的局部密度，可记为第二局部密度。
[0116] 具体的，对于与用户相关联的所有的音频数据所对应的坐标点，这里可称为坐标点集合;首先，所述计算单元23确定所述坐标点集合中每一个坐标点的所有近邻结点，这里，以所述坐标点集合中的第一坐标点a的近邻结点为例，若确定所述坐标点集合中的第一坐标点a的近邻结点有k个，则将所述k邻结点（即k个坐标点）记为第一集合，所述第一集合记为N k(a)。其中，所述k邻结点表示与与所述第一坐标点a的欧式距离最近的k个坐标点。本实施例中，欧式距离的计算方式可参照现有技术所述，本实施例中不做详细描述。
[0117] 第二，所述计算单元23确定两个坐标点的可达距离满足公式（1)所示，这里，两个坐标点的可达距离并不一定是两个坐标点的欧式距离。具体的，当所述第一坐标点a属于所述第二坐标点b对应的第二集合时，reachability_distance_k(a，b)等于k_distance(b); 当所述第一坐标点a不属于所述第二坐标点b对应的第二集合时，reachability_distance_ k(a，b)等于所述第一坐标点a与所述第二坐标点b之间的欧式距离;其中，所述第二集合为与所述第二坐标点b的欧式距离最近的kl个坐标点生成的集合。也就是说，当所述第一坐标点a属于第二坐标点b的邻结点集合时，所述第一坐标点a与所述第二坐标点b之间的可达距离等于所述第二坐标点b与其最近的邻结点之间的欧式距离。当所述第一坐标点a不属于第二坐标点b的邻结点集合时，所述第一坐标点a与所述第二坐标点b之间的可达距离等于所述第一坐标点a与所述第二坐标点b之间的欧式距离。这样使后续的局部密度的计算的稳定性更佳。
[0118]第三，所述计算单元23基于上述两个步骤进行局部密度的获得。以计算第一坐标点a的第一局部密度Ird(a)为例，所述第一局部密度Ird(a)满足公式(2)所示，其中，b表示第二坐标点，并且bGN k(a)，表示所述第二坐标点b属于第一集合Nk(a)，即所述第二坐标点b 为与所述第一坐标点a的欧式距离最近的k个坐标点的其中之一。由公式(2)可以看出，所述第一坐标点a的第一局部密度满足所述第一坐标点a与其所述第一集合N k(a)中的所有坐标点的平均可达距离的倒数。基于上述方式获得每个坐标点的局部密度。
[0119] 最后，所述计算单元23比较所述第一集合中的所有坐标点的平均局部密度和所述第一坐标点a的第一局部密度的比值;所述比值满足公式(3)所示，本发明实施例中通过获得的比值大小确定所述第一坐标点对应的第一音频数据是否是噪声数据。
[0120] 本实施例中，所述判定单元24,用于当所述比值大于预设阈值时，确定所述第一音频数据为噪声数据;其中，所述预设阈值大于等于1。
[0121] 具体的，当计算结果（即获得的比值)小于等于1时，表明所述第一坐标点a被所述第一集合中的坐标点包围，即所述第一坐标点a与所述第一集合中的坐标点之间相对位置较紧密。当计算结果（即获得的比值)大于1时，表明所述第一坐标点a在所述第一集合外部；比值越接近1，所述第一坐标点a与所述第一集合中的坐标点之间的相对位置相对紧密；比值越远离1，表明所述第一坐标点a与所述第一集合中的坐标点之间的相对位置越疏远，可以确定所述第一坐标点a为噪声数据的可能性越高。如图4所示，用环形圈出的坐标点均为获得的比值大于1对应的坐标点。基于此，在本实施例中，可基于需求配置一预设阈值，所述预设阈值大于等于1;所述预设阈值越大，噪声数据的判定准确率越高。所述预设阈值例如 3,则当获得的比值大于3时，可确定比值对应的坐标点相对应的音频数据为噪声数据。
[0122] 本实施例中，所述服务器中的数据获取单元21、映射单元22、计算单元23和判定单元24,在实际应用中均可由所述服务器中的中央处理器(CPU，Central Processing Unit)、数字信号处理器（DSP，Digital Signal Processor)或可编程门阵列（FPGA，Field - Programmable Gate Array)实现。
[0123] 图7为本发明实施例的服务器的硬件构成示意图；服务器作为硬件实体的一个示例如图7所示，包括处理器31、存储介质32以及至少一个外部通信接口 33;所述处理器31、存储介质32以及外部通信接口 33均通过总线34连接。
[0124] 这里需要指出的是：以上涉及服务器项的描述，与上述方法描述是类似的，同方法的有益效果描述，不做赘述。对于本发明服务器实施例中未披露的技术细节，请参照本发明方法实施例的描述。
[0125] 在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。
[0126] 上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
[0127] 另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。
[0128] 本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器（R0M，Read_0nly Memory)、随机存取存储器（RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0129] 或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、R〇M、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
[0130] 以上所述，仅为本发明的【具体实施方式】，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。
【主权项】
1. 一种信息处理方法，其特征在于，所述方法包括：获得与用户对应的多个音频数据，识别所述音频数据中的多个属性参数；将所述多个音频数据按照所述多个属性参数映射到预先设置的多维坐标系中，获得所述多个音频数据对应的坐标点；其中，所述坐标系的维度与所述属性参数的类型数量相匹配；基于每个音频数据的坐标点按照预设算法计算第一音频数据的局部密度参数;所述第一音频数据为所述多个音频数据中的任一音频数据；基于计算结果确定所述第一音频数据是否是噪声数据。2. 根据权利要求1所述的方法，其特征在于，所述基于每个音频数据的坐标点按照预设算法计算第一音频数据的局部密度参数，包括：基于每个音频数据的坐标点按照局部密度因子LOF算法计算第一音频数据的局部密度参数。3. 根据权利要求2所述的方法，其特征在于，所述基于每个音频数据的坐标点按照LOF 算法计算第一音频数据的局部密度参数，包括：获得与所述第一音频数据对应的第一坐标点a的欧式距离最近的k个坐标点，生成第一集合，所述第一集合记为Nk(a); 计算所述第一坐标点a与所述第一集合中每个坐标点的之间的可达距离;所述可达距离满足以下表达式： reachability_distance_k(a,b)=max{k_distance(b),d(a,b)}；其中，reachability_distance_k(a,b)表示第一坐标点a与第二坐标点b之间的可达距离;k_diStance(b)表示所述第二坐标点b与第二集合中与所述第二坐标点b的欧式距离最远的第三坐标点之间的欧式距离;其中，所述第二集合为与所述第二坐标点b的欧式距离最近的kl个坐标点生成的集合；当所述第一坐标点a和所述第二坐标点b满足第一条件时， reachability_distance_k(a，b)等于k_distance(b);当所述第一坐标点a和所述第二坐标点b不满足第一条件时，reachability_distance_k(a，b)等于所述第一坐标点a与所述第二坐标点b之间的欧式距离；计算所述第一坐标点的第一局部密度;所述局部密度满足以下表达式：计算每个坐标点的局部密度，获得所述第一集合中的k个坐标点的平均局部密度和所述第一局部密度的比值;所述比值满足以下表达式：4. 根据权利要求3所述的方法，其特征在于，所述满足第一条件，包括:所述第一坐标点 a属于所述第二坐标点b对应的第二集合；所述不满足第一条件，包括:所述第一坐标点a不属于所述第二坐标点b对应的第二集合。5. 根据权利要求3所述的方法，其特征在于，所述基于计算结果确定所述第一音频数据是否是噪声数据，包括：当所述比值大于预设阈值时，确定所述第一音频数据为噪声数据;其中，所述预设阈值大于等于1。6. -种服务器，其特征在于，所述服务器包括:数据获取单元、映射单元、计算单元和判定单元;其中，所述数据获取单元，用于获得与用户对应的多个音频数据，识别所述音频数据中的多个属性参数；所述映射单元，用于将所述数据获取单元获得的多个音频数据按照所述多个属性参数映射到预先设置的多维坐标系中，获得所述多个音频数据对应的坐标点；其中，所述坐标系的维度与所述属性参数的类型数量相匹配；所述计算单元，用于基于每个音频数据的坐标点按照预设算法计算第一音频数据的局部密度参数;所述第一音频数据为所述多个音频数据中的任一音频数据；所述判定单元，用于基于所述计算单元获得的计算结果确定所述第一音频数据是否是噪声数据。7. 根据权利要求6所述的服务器，其特征在于，所述计算单元，用于基于每个音频数据的坐标点按照局部密度因子LOF算法计算第一音频数据的局部密度参数。8. 根据权利要求7所述的服务器，其特征在于，所述计算单元，用于获得与所述第一音频数据对应的第一坐标点a的欧式距离最近的k个坐标点，生成第一集合，所述第一集合记为Nk(a); 计算所述第一坐标点a与所述第一集合中每个坐标点的之间的可达距离;所述可达距离满足以下表达式： reachability_distance_k(a,b)=max{k_distance(b),d(a,b)}；其中，reachability_distance_k(a,b)表示第一坐标点a与第二坐标点b之间的可达距离;k_diStance(b)表示所述第二坐标点b与第二集合中与所述第二坐标点b的欧式距离最远的第三坐标点之间的欧式距离;其中，所述第二集合为与所述第二坐标点b的欧式距离最近的kl个坐标点生成的集合；当所述第一坐标点a和所述第二坐标点b满足第一条件时， reachability_distance_k(a，b)等于k_distance(b);当所述第一坐标点a和所述第二坐标点b不满足第一条件时，reachability_distance_k(a，b)等于所述第一坐标点a与所述第二坐标点b之间的欧式距离；计算所述第一坐标点的第一局部密度:所述局部密度满足以下表达式：计算每个坐标点的局部密度，获得所述第一集合中的k个坐标点的平均局部密度和所述第一局部密度的比值;所述比值满足以下表达式：9. 根据权利要求8所述的服务器，其特征在于，所述满足第一条件，包括:所述第一坐标点a属于所述第二坐标点b对应的第二集合；所述不满足第一条件，包括:所述第一坐标点a不属于所述第二坐标点b对应的第二集合。10. 根据权利要求8所述的服务器，其特征在于，所述判定单元，用于当所述比值大于预设阈值时，确定所述第一音频数据为噪声数据;其中，所述预设阈值大于等于1。
【文档编号】G06F17/30GK105893515SQ201610193015
【公开日】2016年8月24日
【申请日】2016年3月30日
【发明人】黄安埠
【申请人】腾讯科技（深圳）有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄安埠;
技术所有人：腾讯科技（深圳）有限公司;
我是此专利的发明人