本技术公开了一种基于信任和注意力的时空数据真相收集方法。群智感知网络数据收集中存在恶意工作者提交虚假数据和稀疏数据时空断层等导致服务质量降低的关键挑战。因此,本发明提出了一种基于信任的数据真相发现和基于时空关系的数据恢复方法。平台在获得工人数据后先通过完全可信工人和高可信工人聚合出部分基础真相,通过部分真相填充出稀疏的真相数据矩阵;然后,平台通过基于注意力的时空真相恢复方法识别基础真实数据的时空关系,并重建未被感知或者不可靠的剩余数据。这样,获得出完整真相数据后,平台就可以评估可疑和未知工人信任度,在不断识别出高质量工人的同时,获得高可信的完整时空数据真相,构建高质量的群智感知服务网络。
背景技术
移动群智感知目前已成为一种流行的数据收集服务范式,主要通过利用移动工人携带的泛在智能传感设备来完成各种感知任务。移动群智感知网络由三个主要部分组成:发布数据收集任务并构建服务应用的服务平台,执行数据收集任务的工人,及使用服务应用的消费者。如今,基于移动群智感知的应用已经涵盖了广泛的领域,如空气质量监测、交通流量估计和地理信息勘探等。移动群智感知网络通过工人的移动性和感知设备的泛在性,以实现大规模、细粒度的城市时空数据收集。
而在实际场景中,工人在城市区域中的分布往往呈现“全局稀疏,局部稠密”的特征。具体来说,对同一任务,可能会有多个不同的工人可以上传感知数据,而由于其不同的感知设备、感知能力、感知视角,不同工人汇报的多源数据可能彼此冲突。另一方面,移动工人及传感器无法覆盖城市中的全部区域范围,必然导致数据缺失。这些数据冲突和数据缺失可能使得构建的服务应用质量低下,进而导致恶劣影响,甚至可能危及消费者的财产和生命安全。因此,真值估计成为群智感知中的关键问题,旨在从工人收集的冲突且稀疏的数据中估计精确且完整的真值数据。
针对这一问题,已有研究人员提出了一类名为真值发现的方法,其主要基于招募多个工人执行同一任务所提供的多源观测结果来试图缓解数据冲突现象。现有的真值发现方法都假设群智感知网络中的大多数工人都是可信的,从而通过动态加权平均的方法获取可靠的估计真值。然而,即使绝大多数工人可信,真值估计的准确性也会因为加权平均而受到少数恶意工人的影响。更严重的是,这些方法的准确性和恶意工人的比例直接相关,当工人群体中的恶意工人超过一半时,经典真值发现的结果就会被恶意工人随意操纵。
数据恢复是另一类解决真值估计问题的方法,其试图通过感知矩阵的时空相关性,利用已感知数据来推断未感知数据,从而解决数据稀疏性问题。已有研究证明,只要时空矩阵中的每一行和每一列都包含一定数据量,目前的数据恢复方法已经能在高缺失率的情况下实现极高的恢复精度。目前的数据恢复方法其实也面临着与真值发现方法类似的信任挑战,因为它们都往往假设已感知任务的数据是完全可靠的,从而基于此来推断未感知数据。但事实上,如果服务平台错误地采用有毒数据作为数据恢复的基准数据,则会导致错误的进一步传播和加剧,从而使得最终的估计真值完全误差过大而无法使用。
此外,目前针对数据恢复的研究并没有充分考虑到时空断裂的问题,其中时空断裂包括在特定传感子区域的所有时间片均缺乏观测数据(时间断裂)的情况,以及在特定时刻的所有传感子区域均缺乏观测数据(空间断裂)的情况。在群智感知中,尤其是大规模和高分辨率数据收集中,时空断裂现象其实十分常见。尤其是在不可信环境中,可用的工人数据更加稀疏,这可能导致更明显的时空断裂。难以避免的时空断裂无疑加大了从有限的时空信息和不充分上下文中提取复杂时空数据关联的挑战。因此,本发明提出了一种基于信任和注意力的时空数据真相收集方法,用以在出现恶意工人和时空断裂的情况下估计出准确的真值。
实现思路