本技术公开了一种类生物体机器概率决策算法,按照行为决策、参数调整、动作执行的顺序进行,重复运行,每一个完整动作序列称为一个执行周期;在参数调整中,对于每种行为,每被执行一次,其发生概率下降a%;如果该行为在当前周期选中执行,则a会增加;如果该行为没有在当前周期选中执行,则a会衰减。本发明的有益效果:约束条件能够通过若干参数定义和限定,参数具有一定的意思,便于人类快速掌握调参原理;算法应具有一定的自学习能力,能够根据所出环境和应用场景,在人工限定约束的基础上,动态优化行为决策。
背景技术
机器人、智能体在与人类交互时,为了获得人类的亲近感,需要表现出类生物体的行为和决策。目前常用的机器行为决策算法主要有2类,一类是具有确定规则的决策机制,即通过预先编程形成机器行为序列,或预先编制外界刺激-机器反应对应关系表,实现机器的行为决策。
另一类则为随机决策,即预先定义每种外界刺激对应的机器行为集,以及该集合中每种机器行为的发生概率,随机决策哪种发生哪个行为。
对于具有固定规则的第一种行为决策算法,其主要应用于严格要求机器确定行为的场合,如工业场景。如果应用于机器人伴侣、娱乐机器人等场景下,因其行为可以被准确预测,因而不容易被人类接受为“伴侣”,仅仅会被当成机器。
对于第二种随机决策算法,如果不严格的对各行为发生概率进行限定,很容易形成过于随机的行为序列,使得其完全无法被预测,给人类造成恐慌。但严格的进行行为概率限定,是一项复杂耗时的工作。
因此需要一种通过可以通过简单调参,即能形成行为“基本”可预测的一种行为决策算法。并且,如果能通过设定不同的参数取值,根据每台机器人所处环境,形成不同“性格”的机器行为决策,将极大的降低调试工作量,丰富产品种类。
实现思路