国防科技大学
国防科技大学计算机学院
1007-130X
43-1258/TP
1973
计算机工程与科学
信息科技
月刊
1-3个月
100289次
42-153
湖南省长沙市
410073
该刊被以下数据库收录:
科学文摘(英)(2025)
日本科学技术振兴机构数据库(日)(2025)
中国科学引文数据库来源期刊(2025-2026年度)(扩展版)
科技期刊世界影响力指数报告(2024)来源期刊
核心期刊版次
北京大学《中文核心期刊要目总览》来源期刊:
2008年版,2011年版,2014年版,2017年版,2020年版,2023年版
AMI评价信息
期刊荣誉
Caj-cd规范获奖期刊;
旅行背包问题TTP是传统的旅行商问题和背包问题的结合,属于NP难问题。相较于独立的旅行商问题和背包问题,旅行背包问题更加符合现实情况,具有更高的研究价值。先前的TTP求解算法主要为启发式算法,性能有限,其他类型的算法则研究较少。为了提高TTP的求解性能,提出了融合强化学习的算法,采用分阶段策略。第1阶段根据物品的属性生成物品选择计划,第2阶段利用强化学习演员-评论家(Actor-Critic)算法求解旅行路径,第3阶段引入邻域搜索策略优化所得解。实验结果表明,所提算法在大部分算例上都取得了较好的结果,并且在部分算例上,解的质量超越了其他对比算法,表明了所提算法具有较优的性能。
The travelling thief problem (TTP) is a combination of the traditional traveling salesman problem(TSP) and the knapsack problem(KP), which is an NP-hard problem. Compared with the independent TSP and KP, the TTP is more realistic and has higher research value. Previous TTP solving algorithms are mainly heuristic algorithms with limited performance, and other types of algorithms are less studied. To acquire better solution for TTP, a staged strategy of incorporating reinforcement learning is proposed. The first stage generates an item selection plan based on the properties of items. The second stage uses a reinforcement learning algorithm (Actor-Critic algorithm) to solve the travel path. The third stage introduces neighborhood search strategy to optimize the obtained solution. Experiments show that the proposed algorithm achieves good results on most test cases and, in some cases, outperforms the compared algorithms in terms of solution quality, demonstrating the superior performance of the proposed algorithm.
相关文章
| No related articles found! |