発表論文等一覧 (2024年11月現在)



I. 査読付き学術雑誌

  1. 宮崎和光, 木賀大介, 安田翔也, 濱田立輝, 小玉直樹, 山村雅幸,
    BioDOS のための論文推薦方法の提案,
    電気学会論文誌C, Vol.145, No.2,(2025). 掲載予定

  2. Miyazaki, K.,
    Enhanced Naive Agent in Angry Birds AI Competition via Exploitation-Oriented Learning,
    Journal of Robotics and Mechatronics, Vol.36, No.3, pp.580-588 (2024).

  3. Miyazaki, K., and Ida, M.,
    Performance evaluation of character-level CNNs using tweet data and analysis for weight perturbations,
    Artificial Life and Robotics, Vol.29, pp.266-273 (2024).

  4. Miyazaki, K., Yamaguchi, S., Mori, R., Yoshikawa, Y., Saito, T., and Suzuki, T.,
    Proposal of a Course-Classification-Support System using a Deep Learning and its Evaluation when combined with Reinforcement Learning,
    Journal of Advanced Computational Intelligence and Intelligent Informatics, Vol.28, No.2, pp.454-467 (2024).

  5. Miyazaki, K., and Miyazaki, H.,
    Suppression of negative tweets using reinforcement learning systems,
    Cognitive Systems Research,Vol.84, 101207 (2024).

  6. Kodama, N., Harada, T., and Miyazaki, K.,
    Traffic Signal Control System Using Deep Reinforcement Learning With Emphasis on Reinforcing Successful Experiences,
    IEEE Access, Vol.10, pp.128943-128950 (2022).

  7. 宮崎和光, 吉田望, 森利枝,
    学位に付記する専攻分野の名称とディプロマ・ポリシーの整合性に関する研究,
    電気学会論文誌C, Vol.142, No.2, pp.117-128 (2022).

  8. Kodama, N., Harada, T., and Miyazaki, K.,
    Home Energy Management Algorithm Based on Deep Reinforcement Learning Using Multistep Prediction,
    IEEE Access, Vol.9, pp.153108-153115 (2021).

  9. Miyazaki, K.,
    Proposal and evaluation of deep exploitation-oriented learning under multiple reward environment,
    Cognitive Systems Research, Vol.70, pp.29-39 (2021).

  10. Kodama, N., Harada, T., and Miyazaki, K.,
    Distributed Deep Reinforcement Learning Method Using Profit Sharing for Learning,
    IEEJ Transactions on Electrical and Electronic Engineering,
    Vol.15, No.8, pp.1188-1196 (2020).

  11. 宮崎和光, 井田正明,
    Character-level CNNを用いたディプロマ・ポリシーとカリキュラム・ポリシーの整合性判定システムの構築,
    電気学会論文誌C, Vol.139, No.10, pp.1119-1127 (2019).

  12. Shiraishi, D., Miyazaki, K., and Kobayashi, H.,
    Proposal and Evaluation of Detour Path Suppression Method in PS Reinforcement Learning,
    SICE Journal of Control, Measurement, and System Integration, Vol.12, No.5, pp.1-9 (2019).

  13. Kodama, N., Miyazaki, K., and Kobayashi, H.,
    Proposal and Evaluation of Reward Sharing Method Based on Safety Level,
    SICE Journal of Control, Measurement, and System Integration,
    Vol.11, No.3, pp.1-7 (2018).

  14. Miyazaki, K., Furukawa, K., and Kobayashi, H.,
    Proposal of PSwithEFP and Its Evaluation in Multi-Agent Reinforcement Learning,
    Journal of Advanced Computational Intelligence and Intelligent Informatics,
    Vol.21, No.5, pp.930-938 (2017).

  15. Miyazaki, K.,
    Exploitation-Oriented Learning with Deep Learning - Introducing Profit Sharing to a Deep Q-Network -,
    Journal of Advanced Computational Intelligence and Intelligent Informatics,
    Vol.21, No.5, pp.849-855 (2017).

  16. 村岡宏紀, 宮崎和光, 小林博明,
    失敗確率伝播アルゴリズムEFPAの提案とマルチエージェント環境下での有効性の検証,
    電気学会論文誌C, Vol.136, No.3, pp.273-281 (2016).

  17. 宮崎和光, 井田正明,
    正例および負例の集合を考慮した科目分類支援システムの提案と経験強化型学習との融合,
    大学評価学位研究, No.15, pp.1-15 (2014).

  18. Miyazaki, K.,
    Proposal of an Exploitation-oriented Learning Method on Multiple Rewards and Penalties Environments and the Design Guideline,
    Journal of Computers,
    Vol.8, No.7, pp.1683-1690 (2013).

  19. Kuroda, S., Miyazaki, K. and Kobayashi, S.,
    Introduction of Fixed Mode States into Online Reinforcement Learning with Penalties and Rewards
    and its Application to Biped Robot Waist Trajectory Generation,
    Journal of Advanced Computational Intelligence and Intelligent Informatics,
    Vol.16, No.6, pp.758-768 (2012).

  20. Miyazaki, K.,
    Proposal of the Continuous-Valued Penalty Avoiding Rational Policy Making Algorithm,
    Journal of Advanced Computational Intelligence and Intelligent Informatics,
    Vol.16, No.2, pp.183-190 (2012).

  21. Miyazaki, K. and Kobayashi, S.,
    Exploitation-oriented Learning PS-r#,
    Journal of Advanced Computational Intelligence and Intelligent Informatics,
    Vol.13, No.6, pp.624-630 (2009).

  22. Watanabe, T., Miyazaki, K. and Kobayashi, H.,
    A New Improved Penalty Avoiding Rational Policy Making Algorithm for Keepaway with Continuous State Spaces,
    Journal of Advanced Computational Intelligence and Intelligent Informatics,
    Vol.13, No.6, pp.675-682 (2009).

  23. 宮崎和光, 井田正明, 芳鐘冬樹, 野澤孝之, 喜多一,
    専門科目名のリストを利用した学位授与事業のための科目分類支援システムの評価,
    大学評価・学位研究, No.6, pp.25-42 (2007).

  24. Miyazaki, K. and Kobayashi, S.,
    A Reinforcement Learning System for Penalty Avoiding in Continuous State Spaces,
    Journal of Advanced Computational Intelligence and Intelligent Informatics,
    Vol.11, No.6, pp.668-676 (2007).

  25. 宮崎和光, 木村元, 小林重信,
    合理的政策形成アルゴリズムの連続値入力への拡張,
    人工知能学会論文誌, Vol.22, No.3, pp.332-341 (2007).

  26. 野澤孝之, 芳鐘冬樹, 井田正明, 渋井進, 宮崎和光, 喜多一, 川口昭彦,
    ビジネス・MOT,会計,公共政策系専門職大学院のカリキュラム構成
    ー シラバスの文書クラスタリングを用いた比較分析 ー,
    大学評価・学位研究, No.5, pp.35-54 (2007).

  27. 芳鐘冬樹, 井田正明, 野澤孝之, 宮崎和光, 喜多一,
    キーワードの関連用語を考慮したシラバス検索システムの構築,
    日本知能情報ファジィ学会誌, Vol.18, No.2, pp.299-309 (2006).

  28. 宮崎和光, 芳鐘冬樹, 井田正明, 野澤孝之, 喜多一,
    分類候補数の能動的調整を可能にした学位授与事業のための科目分類支援システムの提案と評価,
    日本知能情報ファジィ学会誌, Vol.17, No.5, pp.558-568 (2005).

  29. 野澤孝之, 井田正明, 芳鐘冬樹, 宮崎和光, 喜多一,
    シラバス-専門用語の相互クラスタリングを用いたカリキュラム分析システムの改善,
    日本知能情報ファジィ学会誌, Vol.17, No.5, pp.569-586 (2005).

  30. 宮崎和光,井田正明,芳鐘冬樹,野澤孝之,喜多一,
    電子化されたシラバスに基づく学位授与事業のための科目分類支援システムの試作,
    情報処理学会論文誌, Vol.46, No.3, pp.782-791 (2005).

  31. 井田正明,野澤孝之,芳鐘冬樹,宮崎和光,喜多一,
    シラバスデータベースシステムの構築と専門教育課程の比較分析への応用,
    大学評価・学位研究, No.2, pp.87-97 (2005).

  32. 芳鐘冬樹, 井田正明, 野澤孝之, 宮崎和光, 喜多一,
    ウェブ文書からの情報抽出に関する研究の概観 - シラバスデータへの適用に向けて - ,
    大学評価・学位研究,No.1,pp.133-143 (2005).

  33. 芳鐘冬樹, 井田正明, 野澤孝之, 宮崎和光, 喜多一,
    言い換え表現抽出に基づく関連用語収集手法のシラバス検索システムへの応用,
    名古屋大学附属図書館研究年報, No.3, pp.15-22 (2005).

  34. 野澤孝之,井田正明,芳鐘冬樹,宮崎和光,喜多一,
    シラバス文書のクラスタリングに基づくカリキュラム分析システムの構築,
    情報処理学会論文誌, Vol.46, No.1, pp.289-300 (2005).

  35. 宮崎和光,小林重信,
    Profit Sharingの不完全知覚環境下への拡張: PS-r*の提案と評価,
    人工知能学会論文誌, Vol.18, No.5, pp.286-296 (2003).

  36. 宮崎和光,坪井創吾,小林重信,
    罰回避政策形成アルゴリズムの改良とオセロゲームへの応用,
    人工知能学会論文誌, Vol.17, No.5, pp.548-556 (2002).

  37. 宮崎和光,坪井創吾,小林重信,
    罰を回避する合理的政策の学習,
    人工知能学会論文誌, Vol.16, No.2, pp.185-192 (2001).

  38. Miyazaki, K. and Kobayashi, S.,
    Rationality of Reward Sharing in Multi-agent Reinforcement Learning,
    New Generation Computing, Vol.19, No.2, pp.157-172 (2001).

  39. Arai, S., Miyazaki, K. and Kobayashi, S.,
    Controlling Multiple Cranes Using Multi-Agent Reinforcement Learning: Emerging Coordination among Competitive Agents,
    IEICE Transactions on Communications, Vol.E-83-B, No.5, pp.1039-1047 (2000).

  40. 宮崎和光,荒井幸代,小林重信,
    Profit Sharingを用いたマルチエージェント強化学習における報酬配分の理論的考察,
    人工知能学会誌, Vol.14, No.6, pp.1156-1164 (1999).

  41. 宮崎和光,荒井幸代,小林重信,
    POMDPs環境下での決定的政策の学習,
    人工知能学会誌, Vol.14, No.1, pp.148-156 (1999).

  42. 荒井幸代,宮崎和光,小林重信,
    マルチエージェント強化学習の方法論
    〜Q-learningとProfit Sharingによる接近,
    人工知能学会誌,Vol.13, No.4, pp.609-618 (1998).

  43. 宮崎和光,山村雅幸,小林重信,
    MarcoPolo: 報酬獲得と環境同定のトレードオフを考慮した強化学習システム,
    人工知能学会誌,Vol.12, No.1, pp.78-89 (1997).

  44. Miyazaki, K., Yamamura, M. and Kobayashi, S.,
    k-Certainty Exploration Method : An Action Selector to identify the environment in reinforcement learning,
    Artificial Intelligence, Vol.91, No.1, pp.155-171 (1997).

  45. 宮崎和光,山村雅幸,小林重信,
    l-確実探査法: エージェントによる環境同定のための行動選択戦略
    - k-確実探査法の不確実性下への拡張 -,
    人工知能学会誌, ショートノート, Vol.11, No.5, pp.804-808 (1996).

  46. 宮崎和光,山村雅幸,小林重信,
    k-確実探査法:強化学習における環境同定のための行動選択戦略,
    人工知能学会誌,Vol.10, No.3, pp.454-463 (1995).

  47. 宮崎和光,山村雅幸,小林重信,
    強化学習における報酬割当ての理論的考察,
    人工知能学会誌,Vol.9, No.4, pp.580-587 (1994).
    1994年度人工知能学会論文賞

II. 論文集

  1. Miyazaki, K. and Ida, M.,
    Construction of Consistency Judgment System of Diploma Policy and Curriculum Policy using Character-level CNN,
    Electronics and Communications in Japan, Vol.102, Issue 12, pp.30-39 (2020).

  2. Miyazaki, K.,
    Exploitation-oriented Learning XoL :
    A New Approach to Machine Learning Based on Trial-and-Error Searches, pp.267-293,
    Multi-Agent Applications with Evolutionary Computational and Biologically Inspired Technologies :
    Intelligent Techniques for Ubiquity and Optimization, Yasushi Kambayashi (Ed.) (2010).

  3. Miyazaki, K., Namatame, T., and Kobayashi, H.,
    Proposal and Evaluation of the Improved Penalty Avoiding Rational Policy Making Algorithm, pp.181-196,
    Theory and Novel Applications of Machine Learning, Meng Joo Er and Yi Zhou (Ed.) (2009).

  4. Miyazaki, K., Ida, M., Yoshikane, F., Nozawa, T., and Kita, H.,
    On development of a course classification support system using syllabus data,
    Computational Engineering I (The symposium book of selected papers at ICOME 2003), pp.311-318 (2004).


III. 国際会議等

  1. Yamamura, M., Miyazaki, K., Okuda, S., Sekine, R., Kodama, N. and Kiga, D.,
    Rule-based generation of synthetic genetic circuits,
    IWBDA 2024 (2024). 発表予定

  2. Miyazaki, K.,
    Extension of a conscious decision-making system using deep reinforcement learning to multi-agent environment,
    BICA*AI 2024 (2024).

  3. Yamada, N., Sakaguchi, K., Nakamura, Y., Miyazaki, K. and Yamaguchi, S.,
    Competencies to Be Cultivated in Higher Education and Their Evaluation in the Era of Generative AI: Through the Experiences With Self-Study Degree-Awarding Program in NIAD-QE,
    The 15th Higher Education International Conference, ARTIFICIAL INTELLIGENCE AND PEDAGOGICAL TRANSFORMATION:
    IMPLICATIONS FOR HIGHER EDUCATION QUALITY ASSURANCE,(2023).

  4. Miyazaki, K. and Miyazaki, H.,
    Suppression of Negative Tweets using Reinforcement Learning Systems in a Multi-Agent Environment,
    2023 Annual International Conference on Brain-Inspired Cognitive Architectures for Artificial Intelligence, the 14th Annual Meeting of the BICA Society (BICA*AI 2023) (2023).

  5. Yamamura, M., Sekine, R., Miyazaki, K., Okuda, S., Kodama, N. and Kiga, D.,
    Rule-based generation of synthetic genetic circuits,
    15th International Workshop on Bio-Design Automation (IWBDA 2023), pp.40-42 (2023).

  6. Miyazaki, K. and Ida, M.,
    Effectiveness of Character-level CNN and its Examination of Perturbation for Weights,
    28th International Symposium on Artificial Life and Robotics (AROB 28th 2023), pp.313-317 (2023).

  7. Miyazaki, K., Yamaguchi, S., Mori, R., Yoshikawa, Y., Saito, T., and Suzuki, T.,
    Proposal and evaluation of a course classification support system emphasizing communication with the sub-committees within the Committee of Validation and Examination for Degrees,
    Preliminary Soft-Proceedings 4th EAI International Conference on Artificial Intelligence for Communications and Networks, pp.122-129 (2022).
    Lecture Notes of the Institute for Computer Sciences, Social Informatics and Telecommunications Engineering book series (LNICST,volume 477), pp.123-130 (2023).

  8. Kiga, D., Miyazaki, K., Yasuda, S., Hamada, R., Okuda, S., Sekine, R., Kodama, N., and Yamamura, M.,
    Rule-based generation of synthetic genetic circuits,
    14th International Workshop on Bio-Design Automation (IWBDA 2022), pp.75-76 (2022).

  9. Miyazaki, K.,
    Modeling of placebo effect in stochastic reward tasks by reinforcement learning,
    Procedia Computer Science, Vol.213(ELSEVIER),
    2022 Annual International Conference on Brain-Inspired Cognitive Architectures for Artificial Intelligence, pp.255-262 (2022).

  10. Miyazaki, K.,
    Proposal and Evaluation of Deep Profit Sharing Method in a Mixed Reward and Penalty Environment,
    Studies in Computational Intelligence book series (SCI,volume 1032) (Springer),
    2021 Annual International Conference on Brain-Inspired Cognitive Architectures for Artificial Intelligence, pp.313-318 (2022).

  11. Miyazaki, K. and Ida, M.,
    Evaluation of Character-Level CNNs using the NTCIR-13 MedWeb Task,
    The 22nd International Symposium on Advanced Intelligent Systems (ISIS2021), 6 pages (2021).

  12. Miyazaki, K.,
    Application of Deep Reinforcement Learning to Decision-Making System based on Consciousness,
    Procedia Computer Science, Vol.190(ELSEVIER),
    2020 Annual International Conference on Brain-Inspired Cognitive Architectures for Artificial Intelligence: Eleventh Annual Meeting of the BICA Society, pp.631-636 (2020).

  13. Miyazaki, K.,
    Classification of Medical Data using Character-level CNN,
    The 3rd International Conference on Information Science and System (ICISS 2020), pp.43-47 (2020).

  14. Kodama, N., Harada, T., and Miyazaki, K.,
    Deep Reinforcement Learning with Dual Targeting Algorithm,
    International Joint Conference on Neural Networks 2019 (IJCNN2019), 6 pages (2019).

  15. Miyazaki, K., Takahashi, N., and Mori, R.,
    Research on Consistency between Diploma Policies and Nomenclature of Major Disciplines: Deep Learning Approach,
    7th International Conference on Information and Education Technology (ICIET2019), 7 pages (2019).

  16. Kodama, N., Miyazaki, K., and Harada, T.,
    A Proposal for Reducing the Number of Trial-and-Error Searches for Deep Q-Networks Combined with Exploitation-Oriented Learning,
    17th IEEE International Conference on Machine Learning and Applications (ICMLA 2018), pp.983-988 (2018).

  17. Miyazaki, K. and Ida, M.,
    Consistency Assessment between Diploma Policy and Curriculum Policy using Character-level CNN,
    Joint 10th International Conference on Soft Computing and Intelligent Systems and
    19th International Symposium on Advanced Intelligent Systems in conjunction with Intelligent Systems Workshop 2018 (SCIS&ISIS 2018), 6 pages (2018).

  18. Shiraishi, D., Miyazaki, K., and Kobayashi, H.,
    Proposal of Detour Path Suppression Method in PS Reinforcement Learning and Its Application to Altruistic Multi-agent Environment,
    The 21st International Conference on Principles and Practice of Multi-Agent Systems (PRIMA 2018), pp.638-645 (2018).

  19. Miyazaki, K., Kodama, N., and Kobayashi, H.,
    Proposal and Evaluation of an Indirect Reward Assignment Method for Reinforcement Learning by Profit Sharing,
    Intelligent Systems Conference (IntelliSys) 2018, pp.187-200 (2018).

  20. Mizuno, D., Miyazaki, K., and Kobayashi, H.,
    On Stable Profit Sharing Reinforcement Learning with Expected Failure Probability,
    Biologically Inspired Cognitive Architectures 2018 (BICA 2018), pp.228-233 (2018).

  21. Kodama, N., Miyazaki, K., and Kobayashi, H.,
    Proposal of reward sharing method based on safety level and verification of its effectiveness in multi-agent environment,
    SICE Annual Conference 2017 (SICE 2017),pp.1159-1164 (2017).

  22. Miyazaki, K.,
    Proposal of a Deep Q-network with Profit Sharing,
    2017 Annual International Conference on Biologically Inspired Cognitive Architectures (BICA 2017),6 pages (online proceedings).

  23. Miyazaki, K., Furukawa, K., and Kobayashi, H.,
    Proposal of an Action Selection Strategy with Expected Failure Probability and Its Evaluation in Multi-agent Reinforcement Learning,
    Lecture Notes in Computer Science, Vol.10207,
    Multi-Agent Systems and Agreement Technologies(Springer),
    14th European Conference on Multi-Agent Systems (EUMAS 2016),pp.172-186 (2016).

  24. Miyazaki, K.,
    A Study of an Indirect Reward on Multi-agent Environments, Procedia Computer Science, Vol.88(ELSEVIER),
    2016 Annual International Conference on Biologically Inspired Cognitive Architectures (BICA 2016),pp.94-101, (2016).

  25. Miyazaki, K., Furukawa, K., and Kobayashi, H.,
    Proposal and Evaluation of an Action Selection Strategy with Expected Failure Probability in Multiagent Learning,
    International Workshop on Multiagent Learning: Theory and Applications(IWML 2016), pp.127-130, (2016).

  26. Miyazaki, K.,
    The Necessity of a Secondary System in Multi-agent Learning,
    The First International Symposium on Swarm Behavior and Bio-Inspired Robotics (SWARM 2015), pp.299-305, (2015).

  27. Miyazaki, K. and Takeno, J.,
    The necessity of a secondary system in machine consciousness,
    Procedia Computer Science, Vol.41(ELSEVIER),2014 Annual International Conference on Biologically Inspired Cognitive Architectures (BICA 2014),pp.15-22, (2014).

  28. Miyazaki, K.,
    Proposed Decision-Making System based on Consciousness in Multiple Rewards and Penalties Environments,
    2014 International Conference on Artificial Intelligence (ICOAI 2014), (2014),
    (International Journal of Machine Learning and Computing, Vol.5, No.2, IJMLC, pp.121-126, 2015).

  29. Miyazaki, K. and Ida, M.,
    A Study on the Practical Use of Course Classification Support System in Degree-Awarding of NIAD-UEs,
    SICE Annual Conference 2014 (SICE 2014),pp.928-934, (2014).

  30. Miyazaki, K., Muraoka, H. and Kobayashi, H.,
    Proposal of a Propagation Algorithm of the Expected Failure Probability and the Effectiveness on Multi-agent Environments,
    SICE Annual Conference 2013, pp.1067-1072 (2013).

  31. Miyazaki, K.,
    Proposal of an Exploitation-oriented Learning Method on Multiple Rewards and Penalties Environments,
    The 2nd International Conference on Applied and Theoretical Information Systems Research (2nd ATISR), Session [B6] (CD-ROM, 9 pages) (2012).

  32. Miyazaki, K. and Ida, M.,
    Proposal of an Active Course Classification Support System with Exploitation-oriented Learning Extended by Positive and Negative Examples,
    The 6th International Conference on Soft Computing and Intelligent Systems and
    the 13th International Symposium on Advanced Intelligent Systems (SCIS-ISIS 2012), pp.1520-1527 (2012).

  33. Miyazaki, K., Itou, M. and Kobayashi, H.,
    Evaluation of the Improved Penalty Avoiding Rational Policy Making Algorithm in Real World Environment,
    The 4th Asian Conference on Intelligent Information and Database Systems (ACIIDS 2012),
    Lecture Notes in Computer Science, Vol. 7196, pp.270-280 (2012).

  34. Miyazaki, K. and Ida, M.,
    Proposal and Evaluation of the Active Course Classification Support System with Exploitation-oriented Learning,
    The 9th European Workshop on Reinforcement Learning (EWRL-9), Sept. 9, 2011, Athens Royal Olympic Hotel,
    Lecture Notes in Computer Science, Vol. 7188, pp.333-344 (2012).

  35. Kuroda, S., Miyazaki, K. and Kobayashi, H.,
    Introduction of Fixed Mode States into Online Profit Sharing and Its Application to Waist Trajectory Generation of Biped Robot,
    The 9th European Workshop on Reinforcement Learning (EWRL-9), Sept. 9, 2011, Athens Royal Olympic Hotel,
    Lecture Notes in Computer Science, Vol. 7188, pp.297-308 (2012).

  36. Miyazaki, K.,
    The Penalty Avoiding Rational Policy Making algorithm in Continuous Action Spaces,
    11th International Conference on Intelligent Data Engineering and Automoted Learning (IDEAL 2010), pp.178-185 (2010).

  37. Miyazaki, K., Kobayashi, J. and Kobayashi, H.,
    Threshold Learning in the Improved Penalty Avoiding Rational Policy Making Algorithm,
    SICE Annual Conference 2010, pp.3240-3245 (2010).

  38. Miyazaki, K.,
    Automatic Tuning of Judgement Parameter in Continuos State Exploitation-oriented Learning,
    SICE Annual Conference 2010, pp.3246-3249 (2010).

  39. Miyazaki, K., Yoshikane, F. and Ida, M.,
    Development of the Active Course Classification Support System with a Learning Mechanism,
    ICROS-SICE International Joint Conference 2009 (ICCAS-SICE 2009),
    pp.1189-1194 (2009).

  40. Watanabe, T., Miyazaki, K. and Kobayashi, H.,
    A New Improved Penalty Avoiding Rational Policy Making Algorithm for Keepaway with Continuous State Space,
    Proceedings of ISMAI-3, pp.283-288 (2009).

  41. Miyazaki, K. and Kobayashi, S.,
    Proposal of Exploitation-Oriented Learning PS-r#,
    IDEAL 2008, pp.1-8 (2008).

  42. Watanabe, T., Miyazaki, K. and Kobayashi, H.,
    Extension of Improved Penalty Avoiding Rational Policy Making Algorithm to Tile Coding Environment for Keepaway Tasks,
    International Conference on Instrumentation, Control and Information 2008 (SICE Annual Conference 2008), 2A17-3 (CDROM, 6 pages), (2008).

  43. Ida, M. and Miyazaki, K.,
    Consideration on Document Structure of Syllabi
    - Advanced Engineering Programs of Colleges of Technology -,
    SCIS&ISIS 2008, pp.172-175 (2008).

  44. Miyazaki, K., Kojima, T. and Kobayashi, H.,
    Proposal and Evaluation of the Penalty Avoiding Rational Policy Making Algorithm with Penalty Level,
    International Conference on Instrumentation, Control and Information 2007 (SICE Annual Conference 2007), pp.2766-2773 (2007).

  45. Miyazaki, K., Namatame, T., Kojima, T. and Kobayashi, H.,
    Improvement of the Penalty Avoiding Rational Policy Making algorithm to Real World Robotics,
    13th International Conference on Advanced Robotics (ICAR 2007), pp.1183-1188 (2007).

  46. Miyazaki, K. and Kobayashi, S.,
    Profit Sharing Based Reinforcement Learning Systems in Continuous State Spaces,
    Joint 3rd International Conference on Soft Computing and Intelligent Systems
    and 7th International Symposium on Advanced Intelligent Systems (SCIS & ISIS 2006), pp.1105-1110 (2006).

  47. Miyazaki, K. and Kobayashi, S.,
    Reinforcement Learning Systems Based on Profit Sharing in Multiple Rewards and Penalties Environments,
    IADIS Virtual Multi Conference on Computer Science and Information Systems (MCCSIS 2006), pp.230-235 (2006).

  48. Katagami, D., Nitta, K. and Miyazaki, K.,
    Multi User Learning Agent on the Distribution of MDPs,
    15th IEEE International Symposium on Robot and Human Interactive Communication (RO-MAN 06), pp. 698-703 (2006).

  49. Nehashi, T., Takadama, K. and Miyazaki, K.,
    Analyzing robustness in multi-agent reinforcement learning -A comparison between profit sharing and Q-learning,
    11th International Symposium on Artificial Life and Robotics (AROB 11th '06) (2006).

  50. Ida, M., Nozawa, T. Yoshikane, F., Miyazaki, K. and Kita, H.,
    Syllabus Database System and its Application to Comparative Analysis of Curricula,
    The 6th International Symposium on Advanced Intelligent Systems (ISIS 2005), pp.209-212 (2005).

  51. Miyazaki, K., Ida, M. Yoshikane, F. Nozawa, T. and Kita, H.,
    Proposal of the Active Course Classification Support System to support the Classification of Courses at the Degree-Awarding of NIAD-UE,
    The 6th International Symposium on Advanced Intelligent Systems (ISIS 2005), pp.685-690 (2005).

  52. Miyazaki, K. and Kobayashi,S.,
    Reinforcement Learning Systems based on Profit Sharing in Robotics,
    36th International Symposium on Robotics (ISR 2005), WE112 (CD-ROM, 5 pages) (2005).

  53. Ida, M., Nozawa, T. Yoshikane, F., Miyazaki, K. and Kita, H.,
    Syllabus database and web service on higher education,
    7th International Conference on Advanced Communication Technology (ICACT 2005), pp.415-418 (2005).

  54. Miyazaki, K. and Kobayashi, S.,
    Reinforcement Learning in Multiple Rewards and Penalties Environments,
    Joint 2nd International Conference on Soft Computing and Intelligent Systems
    and 5th International Symposium on Advanced Intelligent Systems (SCIS & ISIS 2004), TUE-1-1 (CD-ROM, 5 pages) (2004).

  55. Miyazaki, K., Ida, M. Yoshikane, F. Nozawa, T. and Kita, H.,
    On Development of a Course Classification System using Syllabus Data,
    1st Asia-Pacific International Conference on Computational Methods in Engineering (ICOME 2003), pp.68-69 (2003).

  56. Miyazaki, K., Terada, T. and Kobayashi, H.,
    Generating Cooperative Behavior by Multi-Agent Profit Sharing on the Soccer Game,
    4th International Symposium on Advanced Intelligent Systems (ISIS 2003), pp.166-169 (2003).

  57. Miyazaki, K. and Kobayashi, S.,
    Comparison with Profit Sharing and Random Selection in POMDPs,
    Joint 1st International Conference on Soft Computing and Intelligent Systems
    and 3rd International Symposium on Advanced Intelligent Systems (SCIS &ISIS 2002), 24Q6-2 (CD-ROM, 5 pages) (2002).

  58. Miyazaki, K., Saitou, J. and Kobayashi, H.,
    Reinforcement Learning for Penalty Avoiding Profit Sharing and its Application to the Soccer Game,
    4th Asia-Pacific Conference on Simulated Evolution and Learning (SEAL 2002), pp.335-339 (2002).

  59. Kamiya, T., Miyazaki, K. and Kobayashi, S.,
    Educational Issues of Information Technology (IT) Engineers in Japan
    - Gap between Industrial Demand and University Supply ?,
    2002 ASEE/SEFI/TUB International Colloquium
    "Global Changes in Engineering Education", Poster Presentation (2002).

  60. Miyazaki, K., Tsuboi, S. and Kobayashi, S.,
    Reinforcement Learning in 2-players games,
    7th International Symposium on Artificial Life and Robotics (AROB 7th '02), pp.183-186 (2002).

  61. Arai, S. and Miyazaki, K.,
    Learning Robust Policies for Uncertain and Stochastic Multi-agent Domains,
    7th International Symposium on Artificial Life and Robotics (AROB 7th '02), pp.179-182 (2002).

  62. Miyazaki, K., and Kobayashi, S.,
    On the Rationality of Profit Sharing in Multi-agent Reinforcement Learning,
    4th International Conference on Computational Intelligence and Multimedia Applications (ICCIMA 2001), pp.123-127 (2001).

  63. Miyazaki, K., Tsuboi, S. and Kobayashi, S.,
    Reinforcement Learning for Penalty Avoiding Policy Making and its Extensions and an Application to the Othello Game,
    7th International Conference on Information Systems Analysis and Synthesis (ISAS 2000), Vol. 3, pp.40-44 (2001).

  64. Miyazaki, K., and Kobayashi, S.,
    Reinforcement Learning for Penalty Avoiding Policy Making,
    2000 IEEE International Conference on Systems, Man, and Cybernetics (SMC 2000), pp.206-211 (2000).

  65. Miyazaki, K., Arai, S., and Kobayashi, S.,
    Cranes Control Using Multi-agent Profit Sharing,
    6th International Conference on Information Systems Analysis and Synthesis (ISAS 2000), Vol. IX, pp.178-183 (2000).

  66. Miyazaki, K., and Kobayashi, S.,
    Rationality of Reward Sharing in Multi-agent Reinforcement Learning,
    2nd Pacific Rim International Workshop on Multi-Agents (PRIMA'99), pp.111-125 (1999).

  67. Arai, S., Miyazaki, K., and Kobayashi, S.,
    Multi-agent Reinforcement Learning for Crane Control Problem:
    Designing Rewards for Conflict Resolution,
    4th International Symposium on Autonomous Decentralized Systems (ISADS'99), pp.310-319 (1999).

  68. Miyazaki, K., and Kobayashi, S.,
    On the Rationality of Profit Sharing in Partially Observable Markov Decision Processes,
    5th International Conference on Information Systems Analysis and Synthesis (ISAS'99), pp.190-197 (1999).

  69. Miyazaki, K., and Kobayashi, S.,
    Proposal for an Algorithm to Improve a Rational Policy in POMDPs,
    1999 IEEE International Conference on Systems, Man, and Cybernetics (SMC'99), Vol. V, pp.492-497 (1999).

  70. Arai, S., Miyazaki, K., and Kobayashi, S.,
    Cranes Control Using Multi-agent Reinforcement Learning,
    5th International Conference on Intelligent Autonomous System (IAS-5), pp.335-342 (1998).

  71. Miyazaki, K., and Kobayashi, S.,
    Learning Deterministic Policies in Partially Observable Markov Decision Processes,
    5th International Conference on Intelligent Autonomous System (IAS-5), pp.250-257 (1998).

  72. Arai, S., Miyazaki, K., and Kobayashi, S.,
    Generating Cooperative Behavior by Multi-Agent Reinforcement Learning,
    6th European Workshop on Learning Robots (EWLR-6), pp.143-157 (1997).

  73. Kimura, H., Miyazaki, K., and Kobayashi, S.,
    Reinforcement Learning in POMDPs with Function Approximation,
    14th International Conference on Machine Learning (ICML 1997), pp.152-160 (1997).

  74. Miyazaki, K., Yamamura, M. and Kobayashi, S.,
    MarcoPolo : A Reinforcement Learning System considering tradeoff exploration and exploitation under Marcovian Environments,
    4th International Conference on Fuzzy Logic, Neural Nets and Soft Computing (IIZUKA'96), pp.561-564 (1996).
    IIZUKA'96 BEST PAPER AWARD

  75. Miyazaki, K., Yamamura, M. and Kobayashi, S.,
    On the Rationality of Profit Sharing in Reinforcement Learning,
    3rd International Conference on Fuzzy Logic, Neural Nets and Soft Computing (IIZUKA'94), pp.285-288 (1994).

IV. 著書

  1. これからの強化学習,
    編者:牧野貴樹, 澁谷長史, 白川真一,共著者:牧野貴樹, 澁谷長史, 白川真一, 宮崎和光,他(全著者22名中17番目,編者以外は五十音順),
    森北出版株式会社,全320ページ.pp.136-147.「第2章 第4節 試行錯誤回数の低減を指向した手法:経験強化型学習XoL」, (2016).

  2. 新しい学士を目指して - 実践的学習のガイドブック -,
    第4章,第1節, Do you like Robots?, pp.94-104,
    第6章 実例:Profit Sharingに基づく強化学習システムのLEGOロボットへの応用, pp.158-172,
    独立行政法人 大学評価・学位授与機構 学位審査研究部編,株式会社ぎょうせい (2008).


V. 国内シンポジウム等

  1. 宮崎和光, 栗原渉,
    意識的意思決定システムとバイオDXとの関係に関する一考察 - 植物との融合を中心とした検討 -,
    計測自動制御学会 システム・情報部門 学術講演会 2024 (2024). 発表予定

  2. 小玉直樹, 宮崎和光, 安田翔也, 山村雅幸, 木賀大介,
    深層強化学習を用いた数式の前処理による有用論文の分類とその報酬設計の改良,
    計測自動制御学会 システム・情報部門 学術講演会 2024 (2024). 発表予定

  3. 宮崎和光,
    深層学習を利用した学位授与事業に係る業務支援に関する一考察,
    第32回インテリジェント・システム・シンポジウム, pp.18-21 (2024).

  4. 小玉直樹, 宮崎和光, 安田翔也, 山村雅幸, 木賀大介,
    深層強化学習による数式埋め込み処理を利用した有用論文の分類,
    第32回インテリジェント・システム・シンポジウム, pp.12-17 (2024).

  5. 宮崎和光,
    非侵襲的脳刺激技術により誘発されるプラセボ効果の強化学習によるモデル化,
    マイクロ波研究会(MW), 信学技報, Vol.124, No.78, MW2024-28, pp.49-54 (2024).

  6. 宮崎和光, 木賀大介, 安田翔也,濱田立輝,小玉直樹, 山村雅幸,
    機械学習手法を利用したBioDOS にとって有用な論文の発見,
    電気学会 システム/制御合同研究会, 5 pages (2023).

  7. 宮崎和光,
    意識的意思決定システムのマルチエージェント環境下への拡張,
    計測自動制御学会 システム・情報部門 学術講演会 2023, pp.320-325 (2023).

  8. 宮崎和光,
    マルチエージェント環境下における強化学習を用いたネガティブツイートの抑制,
    第50回知能システムシンポジウム, 計測自動制御学会, pp.136-139 (2023).

  9. 宮崎和光,
    強化学習を用いたネガティブツイートの抑制,
    計測自動制御学会 システム・情報部門 学術講演会2022, 6 pages (2022).

  10. 小玉直樹, 宮崎和光, 原田拓,
    経験強化型深層強化学習による Atari2600 シミュレーション,
    計測自動制御学会 システム・情報部門 学術講演会2022, 6 pages (2022).

  11. 宮崎和光, 木賀大介, 安田翔也,濱田立輝,小玉直樹, 山村雅幸,
    深層学習を利用したBioDOS にとって有用な論文の発見,
    電気学会C部門大会, 5 pages (2022).

  12. 小玉直樹, 宮崎和光, 原田拓,
    説明可能な深層強化学習法の提案,
    電気学会C部門大会, 5 pages (2022).

  13. 小玉直樹, 原田拓, 宮崎和光,
    Policy-based Profit Sharingにおける負の報酬利用に関する検証,
    第49回知能システムシンポジウム, 計測自動制御学会, 5 pages (2022).

  14. 宮崎和光, 吉田望, 森利枝,
    学位に付記する専攻分野の名称とディプロマ・ポリシーの整合性判定支援システムの性能改善,
    電気学会 システム/制御 合同研究会, 6 pages (2021).

  15. 宮崎和光,
    確率的報酬課題におけるプラセボ効果の強化学習によるモデル化,
    計測自動制御学会 システム・情報部門 学術講演会2021, 5 pages (2021).

  16. 小玉直樹, 宮崎和光, 原田拓,
    状態遷移予測型Deep Q-Networkの提案,
    計測自動制御学会 システム・情報部門 学術講演会2021, 5 pages (2021).

  17. 宮崎和光, 井田正明,
    Character-level CNN の重みの摂動に関する一考察 - NTCIR-13 MedWeb タスクを題材として -,
    計測自動制御学会 システム・情報部門 学術講演会2021, 5 pages (2021).

  18. 宮崎和光,
    報酬と罰が混合する環境における深層経験強化型学習に関する一考察,
    電気学会C部門大会, TC11-4, pp.346-351, (2021).

  19. 小玉直樹, 宮崎和光, 原田拓,
    状態遷移予測型強化学習法の提案,
    電気学会C部門大会, TC11-6, pp.357-362, (2021).

  20. 宮崎和光, 井田正明,
    NTCIR-13 MedWebタスクを用いたCharacter-level CNNの性能評価,
    電気学会C部門大会, TC11-9, pp.371-376, (2021).

  21. 宮崎和光, 井田正明,
    テキスト分析におけるCharacter-levelCNNの性能評価 - NTCIR-13 MedWebタスクを題材として-,
    第48回知能システムシンポジウム, 計測自動制御学会, 6 pages (2021).

  22. 宮崎和光, 吉田望, 森利枝,
    学位に付記する専攻分野の名称の想起が困難なディプロマ・ポリシーの発見,
    計測自動制御学会 システム・情報部門 学術講演会2020, 6 pages (2020).

  23. 小玉直樹, 宮崎和光, 原田拓,
    経験の強化を重視する深層強化学習法の提案,
    計測自動制御学会 システム・情報部門 学術講演会2020, 6 pages (2020).

  24. 宮崎和光,
    深層強化学習を利用したドライバーの眠気防止システムに関する一考察,
    第47回知能システムシンポジウム, 計測自動制御学会, 6 pages (2020).

  25. 小玉直樹, 原田拓, 宮崎和光,
    Profit Sharingによる方策の直接強化手法の提案,
    第47回知能システムシンポジウム, 計測自動制御学会, 4 pages (2020).

  26. 宮崎和光,
    意識的意思決定システムへの深層強化学習の適用可能性に関する一考察,
    計測自動制御学会 システム・情報部門 学術講演会2019, 6 pages (2019).

  27. 宮崎和光,
    経験強化型学習によるAngry Birds AI Competitionへの挑戦,
    計測自動制御学会 システム・情報部門 学術講演会2019, 6 pages (2019).

  28. 宮崎和光, 高橋望, 森利枝,
    Character-level CNNを用いたディプロマ・ポリシーマッチングテストの大規模調査結果との比較,
    計測自動制御学会 システム・情報部門 学術講演会2019, 6 pages (2019).

  29. 小玉直樹, 原田拓, 宮崎和光,
    経験強化型学習を用いた分散深層強化学習手法の提案,
    計測自動制御学会 システム・情報部門 学術講演会2019, 5 pages (2019).

  30. 宮崎和光, 高橋望, 森利枝,
    ディプロマ・ポリシーと学位に付記する専攻分野の名称の整合性に関する研究 - 大規模調査結果の分析 -,
    電気学会C部門大会, 電気学会, 5 pages (2019).

  31. 小玉直樹, 原田拓, 宮崎和光,
    非ブートストラップ手法を利用した深層強化学習アルゴリズムの提案,
    第46回知能システムシンポジウム, 計測自動制御学会, 5 pages (2019)

  32. 宮崎和光, 高橋望, 森利枝,
    Character-level CNNを用いたディプロマ・ポリシーマッチングテスト,
    計測自動制御学会 システム・情報部門 学術講演会2018, 6 pages (2018).

  33. 小玉直樹, 原田拓, 宮崎和光,
    深層強化学習アルゴリズムRainbowとProfit Sharingベース学習の結合,
    計測自動制御学会 システム・情報部門 学術講演会2018, 6 pages (2018).

  34. 宮崎和光,
    経験強化型学習XoLに関する最近の発展,
    計測自動制御学会 システム・情報部門 学術講演会2018, 6 pages (2018).

  35. 宮崎和光, 井田正明,
    Character-level CNN を用いたディプロマポリシーとカリキュラムポリシーの整合性判定,
    システム研究会 インテリジェント・システム (FAN2018), pp.41-46, (2018).

  36. 小玉直樹, 原田拓, 宮崎和光,
    2つのエピソードを持つ経験強化型深層強化学習手法の提案,
    平成30年電気学会 電子・情報・システム部門大会, 電気学会, pp.554-558, (2018).

  37. 宮崎和光, 高橋望, 森利枝,
    学習機能を利用したディプロマ・ポリシーマッチングテストの性能改善,
    第45回 知能システムシンポジウム, 6 pages (2018).

  38. 小玉直樹, 宮崎和光, 小林博明,
    経験強化型学習を利用したdeep Q-networkの学習加速化手法の提案と有効性の検証,
    第45回 知能システムシンポジウム, 5 pages (2018).

  39. 宮崎和光,
    Character-level CNNを用いたテキスト分類に関する一考察,
    電気学会 システム研究会, ST-18-017, ちよだプラットフォームスクウェア, 6 pages (2018).

  40. 水野大介, 小林博明, 宮崎和光,
    将来成功・失敗期待確率を用いた報酬分配型強化学習に関する研究,
    電気学会 システム研究会, ST-18-017, ちよだプラットフォームスクウェア, 5 pages (2018).

  41. 宮崎和光, 森利枝, 高橋望,
    ディプロマ・ポリシーと学位に付記する専攻分野の名称の整合性に関する研究 - 深層学習による接近 -
    電気学会 システム研究会, 電気学会研究会資料, ST 2017(74-78), pp.23-28, (2017).

  42. 小玉直樹, 宮崎和光, 小林博明,
    経験強化型学習を組み込んだ深層強化学習DQNwithPSの改良と有効性の検証,
    計測自動制御学会 システム・情報部門 学術講演会2017, 6 pages (2017).

  43. 宮崎和光, 小玉直樹, 小林博明,
    EFP利用による罰回避を実現したProfit Sharingの現状と課題,
    計測自動制御学会 システム・情報部門 学術講演会2017, 6 pages (2017).

  44. 白石大介, 宮崎和光, 小林博明,
    Profit Sharingにおける迂回系列抑制法のマルチエージェント環境下での有効性の検証,
    計測自動制御学会 システム・情報部門 学術講演会2017, 6 pages (2017).

  45. 宮崎和光,
    深層学習と強化学習 - 経験強化型学習を組み込んだ深層強化学習の評価 - ,
    第61回システム制御情報学会研究発表講演会 (SCI’17),「機械学習の深化と進展」セッションにおける招待講演,京都府京都市, (2017).

  46. 小玉直樹, 宮崎和光, 小林博明,
    予想失敗確率を組み込んだ新たな罰利用法の提案とマルチエージェント環境下での有効性の検証,
    平成29年電気学会 電子・情報・システム部門大会,香川県高松市, (2017).

  47. 宮崎和光,
    経験強化型学習XoL −強化学習における試行錯誤回数の低減をめざして−,
    第6回知能工学部会研究会「賢さの先端研究会」,第54回システム工学部会研究会 機械学習の最先端研究- 理論および応用研究 ? における招待講演,東京都千代田区, (2016).

  48. 白石大介, 宮崎和光, 小林博明,
    PS強化学習法における循環政策抑制法の提案とその有効性の検証,
    第44回知能システムシンポジウム, 東京都, (2017).

  49. 宮崎和光,
    深層学習を組み込んだ経験強化型学習に関する実験的考察,
    電気学会 システム研究会,静岡県伊東市, (2016).

  50. 宮崎和光,
    深層学習を組み込んだ経験強化型学習XoL:deep Q-networkとの比較,
    電気学会 システム研究会,東京都千代田区, (2016).

  51. 小玉直樹,宮崎和光, 小林博明,
    2報酬PS強化学習法の提案とその有効性の検証,
    電気学会 システム研究会,東京都千代田区, (2016).

  52. 宮崎和光,
    マルチエージェント環境における間接報酬に関する一考察」,
    電気学会システム研究会,東京都千代田区, (2016).

  53. 徳久文彬,小野功, 宮崎和光,
    政策の多様性を重視した直接政策探索法の提案,
    計測自動制御学会 システム・情報部門 学術講演会 2015 (SSI2015),北海道函館市, (2015).
    (徳久文彬氏はSSI研究奨励賞を受賞)

  54. 宮崎和光,
    学位取得者に対するアンケート調査の分析,
    電気学会 合同システム研究会,東京都千代田区, (2015).

  55. 宮崎和光,
    マルチエージェント学習における2次系の必要性に関する研究,
    電気学会 システム研究会,相模原市中央区, (2015).

  56. 古川耕大, 宮崎和光, 小林博明,
    Profit Sharing強化学習への予想失敗確率の導入とその有効性に関する研究,
    第27回自律分散システムシンポジウム,東京都新宿区, (2015).

  57. 宮崎和光,
    複数種類の報酬と罰に対応した意識的意思決定システムの提案,
    第13回情報科学技術フォーラム,茨城県つくば市, (2014).

  58. 宮崎和光, 井田正明,
    学位授与事業における科目分類支援システムの実用化に向けた一考察,
    第56回自動制御連合講演会, pp.388-393 (2013).

  59. 宮崎和光, 武野純一,
    意識システムにおける2次系の必要性に関する一考察,
    第3回コンピューテーショナル・インテリジェンス研究会, pp.59-63 (2013).

  60. 宮崎和光, 小林博明,
    験強化型学習XoLを用いた実問題の解法,
    電気学会 システム研究会, ST-13-018〜028, pp.5-11 (2013).

  61. 村岡宏紀, 宮崎和光, 小林博明,
    マルチエージェント環境下における失敗確率伝播アルゴリズムEFPの有効性に関する研究,
    第40回知能システムシンポジウム, pp.319-324 (2013).

  62. 宮崎和光,
    複数種類の報酬と罰に対応した経験強化型学習の提案と設計指針に関する研究,
    平成24年 電気学会 電子・情報・システム部門大会, pp.559-564 (2012).

  63. 宮崎和光,
    複数報酬環境下における意識的意思決定方法に関する研究,
    第39回知能システムシンポジウム, pp.95-98 (2012).

  64. 村岡宏紀, 宮崎和光, 小林博明,
    罰と報酬を用いる強化学習の失敗確率の伝播に関する研究,
    第 54 回自動制御連合講演会, CD-ROM (4 pages) (2011).

  65. 伊藤大貴, 岡島勇也, 田中純夫, 小林博明, 宮崎和光,
    腱駆動式2足歩行ロボットにおける腰軌道の強化学習への固定状態の導入による効率化に関する研究,
    第54 回自動制御連合講演会, CD-ROM (4 pages) (2011).

  66. 宮崎和光, 井田正明,
    正例および負例の集合を考慮した科目分類支援システムの提案と経験強化型学習との融合,
    第21回インテリジェント・システム・シンポジウム講演原稿集, CD-ROM (4 pages) (2011).

  67. 宮崎和光, 井田正明,
    経験強化型学習を利用した学位授与事業のための科目分類支援システムの提案,
    第38回知能システムシンポジウム,pp.123-128 (2011).

  68. 伊藤昌樹, 宮崎和光, 小林博明,
    マルチエージェント連続タスクへの改良型罰回避政策形成アルゴリズムの適用と
    サッカーロボットを用いた実験による評価,
    第53回自動制御連合講演会,GS8-504 (CD-ROM, 4 pages) (2010).

  69. 宮崎和光,
    罰回避政策形成アルゴリズムの連続値行動出力への対応,
    第37回知能システムシンポジウム,pp.37-42 (2010).

  70. 小林諒平,宮崎和光,小林博明,
    改良型罰回避政策形成アルゴリズムへの罰基底度閾値決定機構の導入と評価,
    日本機械学会関東支部 第16回総合講演会,pp.87-88 (2010).

  71. 小林諒平,宮崎和光,小林博明,
    罰基底度閾値の学習機能を有する改良型罰回避政策形成アルゴリズムの提案,
    第52回自動制御連合講演会,J4-1 (CD-ROM, 4 pages) (2009).

  72. 宮崎和光,芳鐘冬樹,井田正明,
    学習機能付き科目分類支援システムの開発について,
    第36回知能システムシンポジウム, pp.263-266 (2009).

  73. 龍崎雅人, 小林博明, 宮崎和光,
    報酬と罰を用いたProfit Sharingによる腱駆動機構の関節剛性最適化,
    第51回自動制御連合講演会, 4 pages (2008).

  74. 宮崎和光, 小林重信,
    経験強化型学習PS-r#の提案,
    第35回知能システムシンポジウム, pp.1-4 (2008).

  75. 渡邊琢司, 宮崎和光, 小林博明,
    マルチエージェント連続タスクへの改良型罰回避政策形成 アルゴリズムの適用と評価,
    第25回日本ロボット学会 学術講演会, 3N33 (CD-ROM, 4 pages) (2007).

  76. 宮崎和光, 井田正明, 芳鐘冬樹, 野澤孝之, 渋井進, 喜多一,
    例示科目を利用した学位授与事業のための科目分類支援システムの評価,
    第34回知能システムシンポジウム, pp.95-98 (2007).

  77. 井田正明, 野澤孝之, 宮崎和光, 芳鐘冬樹, 渋井進, 喜多一,
    XMLによるシラバスデータベース構築とWebサービスの検討,
    情報処理学会第69回全国大会, 4, pp.299-300 (2007).

  78. 野澤孝之, 渋井進, 芳鐘冬樹, 井田正明, 宮崎和光, 喜多一,
    シラバス内の専門用語間の関連に基づくカリキュラム構造可視化手法の検討,
    情報処理学会第69回全国大会, 4, pp.409-410 (2007).

  79. 根橋壮, 宮崎和光, 高玉圭樹,
    期待報酬推定型Profit Sharingにおけるロバスト性解析:
    無効ルール抑制条件における理論的考察と局所解問題への展開,
    第19回自律分散システムシンポジウム, pp.79-84 (2007).

  80. 片上大輔, 新田克己, 宮崎和光,
    MDP集団におけるマルチユーザー学習エージェント
    第20回人工知能学会全国大会, 3F2-4, 4pages (2006).

  81. 小島智瑞, 宮崎和光, 小林博明,
    改良型罰回避政策形成アルゴリズムの応用について,
    第24回日本ロボット学会学術講演会, 2D17 (CD-ROM, 4 pages) (2006).

  82. 宮崎和光, 生田目琢哉, 小林博明,
    実ロボットへの適用を指向した罰回避政策形成アルゴリズムの改良について,
    第33回知能システムシンポジウム, pp.163-168 (2006).

  83. 芳鐘冬樹, 井田正明, 野澤孝之, 宮崎和光, 喜多一,
    キーワードの関連用語を考慮したシラバス検索システムの改善,
    電子情報通信学会技術研究報告, 教育工学 (ET2005-36), Vol.105, No.298, pp.53-58 (2005).

  84. 新出尚之,高田司郎,山川宏,宮崎和光,太田正幸,
    行為の選択に熟考と強化学習を併用するBDIアーキテクチャの実現について,
    第19回人工知能学会全国大会, 3E1-01 (CD-ROM, 2 pages) (2005).

  85. 宮崎和光,小林重信,
    連続値入力に対応したProfit Sharingに基づく強化学習システム,
    第19回人工知能学会全国大会, 1D3-02 (CD-ROM, 4 pages) (2005).

  86. 井田正明, 野澤孝之, 渋井進, 芳鐘冬樹, 宮崎和光, 喜多一,
    シラバスデータに基づく大学教育課程の比較分析,
    日本教育工学会 第21回全国大会, 1p-202-6, pp.363-364 (2005).

  87. 生田目琢哉, 宮崎和光, 小林博明,
    強化学習を用いたサッカーロボットの協調行動の獲得,
    第48回自動制御連合講演会, pp.169-172 (2005).

  88. 井田正明,芳鐘冬樹, 野澤孝之,宮崎和光, 喜多一,
    シラバスデータによる教育課程の分析と視覚化に関する考察,
    情報処理学会 第67回全国大会, 4, pp.45-46 (2005).

  89. 井田正明,芳鐘冬樹, 野澤孝之,宮崎和光, 喜多一,
    シラバスデータベースシステムの実用化,
    情報処理学会 第67回全国大会, 3, pp.73-74 (2005).

  90. 芳鐘冬樹, 井田正明, 野澤孝之,宮崎和光, 喜多一,
    シラバスからの関連用語収集手法の検討と検索システムへの応用,
    情報処理学会 第67回全国大会, 4, pp.325-326 (2005).

  91. 宮崎和光, 小林重信,
    Profit Sharingに基づく強化学習システムによる倒立振子の制御,
    計測自動制御学会 システム・情報部門学術講演会2005, pp.58-63 (2005).

  92. 宮崎和光, 小林重信,
    複数種類の報酬と罰が存在する環境下への罰回避政策形成アルゴリズムの拡張,
    計測自動制御学会 システム・情報部門学術講演会 2004, pp.163-168 (2004).

  93. 井田正明, 野澤孝之, 芳鐘冬樹, 宮崎和光, 喜多一,
    シラバスデータベースとシステム工学教育,
    計測自動制御学会 システム・情報部門学術講演会 2004, pp.107-112 (2004).

  94. 太田正幸,山川宏,宮崎和光,高田司郎,新出尚之,
    強化学習の獲得政策を利用した階層的サブプランの生成方法に関する提案,
    合同エージェントワークショップ&シンポジウム2004 (JAWS 2004), pp.511-516 (2004).

  95. 新出尚之,高田司郎,山川宏,宮崎和光,太田正幸,
    BDIと強化学習の世界モデルの対応付けについて,
    合同エージェントワークショップ&シンポジウム2004 (JAWS 2004), pp.378-385 (2004).

  96. 高田司郎,新出尚之, 山川宏,宮崎和光,太田正幸,
    強化学習で獲得したスキルを実践的推論するBDIの実現方法について,
    合同エージェントワークショップ&シンポジウム2004 (JAWS 2004), pp.517-524 (2004).

  97. 井田正明, 野澤孝之, 芳鐘冬樹, 宮崎和光, 喜多一,
    シラバスデータベースの構築と利用,
    第3回 情報科学技術フォーラム, 第4分冊, pp.347-348 (2004).

  98. 宮崎和光, 井田正明, 芳鐘冬樹, 野澤孝之, 喜多一,
    科目分類支援システムの改善とその応用,
    第3回 情報科学技術フォーラム, 第4分冊, pp.291-292 (2004).

  99. 井田正明, 芳鐘冬樹, 野澤孝之, 宮崎和光, 喜多一,
    シラバスデータベースシステムの検討と応用,
    第48回システム制御情報学会研究発表講演会, pp.563-564 (2004).

  100. 高田司郎,山川宏,宮崎和光, 新出尚之, 長行康男, 酒井隆道,
    強化学習とBDIの統合について – カヌーレーシングを例題とした統合手法の考察 -,
    第18回人工知能学会全国大会, 1F1-02 (CD-ROM, 4 pages) (2004).

  101. 野澤孝之, 井田正明, 芳鐘冬樹, 宮崎和光, 喜多一,
    シラバスデータからのクラスタリングに基づく教育コース分析システムの開発,
    情報処理学会 第66回全国大会, 4, pp.377-378 (2004).

  102. 芳鐘冬樹, 井田正明, 宮崎和光, 野澤孝之, 喜多一,
    シラバスからの専門用語抽出手法の検討,
    情報処理学会 第66回全国大会, 4, pp.375-376 (2004).

  103. 井田正明, 芳鐘冬樹, 野澤孝之, 宮崎和光, 喜多一,
    シラバスXMLデータベースシステムの試作,
    情報処理学会 第66回全国大会, 4, pp.373-374 (2004).

  104. 宮崎和光, 井田正明, 芳鐘冬樹, 喜多 一,
    電子化されたシラバスに基づく科目分類支援システムの開発について,
    第2回 情報科学技術フォーラム, pp.381-382 (2003).

  105. 宮崎和光,
    チュートリアル1:エージェントの強化学習,
    合同エージェントワークショップ&シンポジウム2003 (JAWS 2003), デジタルポスターセッション (2003).

  106. 井田正明, 宮崎和光, 芳鐘冬樹, 喜多 一,
    シラバスXMLデータベースシステム構築に関する考察,
    情報処理学会第65回全国大会, pp. 247-248 (2003).

  107. 宮崎和光, 小林重信,
    POMDPs環境におけるProfit Sharingとランダム選択の理論的比較,
    計測自動制御学会 システム・情報部門学術講演会2002, pp.441-446 (2002).

  108. 宮崎和光, 斎藤淳平, 小林博明,
    罰を回避するProfit Sharingの提案,
    第45回自動制御連合講演会, pp.167-170 (2002).

  109. 寺田賢, 宮崎和光, 小林博明,
    マルチエージェント強化学習によるサッカーゲームにおける協調行動の学習,
    第45回自動制御連合講演会, pp.441-442 (2002).

  110. 神谷武志, 宮崎和光, 小林信一,
    情報通信(IT)関連人材育成に関する調査と検討:産業界と大学の需給マッチング問題,
    日本高等教育学会第5回大会, pp.70-71 (2002).

  111. 神谷武志, 宮崎和光,
    情報通信(IT)関連人材育成の改革に関する調査について,
    日本高等教育学会第4回大会, pp.68-69 (2001).

  112. 都崎志保,荒井幸代,宮崎和光,小林重信,
    マルチエージェント強化学習における情報の共有,
    第28回知能システムシンポジウム,pp.45-50 (2001).

  113. 宮崎和光,
    強化学習によるロボットの知的制御 〜Lego MindStormsへの実装〜,
    Dynamics and Design Conference 2000, 101 (CD-ROM, 6 pages) (2000).

  114. 坪井創吾,宮崎和光,小林重信,
    罰回避政策の形成とゲーム問題への応用,
    第27回知能システムシンポジウム,pp.117-122 (2000).

  115. 宮崎和光,石原秀一,荒井幸代,小林重信,
    マルチエージェント強化学習における報酬配分の理論的考察,
    第11回自律分散システム・シンポジウム,pp.289-294 (1999).

  116. 宮崎和光,荒井幸代,小林重信,
    強化学習によるエレベータ群およびクレーン群の制御,
    離散事象システムシンポジウム, pp.55-62 (1998).

  117. 坪井創吾,宮崎和光,小林重信,
    罰回避政策の境界維持による合理的政策の形成,
    第25回知能システムシンポジウム,pp.93-98 (1998).

  118. 宮崎和光,小林重信,
    POMDPsにおける合理的政策の逐次改善アルゴリズムの提案,
    第25回知能システムシンポジウム,pp.87-92 (1998).

  119. 荒井幸代,宮崎和光,小林重信,
    マルチエージェント強化学習によるクレーン群制御,
    第42回システム制御情報学会研究発表講演会,pp.27-28 (1998).

  120. 坪井創吾,宮崎和光,小林重信,
    強化学習に基づくオセロゲームの政策形成,
    第24回知能システムシンポジウム,pp.33-38 (1997).

  121. 木村元,宮崎和光,小林重信,
    ロボットアームによるほふく行動の強化学習,
    第9回自律分散システム・シンポジウム,pp.97-102 (1997).

  122. 宮崎和光,小林重信,
    マルコフ決定過程下での統合的強化学習システム,
    第9回自律分散システム・シンポジウム,pp.85-90 (1997).
    1997年度計測自動制御学会学術奨励賞

  123. 木村元,宮崎和光,小林重信,
    確率的傾斜法による強化学習:不完全知覚への接近,
    システム/情報合同シンポジウム,pp.63-68 (1996).

  124. 宮崎和光,小林重信,
    経験強化型学習の合理性定理に基づく政策の効率的な形成,
    システム/情報合同シンポジウム,pp.57-62 (1996).

  125. 山村雅幸,宮崎和光,小林重信,
    強化学習の最新動向 非マルコフ性への展開,
    システム/情報合同シンポジウム,pp.69-74 (1996).

  126. 宮崎和光,山村雅幸,小林重信,
    MarcoPolo-報酬獲得と環境同定のトレードオフを考慮した学習システム,
    第8回自律分散システム・シンポジウム,pp.121-126 (1996).

  127. 山村雅幸,宮崎和光,岩下健久,小林重信,
    強化学習型マルチエージェント系における協調と競合,
    第6回自律分散システム・シンポジウム,pp.313-316 (1995).

  128. 小林重信,山村雅幸,宮崎和光,
    強化学習における環境同定と報酬獲得のトレードオフ,
    第8回人工知能学会全国大会,pp.57-60 (1994).

  129. 宮崎和光,山村雅幸,小林重信,
    報酬に遅れのある環境下での最適な行動獲得戦略の学習について,
    第19回システムシンポジウム・
    第18回知能システムシンポジウム合同シンポジウム,pp.193-198 (1993).

  130. 宮崎和光,山村雅幸,小林重信,
    Classifier Systemを用いた環境適応システムの構築,
    第18回システム・第16回知能システム・
    第2回ニューラルネットワーク合同シンポジウム,pp.273-278 (1992).

VI. 解説論文等

  1. 宮崎和光, 毛利尚武, 武市正人,
    学士学位取得者に対する『1年後・5年後調査』の分析 - 『学位取得に対する満足度』を中心に - ,
    大学改革支援・学位授与機構 調査研究プロジェクト報告書, 全20ページ, (2016).

  2. 宮崎和光, 井田正明,
    テキストマイニング応用の進展 ー学位授与事業におけるシラバス分類ー,
    知能と情報, Vol.26, No.2, pp.42-50 (2014).

  3. 宮崎和光,
    リレー解説「強化学習の最近の発展」
    第5回:応用志向の「試行錯誤に基づく目的指向学習」Exploitation-oriented Learning ; XoL,
    計測と制御, Vol.52, No.5, pp.462-467 (2013).

  4. 宮崎和光,
    MindStormsと高等教育−特集総説−,
    人工知能学会誌, Vol.21, No.5, pp.517-521 (2006).

  5. 宮崎和光, 山口智浩,
    エージェント-環境間相互作用〜強化学習の立場からの再考〜,
    計測と制御, Vol.44, No.12, pp.859-864 (2005).

  6. 喜多 一,宮崎和光,
    アイ・サイ問答教室 大学評価と学位授与,
    システム/制御/情報,Vol.47, No.9, pp.457-458 (2003).

  7. 宮崎和光,木村元,小林重信,
    Profit Sharingに基づく強化学習の理論と応用,
    人工知能学会誌,Vol.14, No.5, pp.800-807 (1999).

  8. 木村元,宮崎和光,小林重信,
    強化学習システムの設計指針,
    計測と制御,Vol.38, No.10, pp.618-623 (1999).

  9. 宮崎和光,小林重信,
    離散マルコフ決定過程下での強化学習,
    人工知能学会誌,Vol.12, No.6, pp.811-821 (1997).

  10. 宮崎和光,
    離散マルコフ決定過程における強化学習,
    日本ファジイ学会誌,Vol.9, No.4, pp.447-450 (1997).

  11. 山村雅幸,宮崎和光,小林重信,
    エージェントの学習,
    人工知能学会誌,Vol.10, No.5, pp.683-689 (1995).

  12. 山村雅幸,宮崎和光,小林重信,
    強化学習の特徴と発展の方向,
    システム/制御/情報,Vol.39, No.4, pp.191-196 (1995).

VII. 紀要論文

  1. 宮崎和光,井田正明, 芳鐘冬樹, 野澤孝之, 喜多一,
    電子化シラバスに基づく学位授与のための科目分類支援システムの検討,
    学位研究,No.18,pp.133-150 (2004).

VII. その他

  1. 宮崎和光
    より人間らしい人工知能を目指して(<特集>編集委員2007年の抱負),
    人工知能学会誌,Vol. 22, No.1,pp.39 (2007).

  2. 神谷武志,宮崎和光,森利枝,
    ITを利用した高等教育の展開 ー教室外講義, 通信教育を中心にー,
    大学評価・学位研究 (研究ノート・資料), No.2, pp.99-111 (2005).

VIII. 学位論文

博士(工学)
離散マルコフ決定過程における強化学習,
東京工業大学 1996年 3月,

修士(工学)
Optimal Profit Sharing Functions for Classifier Systems,
東京工業大学 1993年 3月,



受賞等

    2023年11月 SSI2023優秀論文賞
    2017年9月 平成28年度 電気学会 電子・情報・システム部門誌 優秀論文賞
    1998年2月 1997年度計測自動制御学会学術奨励賞
    1996年10月 IIZUKA'96 BEST PAPER AWARD
    1995年7月 人工知能学会 1994年度論文賞
    1991年3月 日本機械学会 畠山賞


Google scholar


宮崎和光のホームページへ